kouprianov: (Default)
[personal profile] kouprianov

Первая попытка вторжения в Польшу принесла лишь видимость победы. В наших руках оказались данные по явке, но без результатов голосования по партиям, а около трех тысяч польских избирателей числились в бегах. Это составляло сотые доли процента, но было неприятно.

Опыт операций в Чехии позволил критически пересмотреть тактику первой польской кампании и спланировать новую десантную операцию. На секретных заводах была создана армия боевых роботов второго поколения. Бои продолжались несколько дней. Самым тяжелым был последний этап, на котором надо было скачать данные по 25993 избирательным участкам и вытянуть изо всего этого итоговую таблицу.

Решающим оказался фактор инфраструктуры и коммуникаций. Распутица и снежные заносы на дорогах Интерzetа сковали действия армии. Исходный массив по obwod'ам (участковым избирательным комиссиям) общим объемом около 2,3 ГБ удалось скачать только в пять приемов. После этого началась масштабная спецоперация по извлечению данных, результаты которой поначалу оказались обескураживающими. Все те же три тысячи польских избирателей по-прежнему скрывались в лесах, а десять obwod'ов куда-то потерялись.

К поисковой операции пришлось подключить человека. Главнокомандующий лично произвел осмотр всех укромных мест, где и были обнаружены 3088 пропавших избирателей, притаившихся на одиннадцати заграничных избирательных участках, упакованных в один, а также два битых участка в странах Арабского Востока, таблицы по которым оказались обрезанными (непредвиденный каламбур) по неизвестным науке причинам. В результате, я все равно не досчитался 735 голосов по трем из одиннадцати партий (это совсем мало -- от 0,010% до 0,026% голосов, поданных за эти партии), но это уже много лучше, чем было.

Отложив в сторону плазменный меч и пульт управления, подумаем о прекрасном -- пойдем считать/рисовать.

Date: 2012-01-25 07:35 am (UTC)
From: [identity profile] e9i6ehbka.livejournal.com
Всегда бы количественные методы преподносились так горячо :)

Date: 2012-01-25 08:25 am (UTC)
From: [identity profile] kouprianov.livejournal.com
Да нет там никаких особых методов. Одни унылые гистограммы, тесты на нормальность, линейная регрессия. Главная морока -- с моими начальными познаниями в perl написать действующих роботов, которые все правильно скачают и почистят. При таком объеме информации довольно трудно вылавливать ошибки вручную, это значит, что надо делать роботов как-то так, чтобы они делали то, что нужно, а не что придется. Самое главное -- разгадать все регулярные последовательности (понять, как индивидуализировать те или иные поля базы данных, не пропустить какие-нибудь пробелы, всякую такого рода ползучую мелочь) и понять, сколько типов таблиц сырого материала понасоздавали на сайте. Довольно неприятно обнаруживать, что, например, при 11 партиях, участвующих в выборах, в таблице по участку, как правило, представлено от 7 до 9. Или, что одни участки находятся на одном, а другие -- на другом уровне вложения.

Вот, например, сейчас R пишет мне, что две строки она-таки выкинула из-за missing values. Что имеется в виду -- не ясно. Все числовые поля должны были быть заполнены. Где-то две строки съехало? Сижу, думаю, плюнуть или отправиться ловить?

Date: 2012-01-25 08:30 am (UTC)
From: [identity profile] e9i6ehbka.livejournal.com
Всегда можно подбросить монетку.

March 2025

S M T W T F S
      1
2345678
910 1112131415
16171819202122
23242526272829
3031     

Style Credit

Expand Cut Tags

No cut tags
Page generated Mar. 22nd, 2026 05:46 pm
Powered by Dreamwidth Studios