Когда появились первые картинки по поводу выборов 4 декабря, почетное место среди них заняла диаграмма рассеяния в координатах «явка на избирательный участок» / «доля голосовавших за ЕР». Облако точек было заметно вытянуто по диагонали, упираясь верхним правым концом в стопроцентные явки со стопроцентными значениями по ЕР. Незатейливо накинутая на это чудо прямая линейной регрессии шла по оси вытянутого облака из нижнего левого угла в верхний правый.
Посмотреть на Яндекс.Фотках
Эта самая картинка от
a_marko, которую он мне забросил в комменты.
Это, наряду с подпрыгивающим на кратных пяти значениях «распределением Чурова», рассматривалось многими как достаточно убедительное доказательство массовых фальсификаций на выборах, выполнявшихся, в основном, путем бесхитростного вброса бюллетеней, каруселей/ручейков и/или принуждения избирателей к голосованию за ЕР, по крайней мере, в «аномальной» правой части графика.
Скептики тут же отметили, что, если посмотреть на другие страны, по которым легко обнаружить данные (Англия и Германия), то и там можно наблюдать зависимость доли голосов за партию от доли избирателей, явившихся на участок. Объяснялось это тем, что электораты разных партий отличаются различной степенью активности (применительно к России это объясняли так: протестный электорат невелик и активен -- несогласных немного и на выборы они приходят все, какие есть, а вот избиратели ЕР многочисленны и ленивы, поэтому там, где они ленивы, процент ЕР невысок, а где не ленивы, там ЕР значительно обгоняет остальные партии, поскольку протестные избиратели уже закончились, а ЕР-овские все идут и идут).
Однако во всех записях на эту тему на момент их публикации (сейчас лень лезть проверять апдейты) отсутствовало обсуждение одного немаловажного параметра. По не вполне понятным причинам, скептики считали вполне достаточным показать, что коэффициент регрессионного уравнения, определяющий наклон прямой, достоверно отличается от нуля. Мне же казалось, что важнее посмотреть на коэффициент детерминации, показывающий, грубо говоря, на то, насколько облако вытянуто вдоль кинутой на него линии регрессии. Желающие могут взять в руки Ёксель и, сгенерировав случайную последовательность пар чисел, полюбоваться на линии регрессии с различным углом наклона, но довольно жалкими коэффициентами детерминации (дело облегчает то, что Ёксель не рассчитывает никаких других параметров, в частности, не дает ошибок и не указывает уровень значимости для коэффициентов уравнения линейной регрессии). Беглые подсчеты по партиям тех же Германии и Англии показывали заметно более низкий коэффициент детерминации (порядка 0.1 для ХДС/ХСС в Германии и 0.38 для консервативной партии в Англии), чем в случае ЕР (порядка 0.5), однако данные по Германии и Англии не устраивали меня по ряду причин. Во-первых, они были даны с меньшей степенью детализации (по России все смотрели на уровень УИК, а Англия и Германия были доступны на уровне примерно наших ТИКов). Во-вторых, Англия и Германия -- не самые близкие к нам страны по различным параметрам избирательной системы. Обе -- «старые» демократии (если исключить бывшую ГДР). В Англии пересчет волеизъявления избирателей в места в парламенте происходит по мажоритарной системе, в Германии -- по пропорциональной, но не совсем такой, как в России. Хотя бы эти факторы надо было исключить.
Стало быть, требовались страны (1) последней волны демократизации, (2) с пропорциональной системой представительства на основе партийных списков и с наличием порога прохождения партий в парламент. Изо всех таких стран (около 10 по предварительным подсчетам) данные были обнаружены и собраны по пяти (Эстония, Латвия, Польша, Чехия, Болгария), но только по трем последним их удалось собрать в нужной степени детализации (до уровня УИК по всем параметрам).
В целом, основные результаты таковы:
1. Распределения как явки на выборы, так и долей голосов за партии не проходят тестов на нормальность. Иногда бывают довольно причудливыми (см., например, некоторые партии в Болгарии и Польше). Подробный анализ причудливых случаев -- позже. Предварительная гипотеза связана со значительной неравномерностью расселения сторонников этих партий по территории страны (для Польши эта гипотеза по предварительным прикидкам, вроде бы, подтверждается, но надо систематически проработать этот вопрос).
2. В каждой из стран есть несколько размерных групп участков, несколько различающихся по явке (подробный анализ позже, замечу только, что в Болгарии и Чехии этих групп две, а в Польше -- не меньше трех, две из которых трудно(но)различимы).
3. Корреляции между явкой и долей голосов за партию крайне слабы. В большинстве случаев о них вообще не приходится говорить, когда они хоть сколько-нибудь выражены, то коэфф. детерминации не превышает 0.17 (всего из 55 партий такие большие значения отмечены у двух, еще у шести они едва -- но все же -- отличимы от нуля, у остальных -- считай нет вовсе). Значений, подобных тем, что наблюдаются у ЕР, нет вовсе.
Собственно, обзорная таблица и картинки:
| Страна (год) | Зарегистрировано избирателей | Действительных голосов | Избирательных участков | Партий всего | Прошедших в Парламент |
|---|---|---|---|---|---|
| Болгария (2009) | 6 973 770 | 4 225 667 | 11 863 | 18 | 6 |
| Чехия (2010) | 8 415 892 | 5 230 859 | 14 894 | 26 | 5 |
| Польша (2011) | 30 762 931 | 14 369 503 | 25 993 | 11 | 5 |
Сначала -- общая картина по всем трем странам. Размеры избирательных участков (в душах зарегистрированных избирателей) и явка.
Теперь -- картинки по прошедшим в Парламент / Сейм партиям: доля голосов как функция явки.


Чтобы не утомлять таблицей, привожу картинку про коэфф. детерминации.
С благодарностью
podmoskovnik,
oude_rus,
kobak,
jemmybutton за общие идеи по поводу методов обработки (отдельное спасибо
eugene_yakovis за привлечение внимания к записи jemmybutton о Германии),
ishc, А. Шипунову,
a_marko,
anatol_olegych,
ocehb,
vlkamov за помощь с освоением perl и R,
grey_dolphin за незримое присутствие, skytteanum, удалившему журнал, -- за помощь из подполья, последствия которой еще не очень заметны, а также совсем анонимным людям с IP разных стран за отдельные советы и комментарии.
no subject
Date: 2012-01-30 09:08 pm (UTC)no subject
Date: 2012-01-30 09:13 pm (UTC)no subject
Date: 2012-01-30 09:27 pm (UTC)no subject
Date: 2012-01-30 09:29 pm (UTC)no subject
Date: 2012-01-30 10:59 pm (UTC)И памятки «Голоса» есть.
(no subject)
From:no subject
Date: 2012-02-02 11:39 am (UTC)Оригинальная версия презентации Бузина из "Голоса" (с видео-роликами)
http://narod.ru/disk/31416906001/Present2011.rar.html
Обновлённая версия "Гражданина наблюдателя"
http://narod.ru/disk/39394292001/present2012.rar.html
Спрaвочник, законы, решения ЦИК и МГИК, и т.д. можно взять тут:
http://sites.google.com/site/rupollwatchers
Ещё материалы есть на форуме:
https://forum.nabludatel.org/index.php?topic=3.0
(no subject)
From:no subject
Date: 2012-01-30 09:08 pm (UTC)no subject
Date: 2012-01-30 09:14 pm (UTC)no subject
Date: 2012-01-30 09:52 pm (UTC)no subject
Date: 2012-01-30 10:06 pm (UTC)На самом деле, не исключаю, что мне удастся состричь еще данных для дополнительных сравнений (хотя там все страны будут довольно маленькими, кроме, пожалуй, каких-нибудь Испании или Турции), но мне что-то подсказывает, что вывод будет, как всегда: "я другой такой страны не знаю, где так..."
(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2012-01-30 11:00 pm (UTC)А у каких двух партий и в каких странах R^2 выше 0.15? Было бы интересно понять, что там происходит.
no subject
Date: 2012-01-30 11:44 pm (UTC)Теперь об аномалиях в R^2. Это Польша -- PORP и PSL (первая и четвертая на диаграммах для парламентских партий Польши). Моя первая гипотеза -- географическая сегрегация электоратов. Если присмотреться к scatterplots, то видно, что у них почти зеркальные картинки. Начал проверять пока довольно топорным способом -- рисуя отдельные диаграммы рассеяния для каждого из 41 округов. Быстро не получается (начался семестр и много времени отъедает преподавание) да и уровень овладения R пока далек от того, чтобы такие вещи получались непринужденно, но, например, 7-й округ почти полностью укладывается в "ножку" гриба на диаграмме для PORP. Есть шансы, что и некоторые другие округа лягут достаточно ровно, но это надо проверять. Должно быть, можно сразу было бы без прикидок посчитать какой-нибудь непараметрический аналог дисперсионного анализа и что-то такое сказать, но я не очень свободно владею статистикой, поскольку уже десятка два лет не доводилось ею всерьез пользоваться (да и до того я не был количественником) -- надо будет дополнительно читать и думать, а если прикидка ничего ощутимого не даст, я в эти дебри пока вдаваться не хочу.
(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2012-01-30 11:30 pm (UTC)no subject
Date: 2012-01-31 08:49 am (UTC)Меня в этом плане одна болгарская партия поразила -- Движение за права и свободи (третья сверху). Мало того, что двугорбое, так еще и горбы -- в районе нуля и ста.
no subject
Date: 2012-01-31 10:48 pm (UTC)no subject
Date: 2012-01-31 06:45 am (UTC)Спасибо тебе за работу. Мне кажется, что про коэффициент детерминации следовало сказать чуть подробнее. Хорошо было бы на последней картинки представить для наглядности данные по Едру. И хотелось бы видеть в конце заметки подробный или хотя бы краткий комментарий к картинкам с выводом.
Вообще, ты молодец! Спасибо тебе за добросовестную работу.
no subject
Date: 2012-01-31 10:57 am (UTC)Я все немного поломал (поскольку это не статья, а краткий и довольно криптический progress-report по поводу обработки данных) и поставил предварительные и далеко не полные выводы перед картинками (а картинки дал только как приложение к ним). Главный вывод -- связь между явкой и долей голосов за партию в подавляющем большинстве случаев не выражена, а где она есть, там она крайне слаба, поэтому крайне сильная для социальных наук связь между явкой и долей голосов за ЕР выглядит крайне подозрительной аномалией.
О характере этой слабой (или сильной) связи можно строить разные каузальные гипотезы (Г есть причина Я, Я есть причина Г, Х есть причина Г и Я), выбор между которыми возможен на основе правильно выстроенных сравнительных рядов кейсов по разным странам и регионам. Однако тут мы натыкаемся на факторы, определяющие явку, -- традиционный предмет исследований в области Electoral studies, и надо перелопатить гору литературы, чтобы писать об этом основательно.
Про пояснения о коэффициенте детерминации -- согласен, но мне кажется, что в двух словах больше не скажешь, а в деталях то, что я скажу, будет мало отличаться от соответствующей главы в любом учебнике или общедоступной статьи в Википедии. Грубо говоря -- это то, насколько силен разброс точек от линии регрессии. Чем больше разброс -- тем меньше R^2.
Считается он как единица минус (сумма квадратов отклонений эмпирических значений "зависимой" переменной от теоретически ожидаемых значений "зависимой" переменной при данных значениях "независимой") деленная на (сумму квадратов отклонений эмпирических значений "зависимой" переменной от среднего по этим самым эмпирическим значениям). Знатокам больше скажет формула, но я ее переписал словами для тех, кто боится всяких игрек-итых. По сути, это пирсоновский коэфф. корреляции в квадрате (соответственно, квадратный корень из R^2 равен по модулю коэфф. корреляции, значения типа 0.16-0.17 соответствую коэфф. корреляции около 0.42, а 0.5 ~ 0.75).
no subject
Date: 2012-01-31 09:50 am (UTC)no subject
Date: 2012-01-31 10:16 am (UTC)no subject
Date: 2012-01-31 12:47 pm (UTC)Я профан в статистике, но, по моему, распределение голосов за партии (и явка), так как оно ограничено интервалом 0-100%, должно описываться не нормальным распределением, а бета распределением http://en.wikipedia.org/wiki/Beta_distribution (или суммой бета распределений), и соответственно априори не должно (?) проходить тестов на нормальность.
no subject
Date: 2012-01-31 08:39 pm (UTC)Вместе с тем, явка во всех странах довольно отчетливо однопиковая и почти симметричная. К несчастью, для того, чтобы обсуждать закономерности вариабельность явки, нам нужно много больше стран, чем представлено в этом анализе. Про доли голосов за партии пока писать не готов совсем.
no subject
Date: 2012-01-31 07:11 pm (UTC)no subject
Date: 2012-01-31 08:25 pm (UTC)Насчет критериев отбора стран, я бы хотел послушать
начальника транспортного цеха, почему, например, надо сравнивать именно с Англией и Канадой? Мои частично были квази-априорными (я интуитивно понимал, что не надо бы брать страны с мажоритарной системой из за того, что это должно влиять на стратегию голосования, в том числе -- ногами), частично выстраивались по ходу дела, когда я начал смотреть журнал Electoral studies (там довольно много статей о факторах, влияющих на явку, о том, как избиратели со временем учатся голосовать от цикла к циклу и т. п. -- оттуда, например, растут ноги у идеи о том, что, чтобы голова не болела, проще обойтись "демократиями третьей волны").(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2012-01-31 10:23 pm (UTC)Про деление на Польшу A и Польшу B почти весь мир знает:
no subject
Date: 2012-01-31 10:32 pm (UTC)