kouprianov: (Default)

Не ожидал, что моя довольно техническая заметка в ТрВ вызовет такой резонанс (ближе к концу)... Правда, Сергей Пархоменко цитирует, в основном, преамбулу, но статью, и правда, читают (или заглядывают в). Сейчас глянул -- уже 4500+ просмотров, из них 1800+ за "сегодня" (я так понимаю, по Гринвичу).

http://echo.msk.ru/programs/sut/1694152-echo/

kouprianov: (Default)

В этом тексте суммировал то, к чему вели записи последних ней (каюсь, я скрывал в них основной вектор движения, но важные промежуточные результаты вывешивал). Хорошо, что была возможность разместить скрипт R в качестве supplementum. Определенно, буду показывать его студентам.

«Главное – не в том, что в результате более тщательно проведенного исследования антиправительственная позиция могла бы набрать или потерять несколько процентных пунктов, а в том, что на повестку дня вынужденно встает вопрос: можно ли вообще использовать собранные таким образом данные для сколько-нибудь обоснованных выводов о чем бы то ни было, кроме как о неудовлетворительном качестве данных.»
...
«Для желающих, к статье приложен скрипт (*.zip), написанный для работы в среде статистического программирования и анализа данных R, при помощи которого были выполнены все необходимые для написания этого текста расчеты и иллюстрации. На его основе любой человек, владеющий R, может воспроизвести и продолжить анализ самостоятельно. Для работы с ним необходимо также скачать с сайта ВЦИОМ архив с данными (см. http://wciom.ru/index.php?id=237&uid=115540), распаковать его и переименовать извлеченный из архива файл в crimea.sav»

http://trv-science.ru/2016/01/12/kouprianov/

kouprianov: (Default)
Продолжаю ковыряться. Взял данные переписи. Вот -- половозрастная структура погодно:

ages_by_1yr_cohorts.census_vs_poll.3

А вот по возрастным когортам, использованным ВЦИОМ при обработке данных (выше на рисунке их границы показаны красным пунктиром):

ages_by_VTsIOM_cohorts.census_vs_poll.3

Если взять за основу возрастные группы, использованные ВЦИОМ при обработке данных, и посмотреть на распределение респондентов по ним, то получится вот что: Read more... )
Как все это читать? Мы анализируем распределение по группам у всех (1), у мужчин (2) и у женщин (3). Везде отличия нашей выборки от данных по переписи наблюдаются на запредельных уровнях значимости (p-value -- вероятности того, что эти отличия могли быть обусловлены случайными причинами -- очень низкие). В каждой таблице сравниваются две колонки цифр -- C (Census -- перепись) и P (Poll -- опрос). Пять строчек в колонке соответствуют возрастным интервалам (см. рисунки выше). observed -- это наблюдаемые значения, expected -- теоретически ожидаемые (исходя из гипотезы о том, что в выборке ВЦИОМ возрастные группы населения представлены пропорционально), residuals -- оценка отскока наблюдаемого от теоретически ожидаемого, если больше двух по модулю, то вероятность того, что этот отскок обусловлен случайными причинами, достаточно мала, чтобы можно было считать его неслучайным (подробнее см. в статье Википедии про хихиквадрат или в других разумных источниках про него же).

Коротко говоря, выборка ВЦИОМ и население Крыма по переписи в отношении распределения по половозрастным группам не имеют между собой ничего общего...

UPD: По просьбе коллег, выкладываю с вертикальной осью, отградуированной в частотах:

ages_by_1yr_cohorts.census_vs_poll.3.freq

UPD2: По просьбе особо упрямых коллег -- в частотах и в одном масштабе по вертикальной оси:

ages_by_1yr_cohorts.census_vs_poll.3.freq.065
kouprianov: (Default)

Это настолько смешно выглядит, что даже не знаю, как это можно прокомментировать.

> table(cr.df$data, cr.df$tt)
            
             Республика Крым Севастополь
  1 января              1918         100
  31 декабря             607         400

> table(cr.df$S01, cr.df$data)
                                         
                                          1 января 31 декабря
  Севастополь.                                 100        400
  Симферополь                                  331         93
  Керчь, Евпатория                             329         71
  Феодосия,Ялта                                147        104
  Все остальные города.                        177        134
  Село, пгт.                                   934        205
  Проживаю в другом регионе/городе/районе        0          0
kouprianov: (Default)

В общем, как стало известно из праведного гнева главы ВЦИОМ Валерия Федорова, ВЦИОМ еще 4 января выложил в сеть данные. Разумеется, в формате .sav -- я не знаю, зачем именно в этом. Собственно, базовых гипотез две.

(1) Им хотелось показать, что во ВЦИОМе не лаптем щи хлебают, а SPSSом.
(2) Им хотелось сделать так, чтобы никто из непосвященных не мог ничего посчитать.

В общем, (1) не помогло укрепить репутацию конторы, (2) не помешало мне расколдовать массив с данными и засосать его в R. Начал немного вертеть и вот, что нашел.

UPD (курсивом): По просьбе Виктора Корба явно прописываю свои базовые предположения: Мне казалось, что _исследовательская_ задача (при всех "но" с формулировками вопросов, о чем только ленивый не писал) -- это выяснение того, как на эти вопросы ответит население Крыма. Это значит, что нам надо как-то смоделировать выборкой это самое население. Откуда у нас вообще данные по населению Крыма? Лучше Переписи (хромой и кривой, наверное, но уж какая есть) я ничего себе по серости своей представить не смог.

А нашел я какое-то странное смещение выборки. Смотрите сами. Вот данные про население Крыма по переписи 2014 года и по массиву, выложенному на сайте ВЦИОМ (ссылку на данные ВЦИОМ и данные по переписи в Википедии см. в одной из предыдущих записей). Из переписи брал я не постоянное население, а какое есть, исходя из того, что к телефону люди подходят независимо от прописки (но это не важно, если кому-то кажется, что надо взять именно постоянное население -- берите и считайте). Итак... тут цифры, цифры... )

Если меня спросят «и что?» я скажу: «Не знаю, как там и что, но эта выборка не очень напоминает генеральную совокупность. В ней присутствует не очень понятно как связанное с ответами респондентов смещение, которым невозможно пренебречь, причем присутствует оно во внесевастопольском Крыму, что совсем нехорошо.» Более смелые выводы о результатах опроса можно делать или не делать, но о процедуре могу сказать определенно: процедура неудовлетворительная.

kouprianov: (Default)

Выглядит как-то странно... Данные все оттуда же. См. предыдущую запись.

UPD: Это по опросу, не по переписи...

wciom.2016-01-01.crimea.gender-age
kouprianov: (Default)

Взял кое-каких данных... См. [1] и [2]


CENSUS <- c(872136,1026810)
QUIZ <- c(1097,1928)
cr.sex.table <- data.frame(CENSUS,QUIZ)
cr.sex.chi <- chisq.test(cr.sex.table)

> cr.sex.chi

	Pearson's Chi-squared test with Yates' continuity correction

data:  cr.sex.table
X-squared = 113.17, df = 1, p-value < 2.2e-16

> cr.sex.chi$observed
      CENSUS QUIZ
[1,]  872136 1097
[2,] 1026810 1928
> cr.sex.chi$expected
        CENSUS     QUIZ
[1,]  871844.2 1388.838
[2,] 1027101.8 1636.162
> cr.sex.chi$residuals
         CENSUS      QUIZ
[1,]  0.3125522 -7.830982
[2,] -0.2879621  7.214876

July 2017

S M T W T F S
      1
2345678
9101112131415
1617 1819202122
23242526272829
3031     

Syndicate

RSS Atom

Style Credit

Expand Cut Tags

No cut tags
Page generated Jul. 25th, 2017 04:36 pm
Powered by Dreamwidth Studios