kouprianov: (Default)
[personal profile] kouprianov
над расчетом линейной регрессии, Gnumeric упал. Попробую выкинуть все лишнее и запустить считать снова. Вообще, весь вечер и утро прошли примерно в таком режиме: попросил импортировать файл, попил чаю, принял душ, лег спать, проснулся, обнаружил, что файл импортировался. Написал пару формул, попросил растянуть их на всю ддину столбца, помыл посуду, позавтракал, они растянулись. Послал считать регрессию... и т. д. ...


Posted via m.livejournal.com.

Date: 2011-12-12 12:40 pm (UTC)
From: [identity profile] a-marko.livejournal.com
Что за чудовищные расчеты? Может, в R было б проще?

Date: 2011-12-12 01:00 pm (UTC)
From: [identity profile] kouprianov.livejournal.com
Два столбца по приблизительно 98 тыс. с гаком строк. В R, думаю, проще, но R я отложил на вечер. У меня к нему нет даже миниамального гуя, кроме того, как показали первые столкновения с Gnumeric'ом, там таблица была поначалу немного неровная - не все строки аодержали равное количество столбцов. Ни я, ни R этого бы не заметили. Вечером сделаю выгрузку, попробую запихать в R. Надеюсь, поможет.

Date: 2011-12-12 01:02 pm (UTC)
From: [identity profile] a-marko.livejournal.com
А чего к чему регрессия, если не секрет?

Date: 2011-12-12 06:52 pm (UTC)
From: [identity profile] kouprianov.livejournal.com
R не шмогла. Упасть не упала, но написала, что ей некуда сложить вектор размером 1.8 ГБ и результатов не выдала. Да, приехав домой и заглянув в файл, выяснил, что там всего-навсего 95 с гаком тыс. строк, а не 98. Чего к чему: доля голосов к явке по УИК.

Date: 2011-12-13 06:06 am (UTC)
From: [identity profile] trombicula.livejournal.com
А почему, интересно, в женском роде? Мне бы и в голову не пришло, что R - женщина.

Date: 2011-12-13 06:13 am (UTC)
From: [identity profile] trombicula.livejournal.com
Кстати, есть сообщество по R: r_statistics. Думаю, там бы легко подсказали, что делать с вектором в 1.8 ГБ. Если неровная таблица, то R, по идее, должен вставить NA на пустые места.

Date: 2011-12-13 10:57 am (UTC)
From: [identity profile] ashipunov.myopenid.com (from livejournal.com)
Много чего можно делать. Но прежде всего надо выяснить, откуда там 1.8 Гб. Насколько я понимаю эти данные, их можно успешно компактизировать.

Date: 2011-12-13 11:24 am (UTC)
From: [identity profile] kouprianov.livejournal.com
Спасибо за материалы, сейчас снова должен убежать по делам, попробую повоевать вечером.

Date: 2011-12-13 11:19 am (UTC)
From: [identity profile] kouprianov.livejournal.com
Там неприятность была в том, что некоторые строки из за missing'a в самом начале строки банально "съехали" на один столбец, в результате, подстановка n/a не столько помогла бы, сколько запутала бы дело. Представь, что у тебя есть две переменных А и В, причем иногда таблица съезжает так, что переменная А пропадает, В занимает ее место, а на месте В появляется пустое поле. Причем это не единичные случаи, а целые кластеры с тысячами значений.

Date: 2011-12-12 02:40 pm (UTC)
From: [identity profile] myugor.livejournal.com
"рассмотрены в профессиональной среде"? Cсылки по адресу - на непрофессиональный блог http://wiz-aut.livejournal.com/ и статью Чурова с парой соавторов в Тр. ИСА РАН. Всё?

Date: 2011-12-12 04:15 pm (UTC)
From: [identity profile] simmons-fan.livejournal.com
Эти вопросы не по адресу.

Date: 2011-12-12 06:58 pm (UTC)
From: [identity profile] kouprianov.livejournal.com
Ну, видел уже. Вы думаете, Вы -- первый, кто присылает мне эту ссылку? Он бы лучше посчитал что полезное, чем языком молоть.

Date: 2011-12-12 07:06 pm (UTC)
From: [identity profile] simmons-fan.livejournal.com
Коли так, ни на секунду не сомневаюсь в том, что вы легко избежите столь дилетантских ошибок при такой-то экспертизе в области анализа данных.

Date: 2011-12-12 09:45 pm (UTC)
From: [identity profile] kouprianov.livejournal.com
Дилетантам, вроде меня, разумеется, свойственны дилетантские ошибки. Постараюсь выставить их на всеобщее обозрение, чтобы пришли профессионалы и научили уму-разуму.

Date: 2011-12-13 04:40 am (UTC)
From: [identity profile] vlkamov.livejournal.com
Gnumeric - это ж таблица. 98 тысяч строк - явный перебор.
У меня есть хобби - писать на Перле скрипты решения задач, о которых много говорят, но избегают приводить реальные числа, например
http://vlkamov.livejournal.com/315109.html
Если вы объясните мне, что делать, могу попробовать и ваш случай.

Date: 2011-12-15 02:46 pm (UTC)
From: [identity profile] kouprianov.livejournal.com
Ой, прошу прощения, в этой суматохе пропустил. Спасибо большое за готовность помочь. Я, тем временем, разобрался с R -- мне объяснили, что на самом деле надо было делать и литературы подкинули, так что я эту штуку теперь довольно быстро сосчитал. Охочусь за данными по другим странам теперь -- для сравнения.

Вот, для наглядности:

Date: 2011-12-15 02:36 pm (UTC)
From: [identity profile] a-marko.livejournal.com
Image (http://fotki.yandex.ru/users/a-morkovin/view/379685/)
Посмотреть на Яндекс.Фотках (http://fotki.yandex.ru/users/a-morkovin/view/379685/)

По-хорошему, стоило бы в качестве весов для регрессии задать число людей, приписанных к каждому УИКу.

Re: Вот, для наглядности:

Date: 2011-12-15 02:42 pm (UTC)
From: [identity profile] kouprianov.livejournal.com
Да, я, как раз, сейчас досчитываю по советам Алексея Шипунова, и сравниваю с Германией и Англией. Пытаюсь найти еще данных для сравнения, но пока идет туго. А как у Вас получилось сделать кружочки побольше ) ? У меня все однопиксельными точками. Германия и Англия смотрятся в однопиксельном исполнении довольно уныло.

Re: Вот, для наглядности:

Date: 2011-12-15 02:44 pm (UTC)
From: [identity profile] kouprianov.livejournal.com
О, только что понял, как сделать кружочки )

Re: Вот, для наглядности:

Date: 2011-12-16 07:27 am (UTC)
From: [identity profile] a-marko.livejournal.com
А у меня кружочки по умолчанию.

March 2025

S M T W T F S
      1
2345678
910 1112131415
16171819202122
23242526272829
3031     

Style Credit

Expand Cut Tags

No cut tags
Page generated Mar. 21st, 2026 03:46 pm
Powered by Dreamwidth Studios