kouprianov: (Default)

Очередное сильное колдунство, чтобы не забыть:

pdftk input1.pdf input2.pdf input3.pdf cat output output.pdf
kouprianov: (Default)

Подождать, пока со следующей версией пройдет само? И что именно сломалось? UPD: заработало само. Конфликтовали две сессии обновления (запустил случайно).

kouprianov: (Default)

В продолжение вчерашних боев. При попытке засунуть коллекцию текстов под mallet выползала ошибка:

> mallet.instances <- mallet.import(text.ids, doc.text, "ru.txt", token.regexp = "[\\p{L}\\p{N}-]*\\p{L}+")
Error in .jcall("RJavaTools", "Ljava/lang/Object;", "invokeMethod", cl,  :
  java.lang.NoSuchMethodException: No suitable method for the given parameters

Решение нагуглилось внезапно после нескольких непонятно почему неудачных попыток. Оказалось, что id текстов и сами тексты должны иметь вид character. Каким образом его утрачивают вторые -- не ясно (как впрочем и то, зачем его должны иметь первые).

> mallet.instances <- mallet.import(as.character(text.ids), as.character(doc.text), "ru.txt", token.regexp = "[\\p{L}\\p{N}-]*\\p{L}+")
kouprianov: (Default)

Эта запись сделана для памяти и будет носить эзотерический характер. Чем дальше от старых добрых статистических методов, тем страшнее и тем меньше стандартизации. Забрел, с подачи Кирилла Маслинского, в область компьютерного анализа текстов. Довольно быстро выяснилось, что какие-то пакеты для обработки текстов написаны под более позднюю версию R, чем та, что стоит у меня на машине, за обновлением R потянулась необходимость обновления Java, за ними -- недокументированные причуды самих новых версий пакетов и т. д. и т. п.

Коротко говоря, чтобы не забыть:

(1) Для установки пакета mallet нужна библиотека, которой у меня не было, пришлось ставить (без нее не компилируется):

apt get install liblzma-dev

(2) В новой версии пакета tm иначе работает функция tolower (конвертация всех заглавных букв в строчные):

corpus<-tm_map(corpus, content_transformer(tolower))

если использовать старый способ работы с нею, то потом не работает стемминг (усечение слов до основы):

corpus<-tm_map(corpus, stemDocument)

Восстановление слов от основ до наиболее обычной по корпусу формы

corpus<-tm_map(corpus, stemCompletion, dictionary=corpus, type="prevalent")

(надобное, как я понимаю, в эстетических целях) пока не заработало и гугление никакого ответа пока не принесло.

kouprianov: (Default)

1. Лучшим проигрывателем видео признан mplayer (его пришлось sudo apt-get install), он почему-то не был предустановлен.

2. В воскресенье, собираясь утром на марш и олимпиаду я по рассеянности установил на фотоаппарате 1 марта 2014 года, а поскольку в какой-то момент там было выставлено принудительное проставление timestamp, то все кадры оказались помечены датой годичной давности. Внезапно выяснил, что все это, в общем, поправимо, и вот каким способом.

Способ в три этажа... )

UPD: ссылка по теме: http://www.imagemagick.org/Usage/

kouprianov: (Default)

Вздумалось мне тут положить один нарисованный в R график на другой. Нет, я потом, конечно, сделал все через par(new=T), как подобает настоящему самураю, но поначалу мне показалось, что совместить два готовых PNG изображения в GIMP будет быстрее. Не тут-то было. Сделав это, я тут же обнаружил, что меньший по размеру график нарисован на светло-сером фоне, который хорошо заметен на белом фоне большего по размерам графика. Первая мысль была, конечно, о том, что надо принудительно указать белый цвет фона через par(..., bg="white"). Безрезультатно. Фон остался серым. Вторая -- о том, что можно сделать фон не белым, а прозрачным при помощи par(..., bg="transparent") (паника: за несколько лет успел забыть, как сделать прозрачность в GIMP). Никакого толку. Фон, возможно, стал прозрачным, но вместе с ним прозрачными стали и черные линии, причем они стали бледно серыми до почти полной невидимости. Зашел в тупик, отправился гуглить.

По результатам гугления поставил imagemagick (почему-то его по умолчанию не стояло), после чего все оказалось элементарно. Написал в командной строке:

convert filename.png -transparent white filename.png

Получил на выходе файл с идеально прозрачным фоном и черными линиями на оном. Положил его в GIMP на основной график, все срослось.

Подсказку про imagemagick нашел тут: http://stackoverflow.com/questions/25354479/opaque-legend-in-an-r-plot-with-transparent-background

Но через par(new=T), разумеется, проще...

kouprianov: (Default)

Недоставало хорошего текстового редактора. Gedit не понравился. Medit, который я поставил из репозитария, почему-то страдал странным недостатком. Он был лишен большинства стандартных горячих клавиш и не позволял их определять. Немного погуглив, узнал, что это -- известный баг, который уже исправлен в версии 1.0.5. Удивился. Полез смотреть версию и обнаружил, что у меня стоит 1.0.3. Еще немного погуглив, решил установить 1.2.0. Установил, надеюсь, установка dependencies ничего не разрушила. Пока все, вроде бы, живы.

http://mooedit.sourceforge.net/ Здесь живет Medit.

http://sourceforge.net/p/mooedit/bugs/161/ Здесь мне сказали, что такой баг заметили и починили в версии 1.0.5.

http://www.tuxarena.com/2014/04/medit-1-2-0-gnome-alternative-to-gedit-ubuntu-installation/ Здесь мне рассказали, как поставить Medit 1.2.0.

Суть рассказа... )

kouprianov: (Default)

Так можно скопировать файлы с удаленного компьютера на свой:

rsync -zarvptP -e ssh user@server:Path/Folder Path

Что писать вместо user@server можно подглядеть в окне терминала в начале командной строки, Folder и Path добавить по вкусу (это имя синхронизируемой папки и путь, куда откуда взять / куда положить). Чтобы копировать со своего на удаленный, надо поменять местами адресата и получателя. Справку, как всегда, смотрим по rsync -h или man rsync. Краткий рецепт и объяснялку на русском языке подглядел здесь:

http://linux-freebsd.ru/linux/programmnoe_obespechenie-linux/sinhronizatsiya-faylov-s-pomoshhyu-rsync-po-ssh-linux-freebsd/

https://cloudtips.org/rsync.html

P. S. Вчера было: 2/300/-84/216

kouprianov: (Default)

Еще в прошлом семестре перед самым скачком курса купил ноутбук Dell Latitude с предустановленной Ubuntu (старый нетбук от Asus начал потихоньку распадаться, да и тормозит он порядком). Только сейчас дошли руки до переезда. Оставлю себе памятку по поводу того, что пришлось сделать (уверен, выявились еще не все проблемы, буду updatить по ходу дела).

Памятка (заметки и команды)... )
kouprianov: (Default)

Занятная странность. Последние два дня время на лаптопе уходит вперед, приходится все время поправлять его по sudo ntpdate ntp0.zenon.net Вот, как раз недавно поправлял, и он мне в очередной раз говорит: 30 Apr 21:04:51 ntpdate[29321]: step time server 195.2.64.6 offset -1029.991155 sec

И вообще, надо сказать, оно идет вперед семимильными шагами (обращения к серверу я, для краткости, опускаю):

30 Apr 21:10:58 ntpdate[30261]: step time server 195.2.64.6 offset -3.050441 sec
30 Apr 21:11:05 ntpdate[30276]: step time server 195.2.64.6 offset -0.639027 sec
30 Apr 21:11:25 ntpdate[30310]: step time server 195.2.64.6 offset -2.013198 sec
30 Apr 21:12:36 ntpdate[30423]: step time server 195.2.64.6 offset -7.178678 sec
30 Apr 21:14:39 ntpdate[30596]: step time server 195.2.64.6 offset -12.326322 sec

Что бы это могло значить? Не заселилось ли в меня что-то странное? И как бы сие проверить?

UPD: По совету Стокгольмских мудрецов, помогла перезагрузка.

kouprianov: (Default)

Много полезного и привычного по Linux для командной строки под Windows:

http://unxutils.sourceforge.net

kouprianov: (Default)

Недавно спрашивал: Cuneiform или Tesseract? По мере вопрошания / отвечания, выяснил, что у меня, похоже, стоят оба, но первый распознает так себе, а второй почему-то не работает, хотя какие-то признаки его присутствия обнаруживаются.

Сегодня расколдовал. Спасла разведка:

sudo apt-cache search tesseract

а потом -- эксперимент:

sudo apt-get install tesseract-langpack-ru

Стоял ли у меня Tesseract до того, понять я так и не смог, но после установки этого модуля он заработал из-под YAGF. Попутно выяснил, что он работает и из командной строки, но, поскольку проверить это с утра мне в голову не пришло, вопрос о том, был он у меня или нет (или встал только вместе с первым langpack'ом), так, видимо, навсегда и останется тайной.

Результаты работы на моем пробном скане страницы лучше, чем у Cuneiform, но, вроде, похуже, чем у FineReader.

kouprianov: (Default)

http://open.cnews.ru/news/top/index.shtml?2010/12/27/421556

Сегодня [27 декабря -- А. К.] стало известно, что премьер-министр Владимир Путин подписал документ, в котором описан график перехода властных структур на свободное ПО (СПО). Документ называется «План перехода федеральных органов власти и федеральных бюджетных учреждений на использование свободного программного обеспечения» и освещает период с 2011 до 2015 г.

Я говорил, что это только вопрос времени (весть принес [livejournal.com profile] anatol_olegych).

July 2017

S M T W T F S
      1
2345678
9101112131415
1617 1819202122
23242526272829
3031     

Syndicate

RSS Atom

Style Credit

Expand Cut Tags

No cut tags
Page generated Jul. 25th, 2017 04:39 pm
Powered by Dreamwidth Studios