kouprianov: (Default)
rsync -zaPv --exclude 'webcams' /home/username/Documents/* /media/username/Elements/username/Documents/

Намедни хомятник сказал, что ошибся и перешел в режим read-only. Недобрый знак. Пора менять жесткий диск. Сделал backup (открыл для себя --exclude). Скачал дистрибутив Ubuntu 18.04.3. Затаился.

kouprianov: (Default)

Надо было извлечь ряд страниц подряд из PDF. Раньше использовал для этого печать в файл из штатного GUI viewer'а (которая на этот раз не могла правильно обработать некоторые страницы, добавляя к ним белое поле) или pdftk. Pdftk однако в новых версиях Ubuntu прибили. Некоторое время назад нашел было замену -- qpdf. Так вот, на этой простейшей задаче чуть голову не сломал. Оказывается, зачем-то надо писать имя входного файла дважды. Да, версия qpdf, которая в Ubuntu 18.04 вставлена, -- 8.0.2 (это значит, что использование точки в качестве заместителя ранее упомянутого имени файла, рекламируемое на Sourceforge, в ней еще не появилось, но, вообще-то, все остальное -- как у людей).

qpdf infile.pdf --pages infile.pdf 1-22 -- outfile.pdf

В общем, при pdftk такого не было...

kouprianov: (Default)
С класса по GIS
https://gadm.org/
https://opendata.cityofnewyork.us/
http://webcensus.ru/%d0%b4%d0%b0%d0%bd%d0%bd%d1%8b%d0%b5/

Отдельно, но тоже к впросу о GIS
https://www.erfgoedleiden.nl/erfgoed-kaart/experimenten

С круглого стола по открытым данным из вводного сообщения Феклы Толстой
http://tolstoy.ru/
http://search.tolstoy.ru/
http://index.tolstoy.ru/

С лекции о том, что идет на смену word2vec
https://rusvectores.org/ru/
https://rusvectores.org/ru/models/
https://github.com/ltgoslo/simple_elmo
https://github.com/google-research/bert
https://allennlp.org/elmo

С нашего tutorial (многое случайно занесло)
https://pleiades.stoa.org/downloads
https://www.semanticscholar.org/paper/An-OWL-Ontology-for-Biographical-Knowledge.-Factual-Krieger-Declerck/5288f8aa6269df5b8748efa4a9055c55f9575e15
https://www.tei-c.org/release/doc/tei-p5-doc/en/html/ND.html#NDPERS
https://factoid-dighum.kcl.ac.uk/what-is-factoid-prosopography-all-about/
https://schema.org/Person
https://projects.iq.harvard.edu/cbdb/supporting-documents
https://www.wikidata.org/wiki/Wikidata:WikiProject_Biographical_Identifiers
bibliontology.com/
https://www.tei-c.org/release/doc/tei-p5-doc/en/html/ref-schemaSpec.html
http://www.foaf-project.org/
http://linkedevents.org/ontology/
https://www.ldf.fi/dataset/history/
https://www.researchgate.net/publication/324854179_Towards_a_Biographic_Knowledgehttps://seco.cs.aalto.fi/applications/kulttuurisampo/
https://seco.cs.aalto.fi/publications/2017/leskinen-et-al-biographies-2017.pdf
http://metadata.berkeley.edu/BiographyLightOntology.pdf
http://ceur-ws.org/Vol-1399/paper16.pdf
http://vocab.org/bio/

Из подведения итогов / презентации от Системного Блока
https://www.distantviewing.org/
kouprianov: (Default)
В этом году стартует второй проект, еще масштабнее и страшнее циклопического атласа коммуникационной инфраструктуры Российской Империи, о котором я писал чуть раньше. Мы решили всерьез научить Tesseract "читать" тексты в русской дореформенной орфографии. Если это удастся сделать, это будет означать прорыв в оцифровке русскоязычных книг, журналов и газет гражданской печати XVIII -- начала XX вв.

Найдется место всем -- историкам, филологам, дизайнерам, любителям старой книги и тем, кто любит возиться с данными на компьютере. Студенты бакалавриата и магистратуры ВШЭ, ау! Сердечно признателен Alexandra Bessonova (FB) за неоценимую помощь на подготовительном этапе!

#ЦифроваяГуманиора #DigitalHumanities

Регистрация: https://pf.hse.ru/308029950.html
kouprianov: (Default)

1. Командная строка / терминал

Пять самых важных вещей, которые надо знать о командной строке / терминале: (1) где его найти; (2) клавиши up и down можно использовать для навигации по истории команд; (3) клавиша tab автоматически дополняет имена файлов и папок (в меру того, насколько компьютер сможет разобраться в том, что вы имели в виду); (4) cd и ls (dir) -- две основные утилиты для навигации по папкам и просмотра их содержимого; и (5) система адресации (все эти ~, ../, и т. д.).

2. Больше о perl

Специальные (зарезервированные / не определеяемые пользователем) переменные в perl

3. cURL : альтернатива perl-фетчерам

cURL утилита, предназначенная для взаимодействия с удаленными серверами. Из ее возможностей мы используем лишь анонимное скачивание файлов (но в ней сокрыто много больше).

4. Больше о RegEx

RegEx -- это кросс-платформенный язык для поиска и замены паттернов в текстах. Три ссылки ниже ведут к довольно общим обучающим и справочным страницам. Пожалуй, стоит так же прочесть главу из Graham-Milligan-Weingart's Historian's macroscope.

kouprianov: (Default)

Долгие годы не решался сделать это (процедура пугала заковыристостью, альтернатива в виде растрового изображения нужного размера казалась вполне достойной, но тут вопрос принципа -- можно или нет), и вот -- наконец. Начертание основного кириллического шрифта ("CM Sans Cyrillic") страшно, как смерть (надо будет поглядеть, не появилось ли удачных замен), но в генерируемых R PDF, все же, можно использовать кириллицу.

install.packages('extrafont') # Needed only once
library(extrafont) # Needed every session
font_install('fontcm') # Needed only once (installs fontcm fonts)

font_import() # Needed after any new fonts had been installed with font_install() 
loadfonts() # Needed after font_import()

fonts() # Preview font families
fonttable() # Preview all fonts

pdf("plot_cm.pdf", family="CM Sans Cyrillic", encoding="KOI8-R", width=5, height=5)

plot(c(1,5), c(1,5), main="Сделано с CM fonts") 
text(x=3, y=3, cex=1.5, 
  expression(italic(sum(frac(1, n*'!'), n==0, infinity) == 
             lim(bgroup('(', 1 + frac(1, n), ')')^n, n %->% infinity))))

dev.off()

embed_fonts("plot_cm.pdf", outfile="plot_cm_embed.pdf") # embed fonts, create a new and better file

Т. е., коротко говоря, после того, как все в первый раз поставили, в каждой новой сессии это будет выглядеть так:

library(extrafont) # Needed every session

pdf("plot_cm.pdf", family="CM Sans Cyrillic", encoding="KOI8-R", width=5, height=5)

plot(c(1,5), c(1,5), main="Сделано с CM fonts") 
text(x=3, y=3, cex=1.5, 
  expression(italic(sum(frac(1, n*'!'), n==0, infinity) == 
             lim(bgroup('(', 1 + frac(1, n), ')')^n, n %->% infinity))))

dev.off()

embed_fonts("plot_cm.pdf", outfile="plot_cm_embed.pdf") # embed fonts, create a new and better file
Важно! Без embed_fonts() работать не будет. Обратите внимание, что embed_fonts() создает новый файл, в котором и находится итоговая иллюстрация с интегрированными шрифтами.

При написании этой памятки использовал следующие материалы:

kouprianov: (Default)

Не забыть:

\textasciitilde
\textdegree
\textbackslash
\textsubscript
\textsuperscript

\textdegree requires \usepackage{textcomp}

kouprianov: (Default)
Многие после вчерашнего разгона мирной демонстрации на Невском проспекте в Петербурге, массовых задержаний, заведомо неправедных судов и ремарки об «активнутых противных» горожанах задаются вопросом: о чем думает врио Беглов? Ведь выборы же на носу? Моя гипотеза -- они тут только о выборах и думают. Вот гипотетический набросок вполне годной предвыборной программы:

1. Не допустить на выборы никаких кандидатов от хоть сколько-нибудь реальной оппозиции.

2. При любом удобном случае тренировать росгвардию, полицию и суды на разгон любых массовых акций и оперативную мобилизацию в режиме "чрезвычайного" правосудия.

3. Как-нибудь пережить день голосования с опорой на административный ресурс и массовые фальсификации.

4. Подавить любые протестные выступления после дня голосования, буде такие возникнут.

Многие скажут, что тут нет ничего нового и революционного. Ничего о проблемах региона и т. д. Но, мне-то кажется, тут вопрос вовсе не в проблемах региона.
kouprianov: (Default)
Дано: есть код fetcher'a, который исправно работает под Linux и MS Windows. Смотрит в файл со списком URL, потом печатает html файлы в один большой файл. Под Mac'ом пишет, что не может. Точную формулировку я не помню, но, если память не изменяет, он пишет про "use of uninitialised value".

Правильно ли я понимаю, что ему страницы в ответ на get($_) не отдают? Или там раньше проблема начинается?

И что вообще делать?
kouprianov: (Default)
Чего-то я заблудился в dependencies. На предыдущий ноут (тоже под Ubuntu 18.04) QGIS 3.4 встала без проблем. Теперь никакими силами не могу поставить.

https://gis.stackexchange.com/questions/318713/cant-install-qgis-3-x-on-ubuntu-18-04

UPD: Превозмог. UPD2 по состоянию на 2020-01-27 у меня решение рабоать перестало, но есть новое, см. https://kouprianov.dreamwidth.org/364724.html

(1) В /etc/apt/sources.list

надо было написать:

# QGIS 3 install
deb https://qgis.org/ubuntugis/ bionic main
deb-src https://qgis.org/ubuntugis/ bionic main

Вместо того хлама, что там был написан до того.

(2) Потом, естественно,

$ sudo apt-get update

и (3)

$ sudo apt-get install qgis python3-qgis qgis-plugin-grass
kouprianov: (Default)
https://www.digitalocean.com/community/tutorials/how-to-install-r-on-ubuntu-18-04-quickstart
sudo apt-key adv --keyserver keyserver.ubuntu.com --recv-keys E298A3A825C0D65DFD57CBB651716619E084DAB9
sudo add-apt-repository 'deb https://cloud.r-project.org/bin/linux/ubuntu bionic-cran35/'
sudo apt update
sudo apt install r-base

Было : R version 3.4.4 (2018-03-15) -- "Someone to Lean On"
Стало : R version 3.5.2 (2018-12-20) -- "Eggshell Igloo"
kouprianov: (Default)
Когда Words не откликается на ./words, помогает:
sudo apt-get install lib32gcc-4.8-dev
kouprianov: (Default)
Сперва надо установить дополнительно:
sudo apt install apt-transport-https

Потом:
curl https://deb.torproject.org/torproject.org/A3C4F0F979CAA22CDBA8F512EE8CBC9E886DDD89.asc | gpg --import
gpg --export A3C4F0F979CAA22CDBA8F512EE8CBC9E886DDD89 | sudo apt-key add -

Главное тут в том, что curl и gpg должны были быть запущены от имени пользователя, а apt-key -- от имени root (в инструкциях на https://www.torproject.org/docs/debian.html.en эта тонкость опущена). Наконец,
sudo apt update
sudo apt-get install tor deb.torproject.org-keyring
kouprianov: (Default)
Зашел в тупик на ровном месте.

rsync -zaPv -e --files-from=/home/user/Documents/*.* --recursive /media/user/Elements/userfolder/Documents/

Я понимаю, что эта команда лишена отточенной элегантности, но не понимаю, почему она не копирует на media/user/Elements/userfolder/Documents/ и т. д. отсутствующие там папки. Гугление пока не принесло ничего, кроме совета вставить -r или --recursive, но он у меня уже стоит (и стоял так и эдак) и все равно папки не копирует.

UPD: Лишняя -e, главным образом, как я понял...

rsync -zaPv /home/user/Documents/* /media/user/Elements/userfolder/Documents/
kouprianov: (Default)
Как известно, pdftk больше не входит в дистрибутивы Ububtu (по крайней мере, отсутствие его в Ubntu 18.04 уже не раз оплакано по всему Интернету). Поиски принесли workaround (см. по ссылке) и альтернативу -- qpdf, который так же работает из командной строки. Пока ограничился тем, что решил изучить возможности qpdf.

https://wilransz.com/pdftk-on-ubuntu-18-04/
http://qpdf.sourceforge.net/files/qpdf-manual.html

March 2025

S M T W T F S
      1
2345678
910 1112131415
16171819202122
23242526272829
3031     

Syndicate

RSS Atom

Style Credit

Expand Cut Tags

No cut tags
Page generated Aug. 1st, 2025 09:31 pm
Powered by Dreamwidth Studios