Надо было извлечь ряд страниц подряд из PDF. Раньше использовал для этого печать в файл из штатного GUI viewer'а (которая на этот раз не могла правильно обработать некоторые страницы, добавляя к ним белое поле) или pdftk
. Pdftk
однако в новых версиях Ubuntu
прибили. Некоторое время назад нашел было замену -- qpdf
. Так вот, на этой простейшей задаче чуть голову не сломал. Оказывается, зачем-то надо писать имя входного файла дважды. Да, версия qpdf
, которая в Ubuntu 18.04
вставлена, -- 8.0.2 (это значит, что использование точки в качестве заместителя ранее упомянутого имени файла, рекламируемое на Sourceforge, в ней еще не появилось, но, вообще-то, все остальное -- как у людей).
qpdf infile.pdf --pages infile.pdf 1-22 -- outfile.pdf
В общем, при pdftk
такого не было...
https://sourceforge.net/projects/txm/ [для славянских языков (без нормативной орфографии, много флексий) использование проблематично]
https://www.laurenceanthony.net/software/antconc/
Susan Grunewald presentation
Oct. 28th, 2019 07:03 pmhttps://recogito.pelagios.org/
https://github.com/kgeographer/whgazetteer
https://github.com/kgeographer/whgazetteer/tree/master/example_data
https://www.worldhistory.pitt.edu/
https://www.worldhistory.pitt.edu/publications
https://dataverse.harvard.edu/dataverse/worldhistorical
http://jwsr.pitt.edu/ojs/index.php/jwsr
https://acrl.ala.org/dh/2019/09/19/resource-the-digital-humanities-literacy-guidebook/
https://gadm.org/
https://opendata.cityofnewyork.us/
http://webcensus.ru/%d0%b4%d0%b0%d0%bd%d0%bd%d1%8b%d0%b5/
Отдельно, но тоже к впросу о GIS
https://www.erfgoedleiden.nl/erfgoed-kaart/experimenten
С круглого стола по открытым данным из вводного сообщения Феклы Толстой
http://tolstoy.ru/
http://search.tolstoy.ru/
http://index.tolstoy.ru/
С лекции о том, что идет на смену word2vec
https://rusvectores.org/ru/
https://rusvectores.org/ru/models/
https://github.com/ltgoslo/simple_elmo
https://github.com/google-research/bert
https://allennlp.org/elmo
С нашего tutorial (многое случайно занесло)
https://pleiades.stoa.org/downloads
https://www.semanticscholar.org/paper/An-OWL-Ontology-for-Biographical-Knowledge.-Factual-Krieger-Declerck/5288f8aa6269df5b8748efa4a9055c55f9575e15
https://www.tei-c.org/release/doc/tei-p5-doc/en/html/ND.html#NDPERS
https://factoid-dighum.kcl.ac.uk/what-is-factoid-prosopography-all-about/
https://schema.org/Person
https://projects.iq.harvard.edu/cbdb/supporting-documents
https://www.wikidata.org/wiki/Wikidata:WikiProject_Biographical_Identifiers
bibliontology.com/
https://www.tei-c.org/release/doc/tei-p5-doc/en/html/ref-schemaSpec.html
http://www.foaf-project.org/
http://linkedevents.org/ontology/
https://www.ldf.fi/dataset/history/
https://www.researchgate.net/publication/324854179_Towards_a_Biographic_Knowledgehttps://seco.cs.aalto.fi/applications/kulttuurisampo/
https://seco.cs.aalto.fi/publications/2017/leskinen-et-al-biographies-2017.pdf
http://metadata.berkeley.edu/BiographyLightOntology.pdf
http://ceur-ws.org/Vol-1399/paper16.pdf
http://vocab.org/bio/
Из подведения итогов / презентации от Системного Блока
https://www.distantviewing.org/
Digital Methods and Research Data Management in the Humanities and Social Sciences at Deutsches Historisches Institut (Moskau), Oct 7-8, 2019. Important links from the workshop.
Discuss Data:
- https://www.discuss-data.net/
- https://www.sub.uni-goettingen.de/en/projects-research/project-details/projekt/discuss-data/
- https://www.forschungsstelle.uni-bremen.de/en/4/20110606112640/20170111144406/Discuss_Data%253A_Online_Platform_for_Research_Data_.html
GDELT
- https://www.gdeltproject.org/
- https://www.r-bloggers.com/mapping-the-gdelt-data-and-some-russian-protests-too/
Stephen G. Wheatcroft
- Soviet Statistics under Stalinism: Reliability and Distortions in Grain and Population Statistics / https://www.tandfonline.com/doi/abs/10.1080/09668136.2019.1636934
- https://cdiac.ess-dive.lbl.gov/
- https://data.giss.nasa.gov/gistemp/station_data_v4_globe/
- http://gpih.ucdavis.edu/
- https://www.demogr.mpg.de/en/institute/staff_directory_1899/vladimir_m_shkolnikov_105.htm
- http://istmat.info/
Vladislav Rjéoutski
- http://krp.dhi-moskau.org/ [Not yet working. Authorisation Required to see the blueprint!]
Yakov Klots
Frank Fischer
- https://dracor.org/
- https://shiny.dracor.org/
- install.packages("ndtv")
(no subject)
Oct. 1st, 2019 05:07 pmНайдется место всем -- историкам, филологам, дизайнерам, любителям старой книги и тем, кто любит возиться с данными на компьютере. Студенты бакалавриата и магистратуры ВШЭ, ау! Сердечно признателен Alexandra Bessonova (FB) за неоценимую помощь на подготовительном этапе!
#ЦифроваяГуманиора #DigitalHumanities
Регистрация: https://pf.hse.ru/308029950.html
1. Командная строка / терминал
Пять самых важных вещей, которые надо знать о командной строке / терминале: (1) где его найти; (2) клавиши up и down можно использовать для навигации по истории команд; (3) клавиша tab автоматически дополняет имена файлов и папок (в меру того, насколько компьютер сможет разобраться в том, что вы имели в виду); (4) cd и ls (dir) -- две основные утилиты для навигации по папкам и просмотра их содержимого; и (5) система адресации (все эти ~, ../, и т. д.).
- Общее введение в работу с командной строкой в различных операционных системах.
- Command Prompt: 11 basic commands you should know, for Windows users
- Dawson, Ted "Introduction to the Windows Command Line with PowerShell," The Programming Historian 5 (2016), https://programminghistorian.org/en/lessons/intro-to-powershell.
- Краткое введение для пользователей Mac
- Более детальное введение для пользователей Mac
- Список команд терминала от A до Z для пользоваателей Mac
2. Больше о perl
Специальные (зарезервированные / не определеяемые пользователем) переменные в perl
3. cURL : альтернатива perl-фетчерам
cURL утилита, предназначенная для взаимодействия с удаленными серверами. Из ее возможностей мы используем лишь анонимное скачивание файлов (но в ней сокрыто много больше).
4. Больше о RegEx
RegEx -- это кросс-платформенный язык для поиска и замены паттернов в текстах. Три ссылки ниже ведут к довольно общим обучающим и справочным страницам. Пожалуй, стоит так же прочесть главу из Graham-Milligan-Weingart's Historian's macroscope.
- Wikipedia о RegEx
- Сайт RegEx с учебными и справочными материалами
- Онлайн-тестер RegEx выражений
- Graham, Shawn, Ian Milligan, Scott Weingart (2013) "Manipulating Text with the Power of Regular Expressions" The Historian's Macroscope - working title. Under contract with Imperial College Press. Open Draft Version, Autumn 2013 http://www.themacroscope.org/?page_id=643
Долгие годы не решался сделать это (процедура пугала заковыристостью, альтернатива в виде растрового изображения нужного размера казалась вполне достойной, но тут вопрос принципа -- можно или нет), и вот -- наконец. Начертание основного кириллического шрифта ("CM Sans Cyrillic") страшно, как смерть (надо будет поглядеть, не появилось ли удачных замен), но в генерируемых R PDF, все же, можно использовать кириллицу.
install.packages('extrafont') # Needed only once library(extrafont) # Needed every session font_install('fontcm') # Needed only once (installs fontcm fonts) font_import() # Needed after any new fonts had been installed with font_install() loadfonts() # Needed after font_import() fonts() # Preview font families fonttable() # Preview all fonts pdf("plot_cm.pdf", family="CM Sans Cyrillic", encoding="KOI8-R", width=5, height=5) plot(c(1,5), c(1,5), main="Сделано с CM fonts") text(x=3, y=3, cex=1.5, expression(italic(sum(frac(1, n*'!'), n==0, infinity) == lim(bgroup('(', 1 + frac(1, n), ')')^n, n %->% infinity)))) dev.off() embed_fonts("plot_cm.pdf", outfile="plot_cm_embed.pdf") # embed fonts, create a new and better file
Т. е., коротко говоря, после того, как все в первый раз поставили, в каждой новой сессии это будет выглядеть так:
library(extrafont) # Needed every session pdf("plot_cm.pdf", family="CM Sans Cyrillic", encoding="KOI8-R", width=5, height=5) plot(c(1,5), c(1,5), main="Сделано с CM fonts") text(x=3, y=3, cex=1.5, expression(italic(sum(frac(1, n*'!'), n==0, infinity) == lim(bgroup('(', 1 + frac(1, n), ')')^n, n %->% infinity)))) dev.off() embed_fonts("plot_cm.pdf", outfile="plot_cm_embed.pdf") # embed fonts, create a new and better fileВажно! Без
embed_fonts()
работать не будет. Обратите внимание, что embed_fonts()
создает новый файл, в котором и находится итоговая иллюстрация с интегрированными шрифтами.При написании этой памятки использовал следующие материалы:
- https://github.com/wch/extrafont : Описание пакета
extrafont
- https://github.com/wch/fontcm : Описание пакета
fontcm
- http://herba.msu.ru/shipunov/software/r/rtips-ru.htm : Более древнее описание процесса из материалов А. Шипунова, которое подсказало, как правильно назвать кодировку KOI-8-R.
Предвыборная программа врио Беглова
May. 2nd, 2019 10:52 am1. Не допустить на выборы никаких кандидатов от хоть сколько-нибудь реальной оппозиции.
2. При любом удобном случае тренировать росгвардию, полицию и суды на разгон любых массовых акций и оперативную мобилизацию в режиме "чрезвычайного" правосудия.
3. Как-нибудь пережить день голосования с опорой на административный ресурс и массовые фальсификации.
4. Подавить любые протестные выступления после дня голосования, буде такие возникнут.
Многие скажут, что тут нет ничего нового и революционного. Ничего о проблемах региона и т. д. Но, мне-то кажется, тут вопрос вовсе не в проблемах региона.
Правильно ли я понимаю, что ему страницы в ответ на get($_) не отдают? Или там раньше проблема начинается?
И что вообще делать?
Can't install QGIS 3.x on Ubuntu 18.04
Apr. 14th, 2019 01:45 pmhttps://gis.stackexchange.com/questions/318713/cant-install-qgis-3-x-on-ubuntu-18-04
UPD: Превозмог. UPD2 по состоянию на 2020-01-27 у меня решение рабоать перестало, но есть новое, см. https://kouprianov.dreamwidth.org/364724.html
(1) В
/etc/apt/sources.list
надо было написать:
# QGIS 3 install deb https://qgis.org/ubuntugis/ bionic main deb-src https://qgis.org/ubuntugis/ bionic main
Вместо того хлама, что там был написан до того.
(2) Потом, естественно,
$ sudo apt-get update
и (3)
$ sudo apt-get install qgis python3-qgis qgis-plugin-grass
Install R on Ubuntu 18.04
Mar. 7th, 2019 09:36 pmsudo apt-key adv --keyserver keyserver.ubuntu.com --recv-keys E298A3A825C0D65DFD57CBB651716619E084DAB9 sudo add-apt-repository 'deb https://cloud.r-project.org/bin/linux/ubuntu bionic-cran35/' sudo apt update sudo apt install r-base
Было : R version 3.4.4 (2018-03-15) -- "Someone to Lean On"
Стало : R version 3.5.2 (2018-12-20) -- "Eggshell Igloo"
Installing TOR under Ubuntu 18.04
Mar. 3rd, 2019 12:29 amsudo apt install apt-transport-https
Потом:
curl https://deb.torproject.org/torproject.org/A3C4F0F979CAA22CDBA8F512EE8CBC9E886DDD89.asc | gpg --import gpg --export A3C4F0F979CAA22CDBA8F512EE8CBC9E886DDD89 | sudo apt-key add -
Главное тут в том, что
curl
и gpg
должны были быть запущены от имени пользователя, а apt-key
-- от имени root
(в инструкциях на https://www.torproject.org/docs/debian.html.en эта тонкость опущена). Наконец,sudo apt update sudo apt-get install tor deb.torproject.org-keyring
rsync -zaPv -e --files-from=/home/user/Documents/*.* --recursive /media/user/Elements/userfolder/Documents/
Я понимаю, что эта команда лишена отточенной элегантности, но не понимаю, почему она не копирует на media/user/Elements/userfolder/Documents/ и т. д. отсутствующие там папки. Гугление пока не принесло ничего, кроме совета вставить -r или --recursive, но он у меня уже стоит (и стоял так и эдак) и все равно папки не копирует.
UPD: Лишняя -e, главным образом, как я понял...
rsync -zaPv /home/user/Documents/* /media/user/Elements/userfolder/Documents/
pdftk
больше не входит в дистрибутивы Ububtu (по крайней мере, отсутствие его в Ubntu 18.04 уже не раз оплакано по всему Интернету). Поиски принесли workaround (см. по ссылке) и альтернативу -- qpdf, который так же работает из командной строки. Пока ограничился тем, что решил изучить возможности qpdf.https://wilransz.com/pdftk-on-ubuntu-18-04/
http://qpdf.sourceforge.net/files/qpdf-manual.html