proof-of-concept.
Есть ли у вас какие-то примеры сайтов с данными, которые можно/есть смысл скрейпить? Я попробую сделать демо-гифку с записью процесса.
Пока что самая большая проблема с интерфейсом - он слишком примитивный и отрабатывает очень простую конструкцию:
- можно выбрать из списка только одну ноду свое кастомное правило.
- после выборы ноды можно выбрать переменные и сохранить html_text (также из списка либо кастомные). Атрибуты не поддерживаются, какие-то более интересные конструкции редактор не позволяет делать.
Для хорошего визуального редактора я не нашел подходящей js библиотеки, а самому пилить виджеты пока силенок не хватит((
Меня устроит гугл координаты со страниц населенных пунктов на википедии
я студентам на сайте cran показываю, парсить инфу со страниц пакетов
да, я кран уже потыкал. у страниц пакета примитивная верстка с тремя таблицами, надо поизучать, как их собирать в датасет или выбирать только первую или вторую таблицу. а какие журналы, н-р?
у меня студенты социологи, поэтому "экономическая социология", иногда - "социологические исследования", "4м" и тому подобные
https://ecsoc.hse.ru/ https://www.isras.ru/index.php?page_id=2486
Всё уже распарсили до вас и засунули в available.packages().
так задача в песочнице научиться xpath запросы писать и данные потоком собирать с помощью rvest, а не инфу получить.
Я когда-то пробовал на сайтах издательств Wiley, Springer, Elsevier парсить и абстракты статей собирать. Пользовался rvest+tidyverse
вроде для этого есть уже готовые ресурсы... https://api.crossref.org/ Они не полные, но хоть что-то
про изучение xpath я даже не думал. Мне казалось наоборот, чем больше пользователь может не понимать css/xpath, тем лучше :))) Для xpath, кажется, понадобится показывать дерево объектов. Когда починю код, подумаю над интерфейсом. А то вчера приложение поломалось о сайт института социологии почему-то.
ну я именно так и учу - сначала мы пишем простенький html сами, на нем учимся базовым функциям rvest и xpath. потом уже переходим к реальным несложным сайтам типа cran, и потом уже к чему-то более сложному
Спасибо. Нашёл пакет ropensci/rcrossref, при случае попробую
Обсуждают сегодня