169 похожих чатов

Всем привет. Возвращаясь к shiny-crawler'у - удалось запилить очень ранний

proof-of-concept.
Есть ли у вас какие-то примеры сайтов с данными, которые можно/есть смысл скрейпить? Я попробую сделать демо-гифку с записью процесса.

Пока что самая большая проблема с интерфейсом - он слишком примитивный и отрабатывает очень простую конструкцию:
- можно выбрать из списка только одну ноду свое кастомное правило.
- после выборы ноды можно выбрать переменные и сохранить html_text (также из списка либо кастомные). Атрибуты не поддерживаются, какие-то более интересные конструкции редактор не позволяет делать.

Для хорошего визуального редактора я не нашел подходящей js библиотеки, а самому пилить виджеты пока силенок не хватит((

12 ответов

13 просмотров

Меня устроит гугл координаты со страниц населенных пунктов на википедии

я студентам на сайте cran показываю, парсить инфу со страниц пакетов

Ed-P Автор вопроса
Philipp Upravitelev
я студентам на сайте cran показываю, парсить инфу ...

да, я кран уже потыкал. у страниц пакета примитивная верстка с тремя таблицами, надо поизучать, как их собирать в датасет или выбирать только первую или вторую таблицу. а какие журналы, н-р?

Ed P
да, я кран уже потыкал. у страниц пакета примитивн...

у меня студенты социологи, поэтому "экономическая социология", иногда - "социологические исследования", "4м" и тому подобные

Philipp Upravitelev
я студентам на сайте cran показываю, парсить инфу ...

Всё уже распарсили до вас и засунули в available.packages().

Артём Клевцов
Всё уже распарсили до вас и засунули в available.p...

так задача в песочнице научиться xpath запросы писать и данные потоком собирать с помощью rvest, а не инфу получить.

Ed P
да, я кран уже потыкал. у страниц пакета примитивн...

Я когда-то пробовал на сайтах издательств Wiley, Springer, Elsevier парсить и абстракты статей собирать. Пользовался rvest+tidyverse

Эдик Амперян
Я когда-то пробовал на сайтах издательств Wiley, S...

вроде для этого есть уже готовые ресурсы... https://api.crossref.org/ Они не полные, но хоть что-то

Ed-P Автор вопроса
Philipp Upravitelev
так задача в песочнице научиться xpath запросы пис...

про изучение xpath я даже не думал. Мне казалось наоборот, чем больше пользователь может не понимать css/xpath, тем лучше :))) Для xpath, кажется, понадобится показывать дерево объектов. Когда починю код, подумаю над интерфейсом. А то вчера приложение поломалось о сайт института социологии почему-то.

Ed P
про изучение xpath я даже не думал. Мне казалось н...

ну я именно так и учу - сначала мы пишем простенький html сами, на нем учимся базовым функциям rvest и xpath. потом уже переходим к реальным несложным сайтам типа cran, и потом уже к чему-то более сложному

aGricolaMZ
вроде для этого есть уже готовые ресурсы... https...

Спасибо. Нашёл пакет ropensci/rcrossref, при случае попробую

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта