качественные учебные материалы по веб скрапингу?
Моя проблема состоит в том, что на сайте меняется порядок характеристик ноутбуков или же иногда что-то отсутствует (например, на фото у одного ноута указан тип экрана, а у другого нет, то же самое касается камеры).
Я не могу сообразить, как такие условия прописывать в коде.
полно... мы с @pozdniakovivan в какой-то момент делали на воскресном скринкасте.
Но вообще все зависит от кода страницы... По скрину ничего не понять
1 фото https://rozetka.com.ua/acer_nx_hzreu_01s/p282342578/characteristics/ 2 фото https://rozetka.com.ua/asus-90nb0l61-m15620/p305995863/characteristics/
ну, авторы сайта не снадбили каждую характеристику отдельным классом, так что Вам придется решать задачу регулярками...
да, это я и обнаружила, поэтому написала сюда. Думала, может есть пример, как в такой ситуации писать код.
Парсить другой более адекватный сайт?
не вариант
Ну тогда регулярки. Тут же в принципе характеристики подписаны, даже если для них CSS классов нормальных не задано
Из очень старенького, но может ещё пригодиться... http://dkhramov.dp.ua/Stu.WebMining.html
А в чем собственно проблема? Собираете пары "имя - значение", складываете у себя и делаете с ними что хотите. Для одного ноута: library(rvest) hdoc <- read_html("https://rozetka.com.ua/acer_nx_hzreu_01s/p282342578/characteristics/") label <- html_elements(hdoc, xpath = "//dt[@class='characteristics-full__label']") %>% html_text() value <- html_elements(hdoc, xpath = "//dd[@class='characteristics-full__value']") %>% html_text()
Обсуждают сегодня