и внести их в бд? предварительно профильтровав по каким-то параметрам?
Задача примерно такая, что есть чат, в нем записи были ранне. Сейчас бота добавляю и хочется чтобы прошлые записи он добавил
Спасибо
Нет, так нельзя) В бот апи, по крайней мере
понял) значит нужно самому кому-то заполнять) спасибо)
веб спарсить знаю) думаю может есть доступ к истории или еще что-то а что за способ «клиент-ботом пробежатся» ?
понял, спасибо
А кинь ссылочку, плиз. Тут немного времени появилось - поиграюсь
Веб?
https://t.me/telegraf_ru/153343 🤔🤔🤔
Ого ого...
А как вообще правильно парсить? Я однажды пытался что-то... Очень в одно время пожалел о том, что попытался. На сайтах сотни картинок, и все начали грузиться прежде чем странички обработать...
Я через DOM пошёл🤔
Почему?
Мне это показалось проще, ибо там в некоторых тегах было то, что надо. А как это регулярками всё обработать -- без понятия.
жиза
Долго обрабатывала( Особенно запара с картинками. В итоге просто повредил все теги img чтобы не читались😎👍
Использую puppeteer
Это чего такое?
можно открывать сайты с помощью скрипта, как ты это делаешь через браузер
С помощью дополнительных библиотек можно эмулировать поведение юзера, чтобы защита не выкупала. Я так парсю инста-блогеров - еженедельно обновляю число их подписчиков
А это через апи инсты нельзя сделать разве?)
увы, уже не так просто
когда как, если данных вытащить надо много, то лучше через дом, дом весь парсится в озу, и потом быстро бегаешь по нему css селекторами, если мало то лучше регулярки
Не так уж и много. Но вытащить было довольно сложно учитывая то что нужен был только текст, а там ещё теги.
Там надо было выбрать элементы с id-шками, которые я забрал с другого места ) Плюсом, внутри этого блока(с нужным id) огромное количество других тегов, из которых мне нужен был лишь один)
Этл как
Ну у меня где-то за 100 мс страницу парсило
Ну как думаешь, 100 норм? 🤔
А то и больше...
Обсуждают сегодня