170 похожих чатов

Народ, нужна поддержка. Нужно спарсить статьи с сайта ~300 страниц

на каждой по 10 статей. Отправляю запросы через guzzle парсинг через simple html dom, фреймворк laravel.
Как у меня всё построено сейчас:
При get запросе на мой сайт (пусть будет '/parse') паралельно отправляются запрос на ссылки всех страниц со статьями чтобы получить массив ссылок на все статьи сайта.
Далее паралельно отправляются запросы по полученным ссылкам, результаты запросов парсятся.
Результаты парсинга выводятся в виде массива на страницу (ларавеловская функция dump() - аналог var_dump())
Я понимаю что как пытаться выводить такой огромный объем данных на страницу разом, так и паралельно отправлять 3000 запросов это извращение.
Если пытаться спарсить за раз около 50 страниц (500 статей) то всё ещё идёт более - менее нормально, но при больших объёмах начинает происходить какая-то дичь.
Собственно вопрос - как правильно спарсить такой объём данных и сохранить его (в бд / файл ... не важно где )?
За любые подсказки и инфу буду весьма признателен

3 ответов

6 просмотров

Если ты прекратишь дампить массив на экран, то все спарсится нормально, но в целом твоя задача достойна угнетения, а не поощерения

Ставь задачу в очередь и отображай текущий статус

не правильная архитектура так делать изначально. Это во-первых должно быть асинхронно, лучше использовать AJAX для вывода на фронт, время работы этого механизма не известно, может вывалится по таймауту. Сам парсер вообще реализовать микросервисом, ларка пусть только фронт рендерит

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта