на каждой по 10 статей. Отправляю запросы через guzzle парсинг через simple html dom, фреймворк laravel.
Как у меня всё построено сейчас:
При get запросе на мой сайт (пусть будет '/parse') паралельно отправляются запрос на ссылки всех страниц со статьями чтобы получить массив ссылок на все статьи сайта.
Далее паралельно отправляются запросы по полученным ссылкам, результаты запросов парсятся.
Результаты парсинга выводятся в виде массива на страницу (ларавеловская функция dump() - аналог var_dump())
Я понимаю что как пытаться выводить такой огромный объем данных на страницу разом, так и паралельно отправлять 3000 запросов это извращение.
Если пытаться спарсить за раз около 50 страниц (500 статей) то всё ещё идёт более - менее нормально, но при больших объёмах начинает происходить какая-то дичь.
Собственно вопрос - как правильно спарсить такой объём данных и сохранить его (в бд / файл ... не важно где )?
За любые подсказки и инфу буду весьма признателен
Если ты прекратишь дампить массив на экран, то все спарсится нормально, но в целом твоя задача достойна угнетения, а не поощерения
Ставь задачу в очередь и отображай текущий статус
не правильная архитектура так делать изначально. Это во-первых должно быть асинхронно, лучше использовать AJAX для вывода на фронт, время работы этого механизма не известно, может вывалится по таймауту. Сам парсер вообще реализовать микросервисом, ларка пусть только фронт рендерит
Обсуждают сегодня