Народ, нужна поддержка. Нужно спарсить статьи с сайта ~300 страниц

Question

Народ, нужна поддержка. Нужно спарсить статьи с сайта ~300 страниц

на каждой по 10 статей. Отправляю запросы через guzzle парсинг через simple html dom, фреймворк laravel.
Как у меня всё построено сейчас:
При get запросе на мой сайт (пусть будет '/parse') паралельно отправляются запрос на ссылки всех страниц со статьями чтобы получить массив ссылок на все статьи сайта.
Далее паралельно отправляются запросы по полученным ссылкам, результаты запросов парсятся.
Результаты парсинга выводятся в виде массива на страницу (ларавеловская функция dump() - аналог var_dump())
Я понимаю что как пытаться выводить такой огромный объем данных на страницу разом, так и паралельно отправлять 3000 запросов это извращение.
Если пытаться спарсить за раз около 50 страниц (500 статей) то всё ещё идёт более - менее нормально, но при больших объёмах начинает происходить какая-то дичь.
Собственно вопрос - как правильно спарсить такой объём данных и сохранить его (в бд / файл ... не важно где )?
За любые подсказки и инфу буду весьма признателен

#backend #php #programming #russian

0

29.05.2018

3 ответов

23 просмотра

1Bot

Ставь задачу в очередь и отображай текущий статус

0

29.05.2018

Vesper

не правильная архитектура так делать изначально. Это во-первых должно быть асинхронно, лучше использовать AJAX для вывода на фронт, время работы этого механизма не известно, может вывалится по таймауту. Сам парсер вообще реализовать микросервисом, ларка пусть только фронт рендерит

0

29.05.2018

Golodnyi · Accepted Answer

Golodnyi

Если ты прекратишь дампить массив на экран, то все спарсится нормально, но в целом твоя задача достойна угнетения, а не поощерения

0

29.05.2018

170 похожих чатов

Народ, нужна поддержка. Нужно спарсить статьи с сайта ~300 страниц

3 ответов

Похожие вопросы