170 похожих чатов

Народ, нужна поддержка. Нужно спарсить статьи с сайта ~300 страниц

на каждой по 10 статей. Отправляю запросы через guzzle парсинг через simple html dom, фреймворк laravel.
Как у меня всё построено сейчас:
При get запросе на мой сайт (пусть будет '/parse') паралельно отправляются запрос на ссылки всех страниц со статьями чтобы получить массив ссылок на все статьи сайта.
Далее паралельно отправляются запросы по полученным ссылкам, результаты запросов парсятся.
Результаты парсинга выводятся в виде массива на страницу (ларавеловская функция dump() - аналог var_dump())
Я понимаю что как пытаться выводить такой огромный объем данных на страницу разом, так и паралельно отправлять 3000 запросов это извращение.
Если пытаться спарсить за раз около 50 страниц (500 статей) то всё ещё идёт более - менее нормально, но при больших объёмах начинает происходить какая-то дичь.
Собственно вопрос - как правильно спарсить такой объём данных и сохранить его (в бд / файл ... не важно где )?
За любые подсказки и инфу буду весьма признателен

3 ответов

4 просмотра

Если ты прекратишь дампить массив на экран, то все спарсится нормально, но в целом твоя задача достойна угнетения, а не поощерения

Ставь задачу в очередь и отображай текущий статус

не правильная архитектура так делать изначально. Это во-первых должно быть асинхронно, лучше использовать AJAX для вывода на фронт, время работы этого механизма не известно, может вывалится по таймауту. Сам парсер вообще реализовать микросервисом, ларка пусть только фронт рендерит

Похожие вопросы

Обсуждают сегодня

Мужики и девушки, привет) в Вelphi xe7 в настройках во вкладке "Editor Options" далее " Color" есть список: "Elements", открыв который мы можем настраивать отображение разных...
Kraszx
14
Добрый вечер. Есть вопрос, а может и предложение. Был у меня диалог в другой группе о делфи и я задался вопросом: "А нельзя ли в делфи цвет //коментария и {комментария} сде...
Kraszx
24
как быть с принтером? такой подход прокатит?
zamtmn
12
Всем привет! Подскажи, пожалуйста, как передать в TComboBox сразу значение и id записи. На Delphi я делал так: ComboBox1.Items.AddObject('Какое-то значение', Pointer(id запис...
Евгений
13
Мдя, прикол, боевая сборка запускается (именно под отладчиком) после F9 примерно полторы минуты (97 секунд если быть точным). Начал копать - проблема детектится сразу - зависа...
Александр (Rouse_) Багель
38
А вот это что за конструкция? Вернее, она тут нафига?
Serjone
10
Привет. Подскажите, как правильно сматчить лист фиксированного размера, чтобы компилятор не говорил мне о неполном паттерне? Допустим что-то такое [x', y'] = sort [x, y]?
Arseny
8
Здравствуйте, вопрос по структурам данных. Были у вас случаи, когда пришлось писать деревья или двунаправленные списки?
/ /
50
Товарищи, кто работа с iphelper? Или может я в самой логике ошибки фигачу, не пойму.... var ifTable : PMIB_IFTABLE; size, corSize: DWORD; Buffer ...
Warfarellen
4
Мужики. привет) в Вelphi xe7 в настройках во вкладке "Editor Options" далее " Color" есть список: "Elements", открыв который мы можем настраивать отображение разных элементов...
Kraszx
2
Карта сайта