лямов страниц за короткое время
на парсинг сотни страниц уходит примерно 30 секунд
но мне необходит уложится в это время 100 лямов
есть идеи как это можно ускорить и оптимизировать ?
Распаралеливание задачи на кучу контейнеров на мощном хосте
на 10к контениров))? помоему не очень оптимально
+ нужен прям хороший пул проксей чтобы не забанили за частые запросы
Если код максимально оптимизирован и настроен на скорость парсинга - иных вариантов не вижу
В таком случае опишите задачу полностью
пишу ресурс аналиту маркет плейсов предоставляю полную информацию по все товаром которые есть и были на маркетплейсе структура id от 1000000000 до 2000000000 т.е. товар может любой цифрой в этом диапозоне необходимо это спарсить в джейсон в первых тестах использовал для этого puppeteer сейчас для этой цели использую playwright так как он быстрей и чуть проще в настройке сама программа работает в цикле fori переберая каждый id открывая его вытаскивает информацию и сохрвняет в mongoDB ввиде json сейчвс добился результата 100 обьектов за 30 секунд но в маштабе колличества айдишников это очень долго суть в том что юзер заходит на сайт и видит актуальную инфу о том сколько продовцов у товара какая у него цена статистика продаж и тд поэтому информация всегда должна быть актуальной вопрос в том как это максимально ускорить или запустить в workere для многопоточности если это возможно но смаостоятельно изучение воркера мне не принесло много результата так как я не совсем понимаю как его правильно настроить
А вы уверены, что площадки способны с такой скоростью отдавать вам информацию?
я расчитываю на 8-10 часов т.е ночью собрать информацию в течении дня информация доступна и более менее актуальна
30сек это скажем так микро запрос на 100 обектов
нихера не понял цитата: на парсинг сотни страниц уходит примерно 30 секунд но мне необходит уложится в это время 100 лямов
сорри не правильно значит изложил мысль свою
Обсуждают сегодня