(n-е количестов) которые могут обработать домен и вернуть результат, у обработчика есть количестов раз, сколько доменов он может обработать всего (50) и после каждой обработки он должен засыпать на 5 секунд. Как лучше реализовать это, чтоб паралельно работали все обработчики? Можно ли это реализовать с помощью ThreadPoolExecutor. Сделал такую реализацию(не самую удачную), но я думаю это можно намного проще реализовать, но не знаю как https://gist.github.com/djigit0s/461880b3e6825db57ffed62f7e670132
domains = ['aa.com', 'bb.com', 'cc.com',
'dd.com', 'ee.com', 'ff.com', 'gg.com']
workers = [
{
'id': 1,
'attempt': 98,
'is_locked': False,
'status': 'ready'
},
{
'id': 2,
'attempt': 60,
'is_locked': False,
'status': 'ready'
},
]
@Tishka17 посоветуй что-нибудь
что значит "обработать домены"?
я для примера сделал функцию которая приписывает http, реальная задача получить данные с сайта
может есть идеи как сделать лучше?
@Tishka17 не посоветуешь ничего?
Посветую почитать соглашения всех сайтов
а каким образом это относится к коду?
Предположительно сильно сократится количество сайтов
это же никак не повлияет на код, данный код можно применить к любой другой задаче, необязательно к парсингу
если твои обработчики много ходят в сеть, то тебе нужно смотреть в сторону asyncio, если нет, и ты хочешь распаралелить, то тебе нужен мультипроцессинг а тишка имел ввиду то, что соглашение сайтов многих запрещает автоматизированный сбор информации, соответственно обсуждение этого в чате запрещено п.6 правил чата
на многих сайтах этого соглашения, в котором говорится о запрете нету в принципе, да и в коде не указаны сайты, @Tishka17 если бы я написал, что задача заключается в другом, а не в парсинге сайтов это изменило что либо?
ребята посоветуйте как сделать лучше и правильнее?
???????
Обсуждают сегодня