Есть ссылка 1 с одним табличным классом html- там есть абстракт, я его забрал Есть ссылка 2 с другим табличным классом html- там есть абстракт, я его забрал Есть ссылка 3 с третьим классом - там нет абстракта, я его не забрал, оставил пустую строку - заказчик потом его заполнил
Так за сколько у Вас там все собирается. Я краем глаза глянул вчера вечером, минут 15 покодил. Level 2 даёт 490 ссылок (1 минута скраппинга). На закачку документа level3 — 2-3 секунды (там много текста), ренессансы парсер — 10-20 мс, можно пренебречь. Итого, на составление в параллель списка всех документов 1000/60/4 ~ 5 минут и в файл. А дальше список на ночную выкачку, а потом абстракты кушать. Пол-экрана кода на все про все.
Обсуждают сегодня