Похожие чаты

@Romshark Thirteen Thank you The challenge isn't parallelizing. The problem is

the difference between different websites!

For example, consider all of my websites are eCommerce and I want to grab the product price from these websites.
So what should I do?

Of course, Amazon has its own template, and Alibaba has its own! So I have to make it clear for my scrapper (the CSS selectors or regex or json unmarshal or...)

Now my current idea is: Add a function for each website, which accepts HTML doc and returns expected information from the website (for example product price)
But as I said, I don't think that it's a good plan!

Bcuz I have to add many functions to my program!
And when there is a new website, I should stop my program, then add a new function for a new website, build my program and run again!
Each time a new website needs to be added I should rebuild my program!

2 ответов

5 просмотров

or you could spend 10 years building a machine learning model which automatically scrapes websites no matter what layout it uses why build something for 30 minutes if you can automate it for 10 hours? 😂

Пользователь-61931 Автор вопроса

Any idea?

Похожие вопросы

Обсуждают сегодня

Всем привет, написал код ниже, но он выдает сегфолт, в чем причина? #include <stdio.h> #include <stdlib.h> #include <string.h> struct product { char *name; float price; };...
buzz базз
70
Здравствуйте. Задача состоит в том, чтобы сделать real-time чат в мобильном приложении. После передачи сообщения пользователем через веб-сокеты, для основного и долговременног...
🐾
5
Всем доброго дня, ребят подскажите пожалуйста, если в курсе по ассемблеру используется MASM32, могу ли я использовать FASM? В чем явная разница и будет ли у меня все работать?
Botsman
17
Добрый день, не подскажите, если в OC-V3 поменять страндартную директорию /storage/ на /storage2/ - не будет сильно много проблем ?
Max Dubovsky
32
падает джоба хотя уже была собрана на соседнем namespace, куда капать? │ │ Copying blob sha256:2fa066caddb8f09a71082b03aa43046f79346a01d9c89e06a1f508bb1207dba5 427 │ │ Copyin...
Andrei St
2
Conversation at a festival with a non-crpto person (not a normie by any stretch, though): * person: tell me about crypto, me: ok, the original idea is p2p sound money for the...
molecular#123 🐓
25
Хотел бы спросить у знающих, правильную ли я выбрал книгу для начала изучения ассемблера Юрова В.И ? Или есть более лучшие книги для начала обучения?
Botsman
25
Книга Юрова В.И пойдёт для обучения?
Botsman
24
$params = [ 'formid' => 'feedbackForm', 'formTpl' => '@CODE: <form class="form-validate" data-id="ajax_form"> <fieldset class="margin-bottom-md"> ...
Pathologic
1
Люди добрые, помогите с идеями, потому что свои закончились. У клиента падает софтина в момент инициализации модуля OtlEventMonitor на RegisterWindowMessage('Gp/OtlTaskEvents/...
Михаил Усков
7
Карта сайта