каждый дезайнер верстал как ему угоднo, и чтмл одной страницы отличается
от другой.
сегодня для сайтов написан ручной парсер - на основе лхмл,xpath, regex.
это позволяет сравнивать МЛ алгоритм с ожидаемым результатом для нескольких десятков сайтов - т.е. сотен рецептов, если нужно.
Вопрос - какой МЛ алгоритм применить. Я опытный программист но ничего в МЛ не понимаю. Начал слушать курс.
Хотелось бы понять на какие алгоритмы обратить внимание.
Какие фичи могли бы быть полезны?
ищи блоки с некстом где встрекаются куски рецептурных слов
Концептуально, если все таки с ML: Кормить классификатор страницами с рецептами и не_рецептами с расставленными метками классов. Тут нужно разобраться, сколько выборки нудно для оптимальной работы.
Обсуждают сегодня