170 похожих чатов

Задача - распознать ингридиенты рецепта есть веб страница, на ней рецепт. но

каждый дезайнер верстал как ему угоднo, и чтмл одной страницы отличается
от другой.
сегодня для сайтов написан ручной парсер - на основе лхмл,xpath, regex.
это позволяет сравнивать МЛ алгоритм с ожидаемым результатом для нескольких десятков сайтов - т.е. сотен рецептов, если нужно.
Вопрос - какой МЛ алгоритм применить. Я опытный программист но ничего в МЛ не понимаю. Начал слушать курс.
Хотелось бы понять на какие алгоритмы обратить внимание.
Какие фичи могли бы быть полезны?

2 ответов

9 просмотров

ищи блоки с некстом где встрекаются куски рецептурных слов

Концептуально, если все таки с ML: Кормить классификатор страницами с рецептами и не_рецептами с расставленными метками классов. Тут нужно разобраться, сколько выборки нудно для оптимальной работы.

Похожие вопросы

Обсуждают сегодня

Сообщение* в закодированном виде. То есть, просто сделать sendMessage?text=Привет бла-бла! не получится, надо в HEX переводить, и добавлять процент, типа такого: sendMessage?t...
КТ315
21
А случайно нет ли в паскале штатной возможности передать указатель и количество туда где array of в качестве аргумента?
zamtmn
25
Anyone here suffers from unexplained aural migraines, who would be up for talking for a bit? Doesn't *have* to be aural, but I am not asking about headaches, I mean actual mi...
Martin Rys
58
Только такой if ($modx->event->name == 'OnBeforeCartItemAdding') { $meta = $params['item']['meta']; $lang = $modx->getConfig('_lang'); // проверяем, задана ли опция i...
Multi Web
1
Всем привет. Испытываю проблемы в работе БД, а именно огромного роста логов, такого характера: 024-05-16 18:39:07 +05 sentry sentry [unknown] 1050169 7-1 app-sentry01.corp.ru>...
Alexey
2
Ну раз я пока тут, задам пару глупых вопросов. Зачем писать на ассемблере если компилятор довольно умный, а ассемблер много времени занимает? В каких прикладных задачах сейчас...
Максим Рябцев
20
Хм. А телеграм апи работают через HTTP?
The Bird of Hermes
14
Если подытожить: По мнению Розыча и Хемуля и др. - предпочтительно по возможности объявлять в секции имплементации потому-что: 1) Выше скорость компиляции 2) Не замусоривается...
notme
7
Почему Telegram пишет, что объект media не найден, хотя на самом деле я его передаю? Делаю на urllib, без зависимостей, так надо. Вызываю метод sendMediaGroup с таким JSON: ...
Alexey S
1
В дельфе нет никакого коробочного (без установки третьих либ) способа получить CallStack с расшифровкой отладочных символов?
notme
7
Карта сайта