"Мне нравится, что по горизонтали углы обзора великолепные" извлекалась фраза "углы обзора великолепные", но не извлекалась "по горизонтали углы". Я построила синтаксическое дерево и что-то не могу понять, как это сделать. Хочется, чтобы из предложений извлекались только фразы, которые несут смысл, а не все подряд. Я взяла токены, из них все сгруппировала id по head_id. И получила
[['что', 'по', 'горизонтали', 'углы', 'обзора', 'великолепные'],
['по', 'горизонтали', 'углы', 'обзора'],
['углы', 'обзора']]
Но моих боевых фразах все еще хуже (относительного того, что мне нужно).
Или надо как-то иначе обрабатывать граф? Или я слишком много хочу и это так не работает?
Возможно, глупость сморожу, но банальный tf-idf не пробовали натравить и поиграться с рангами?
оч сложная задача и пример. сам пытался в что-то подобное со stanza... но великий и могучий слишком могучий)
Нет, не пробовала. Надо подумать.
подумалось. Если в начале лемматизировать фразы, то можно отсечь предлоги, наречия и т.п., что бы не путались под ногами
Я думала лемматизировать после построения синтаксического дерева. А если лемматизировать до, то разве Наташа сможет построить связи? Я не пробовала так делать, надо посмотреть. Спасибо за предложение.
Обсуждают сегодня