169 похожих чатов

Подскажите, пожалуйста, какие хорошие решения есть для частотного анализа текста?


Несколько лет назад я пытался такую штуку на коленке собрать, но мне не понравилось, как оно работает.

Смотрите, есть некие короткие тексты, в которых может встречаться, например, "World", "World of Warcraft", "World of Tanks" или какой-нибудь "Jurassic World: The Game". Если делать обычный wordcloud, то все эти World сольются в один огромный.

Я пытался наваять что-то, что вычитало бы популярные биграммы и триграммы из списка слов. Но там начинаются всякие приключения, типа того, что "World of" становится популярной биграммой... И нужно каким-то алгоритмом находить баланс и определять, где тут осмысленная три грамма, а где биграмма, а где просто одно слово популярное.

Видел, что подобный алгоритм работает в некоторых решениях, которые строят Wordcloud.

1 ответов

5 просмотров

Прочитай доки к udpipe. Там есть и разметка, после которой можно взять только леммы и убрать лишние части предложений, а ещё есть алгоритмы поиска клюевых слов.

Похожие вопросы

Обсуждают сегодня

Anyone here suffers from unexplained aural migraines, who would be up for talking for a bit? Doesn't *have* to be aural, but I am not asking about headaches, I mean actual mi...
Martin Rys
55
подскажите пожалуйста, как мне освободить результат записанный в переменную result? в чем проблема подскажите если МОЖЕТЕ?
Михаил Helper
28
кто-то пользуется компонентами rx ? как их лучше ставить, через OPM? (lazarus)
Iluha Companets
10
есть тут кто-то , кто только начал изучать си? если проходите курс на степике или как-то сами изучаете, пишите, может, скооперируемся?..
Eule
25
Слушайте, ещё такая интересная задачка. Сделан аудит действий пользователей через триггеры в базе, соответственно каждый пользователь имеет свой логин и пароль в базе. Это пре...
Сергей Бычков
12
Скажите, тут нет проблемы? IMyInterface1 = interface function GetInterface2: IInterface2; ... function TMyInterface.GetInterface2: IInterface2; begin Result := TI...
Ruslan aka DUDE
18
вопрос по москвину - не понимаю вот такого вопроса похоже Сколько разных всегда завершающихся функций с типом a -> a -> b -> a -> a можно реализовать? Две функции одинаково...
Fedor
11
я не магистр хаскеля, но разве не может лейзи тип конвертнуться в не-лейзи запросив вычисление содержимого прям при инициализации?
deadgnom32 λ madao
100
Кстати, раз про скачивание файлов разговор зашел) Сделал бота для себя (транскрибирующего и суммаризирующего встречи) но не ожидал что за 2 месяца 10к пользователей набежит😅...
Andrey Obolenskiy
8
что, сложно ифдеф на версию компилятора сделать?
Iluha Companets
6
Карта сайта