170 похожих чатов

Есть ещё какая-то древняя юниксовая утилита (spell?), которая как раз

оценивает сомнительность слов по триграммам.

9 ответов

9 просмотров

Триграмма хорошая вещь, но мне кажется хорошо бы как-то юзать контекст

Tigran-Saluev Автор вопроса
Evgeniy Blinov
Триграмма хорошая вещь, но мне кажется хорошо бы к...

Контекст нужно юзать тоже. Смысл в том, что для слов, которых нет у тебя в словаре (и для которых, соответственно, нет статистики), ты можешь попробовать оценить их правдоподобность исходя из триграмм (или каких-нибудь более сложных моделей вроде нейросеток), распространить на них статистику с похожих слов, которые в словаре есть, и потом сверху на всей фразе начать учитывать контекст (прогнать языковую модель, воспользоваться статистикой по фразам и т. д.).

Tigran Saluev
Контекст нужно юзать тоже. Смысл в том, что для сл...

Что значит распространить статистику с похожих слов?

Tigran-Saluev Автор вопроса
Evgeniy Blinov
Что значит распространить статистику с похожих сло...

Например, у тебя нет статистики для слова “калечить”, поэтому ты не знаешь, насколько правдоподобна фраза “калечить коня”. Но ты знаешь, что оно однокоренное со словом ”калека” и ты знаешь, как часто в корпусе у тебя встречалось "что-то однокоренное с калека + конь” или “что-то однокоренное с калека + что-то однокоренное с конь”. Ещё ты знаешь, что это глагол и знаешь, как часто встречалось “глагол + конь” или “глагол + что-то однокоренное с конь”. Из этих чисел ты можешь попытаться разными способами прикинуть вероятность фразы “калечить коня” и это может быть лучше, чем ничего.

Tigran Saluev
Например, у тебя нет статистики для слова “калечит...

Это норм идея, а есть что-то вроде движка регулярок, где вместо символов части речи?

Tigran-Saluev Автор вопроса
Evgeniy Blinov
Это норм идея, а есть что-то вроде движка регуляро...

Прям такого я не видел, но всякие готовые лемматизаторы и токенизаторы для популярных языков обычно существуют.

Tigran-Saluev Автор вопроса
Evgeniy Blinov
Но проблему автокомплита не решает

Проблема автокомплита — это вообще другое) В автокомплите довольно трудно сделать что-то, кроме как подсунуть уже популярные запросы, отранжированные как-то

Tigran Saluev
Проблема автокомплита — это вообще другое) В авток...

Сунуть запросы да, там все равно больше 3 вариантов особо нет смысла предлагать

Похожие вопросы

Обсуждают сегодня

я не магистр хаскеля, но разве не может лейзи тип конвертнуться в не-лейзи запросив вычисление содержимого прям при инициализации?
deadgnom32 λ madao
100
в сях есть множество как в питоне? для удаление дубликатов
Linus
25
читать файл максимально быстро? странный вопрос))
zamtmn
53
How to create an OS in C? what to study?
Linus
18
тоесть, указав return eax, сгенерируется никому ненужная инструкция mov eax,eax ?
Aiwan \ (•◡•) / _bot
24
а как бы вылезти из ИО, что то типа IO -> Ether или в какую сторону смотреть ? что то туплю
Fedor
9
Всем доброго вечера! Хочу поделиться своим злоключением с человеком, который, как оказалось сюда тоже скидывал свое резюме. Жаль, что я вашу группу не нашел раньше… человек ки...
Роман Ахмедзянов
4
а зачем этот вопрос для удаления из чата?
Mёdkinson Medvezhkin
63
Компания Elif ищет менеджера проектов, который будет заниматься поиском и ведением новых проектов. Прежде чем приступить к работе, вам нужно пройти наш недельный курс, где вы ...
Elif
5
Привет, кто может сделать юзербота с апи? Задачи: - создавать группы - создавать каналы - задавать для созданных каналов аватарку или эмоджи, имя группы - добавлять в группы...
Lencore
11
Карта сайта