170 похожих чатов

Всем привет! Делаю спеллчекер поисковых запросов и столкнулся со сложностями. Провел

анализ одного оупенсорс спеллчекера по следующим тестам:
Данные - 1500 популярных запросов за некоторый интервал времени, каждый запрос был разделен на слова (по пробелам), приведен к нижнему регистру, удалены слова содержащие английские буквы, цифры и длина которых меньше 4 символов.
Тест 1 - удаление одной случайной буквы:- Для каждого слова генерируется 3 различных варианта, где каждый вариант - исходное слово с удаленной одной буквой.
- Все измененные слова были обработаны при помощи spellchecker.- Были получены следующие метрики: accuracy = 0.43 (доля совпадений исправленного слова с исходным) и среднее расстояние Левенштейн = 0.85 (между исправленными словами и исходными). Расстояние Левенштейна между опечатками и исходными словами = 1 (удаление одной буквы).
Тест 2 - замена случайной буквы на букву, расположенную рядом на клавиатуре:
- Для каждого слова генерируется 3 различных варианта, где каждый вариант - исходное слово с заменой одной случайной буквы.- Все измененные слова были обработаны при помощи spellchecker.
- Были получены следующие метрики: accuracy = 0.61 (доля совпадений исправленного слова с исходным) и среднее расстояние Левенштейн = 0.48 (между исправленными словами и исходными). Расстояние Левенштейна между опечатками и исходными словами = 1 (удаление одной буквы).

Это очень плохое качество на мой взгляд. Подскажите, плес, как можно реализовать спеллчекер на основе именно корпуса документов, чтобы он исправлял запросы как надо, а не как не надо?)

4 ответов

18 просмотров

https://habr.com/ru/companies/sbermegamarket/articles/673614/ Мы так делали

когда дадут дообучать (или уже можно?) - будет можно сделать чтобы хорошо работало и для специфических датасетов (типа названий товаров)

(хотя бы для генерации хорошего датасета для обучения другой более легковесной модели)

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта