слово -> 0, русский транслит -> 1. Всё, что не найдено в словаре -> 2.
Нам же не нужен косинус симилярити.
Тоже вполне здравая мысль)
Причем при генерации русского транслита со словаря Ожегова нужно все слова предварительно обработать pymorphy2 и вывести все леммы, чтобы всё их транслитерировать сразу.
на нужен классификатор в той или иной форме, просто потому, что словари не полны
Обсуждают сегодня