Привет, существуют ли инструменты для преобразования текста в слова? Например

слово d1masik преобразовывает в димасик, 12 в двенадцать, или günter в гюнтер

19 ответов

62 просмотра

https://github.com/snakers4/russian_stt_text_normalization но с димасиком не справится

мож такое? Кирилизатор function translit(word) { const converter = { 'sch': 'щ', 'yo': 'ё', 'zh': 'ж', 'ch': 'ч', 'sh': 'ш', 'yu': 'ю', 'ya': 'я', 'a': 'а', 'b': 'б', 'v': 'в', 'g': 'г', 'd': 'д', 'e': 'е', 'z': 'з', 'и': 'i', 'y': 'й', 'k': 'к', 'l': 'л', 'm': 'м', 'n': 'н', 'o': 'о', 'p': 'п', 'r': 'р', 's': 'с', 't': 'т', 'u': 'у', 'f': 'ф', 'h': 'х', 'c': 'ц', 'y': 'ы', }; Object.keys(converter).forEach(function(key){ var value = converter[key]; if(value != '') word = word.replace(new RegExp(key, 'g'), value); }) return word; } log(translit('schuka'));

Ivan- Автор вопроса
Ivan
С d1masik не справится

а не подскажешь, в чем суть заключается, зачем?

Ivan- Автор вопроса
Ivan
С d1masik не справится

есть у меня идея, щя скину

Ivan- Автор вопроса
Сергей Валентинович
Дабавь 1 и "и"

Мне кажется, слишком много таких в разных комбинациях

Ivan
Чтобы tts нормально читал

Про нормализацию текста от сайта антиплагиат https://habr.com/ru/company/antiplagiat/blog/529574/ Нормализация нейросетью (либой) от гугла https://habr.com/ru/post/45489/ Нормализация юникода, как метод борьбы с хитрым (юникод) спамом https://habr.com/ru/post/45489/

Ivan- Автор вопроса
Ivan- Автор вопроса
Ivan
Спасибо, вроде то что надо

Хотя они цифры тожн не учитывают

Ivan- Автор вопроса

Кто-то может в своем нике в случайном месте заменить букву или пару букв цифрой и никакой словарь не поможет

по идее должен. тк для спуфинга 0 периодически юзают вместо о

Ivan- Автор вопроса
Q
по идее должен. тк для спуфинга 0 периодически юза...

Тут два разных случая. В одном цифра выглядит как буква, в другом она звучит как буква

Ivan
Тут два разных случая. В одном цифра выглядит как ...

я тебя не понял. в случае с "димасиком" задача сводится к тому чтобы нормализовать его до русских букв

Ivan
Да

ну вот в статье антиплагиата та же задача преследуется. и юзают они под это либу гугла

Похожие вопросы

Обсуждают сегодня

Гайс, вопрос для разносторонее развитых: читаю стрим с юарта, нада выделять с него фреймы с определенной структурой, если ли чо готовое, или долбаться с ринг буффером? нада у...
Vitaly
9
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
длина пакета фиксированная, или меняется?
Okhsunrog
7
Вот еще странный косяк, подскажите как бороться. Я git clone сделал себе всего embassy и примеры там запускаю. Всё хорошо. Но вот решил в cargo.toml зависимости не как в приме...
Lukutin R2AJP
5
А в каком формате фреймы? Сам формат сейчас придумываешь, или что-то готовое нужно распарсить?
Okhsunrog
5
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Добрый вечер, Пока не совсем понимаю как наладить общение между телеграм ботом и ПО для работы с сим боксом. По самому боту так понял: - Нужен некий баланс, который можно поп...
Magic
6
Всем привет, нужна как никогда, нужна помощь с IO в загрузчике. Пишу в code16 после установки сегментных регистров, пишу вывод символа. Пробовал 2 варианта: # 1 mov $0x0E, %a...
Shadow Akira
14
Раз начали говорить про embassy, то присоединюсь со своими парой вопросов. 1) Есть ли сопоставимые аналоги для асинхронного кода в emdebbed? 2) Можно ли внутри задач embassy ...
NI_isx
6
сделал сайт, прикрутил в боте сайт, и виджет логина. как автоматически логинить пользователя в аккаунт(телеграм), при входе с бота?
Александра Чернивецкая
5
Карта сайта