215 похожих чатов

Добрый вечер! Чем лучше делать токенизацию текста с отрывками на

разных языках? Есть английский, русский, немецкий (алфавит с доп. буквами), возможно еще какие-то, а также греческие буквы (научные символы), иероглифы (Не знаю, сколько языков, но мало. Названия компаний, можно будет удалить).

8 ответов

16 просмотров

1. а текст точно весь нужен? 2. греческие буквы и иероглифы лучше удалить если они не несут смысла

Denis-Kazakov Автор вопроса

Я неправильно написал. Не текст, а csv (небольшой). В первой колонке отрывки текстов на разных языках. Во второй метка - тема. Задача классификации. Думал заменить все русские буквы на английские. Греческий и пр. удалить. Дальше всё должно быть хорошо.

Denis-Kazakov Автор вопроса

Обучить модель определять тему отрывка. Тем всего две: техника и медицина. Гугл транслейты привнесут доп. шум, поэтому думал насчет транслита.

Denis Kazakov
Обучить модель определять тему отрывка. Тем всего ...

так же вам никто не мешает взять неск моделей, определять язык отрывка и подключать нужную модель

Elmo
так же вам никто не мешает взять неск моделей, опр...

но там может не быть русского, тогда тут только через это

Кста забыл вчера спросить, пет-проект делаете или чет по работе?

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта