разных языках? Есть английский, русский, немецкий (алфавит с доп. буквами), возможно еще какие-то, а также греческие буквы (научные символы), иероглифы (Не знаю, сколько языков, но мало. Названия компаний, можно будет удалить).
1. а текст точно весь нужен? 2. греческие буквы и иероглифы лучше удалить если они не несут смысла
Я неправильно написал. Не текст, а csv (небольшой). В первой колонке отрывки текстов на разных языках. Во второй метка - тема. Задача классификации. Думал заменить все русские буквы на английские. Греческий и пр. удалить. Дальше всё должно быть хорошо.
так что вам надо?
Обучить модель определять тему отрывка. Тем всего две: техника и медицина. Гугл транслейты привнесут доп. шум, поэтому думал насчет транслита.
так же вам никто не мешает взять неск моделей, определять язык отрывка и подключать нужную модель
но там может не быть русского, тогда тут только через это
Кста забыл вчера спросить, пет-проект делаете или чет по работе?
Тест для работы )
Обсуждают сегодня