215 похожих чатов

Добрый вечер! Чем лучше делать токенизацию текста с отрывками на

разных языках? Есть английский, русский, немецкий (алфавит с доп. буквами), возможно еще какие-то, а также греческие буквы (научные символы), иероглифы (Не знаю, сколько языков, но мало. Названия компаний, можно будет удалить).

8 ответов

8 просмотров

1. а текст точно весь нужен? 2. греческие буквы и иероглифы лучше удалить если они не несут смысла

Denis-Kazakov Автор вопроса

Я неправильно написал. Не текст, а csv (небольшой). В первой колонке отрывки текстов на разных языках. Во второй метка - тема. Задача классификации. Думал заменить все русские буквы на английские. Греческий и пр. удалить. Дальше всё должно быть хорошо.

Denis-Kazakov Автор вопроса

Обучить модель определять тему отрывка. Тем всего две: техника и медицина. Гугл транслейты привнесут доп. шум, поэтому думал насчет транслита.

Denis Kazakov
Обучить модель определять тему отрывка. Тем всего ...

так же вам никто не мешает взять неск моделей, определять язык отрывка и подключать нужную модель

Elmo
так же вам никто не мешает взять неск моделей, опр...

но там может не быть русского, тогда тут только через это

Кста забыл вчера спросить, пет-проект делаете или чет по работе?

Похожие вопросы

Обсуждают сегодня

Скажите, можно ли как-то "переместить" динамический массив из одной переменной в другую? Скажем, переместить из TList<> в TArray<>. Именно переместить, а не скопировать. Если ...
Eugene Krasnikov (ᴊɪɴ x)
37
комрады, че-та лыжы не едут var tmpFont: TFont; begin tmpFont:= TFont.Create; try case rgFontColor.ItemIndex of 0: tmpFont.Color:= clWindowText; 1: tmpFo...
Ed Doc
34
М-да. Почему бы просто со stringlist не работать?
Michael Longneck
23
Is there a digital way to cut the electricity from a usb in linux? It sounds weird, but it's exactly what I need to do. I tried to simulate the unplug/replug but is not the ...
Eduard Rivas
15
Интересно, нет ли какого-то способа получить из dll не адрес самой метки, а адрес со смещением?
The Bird of Hermes
54
Добавляю 100 тыс слов в TListBox. Перемешаю скролл (от ListBox). После примерно 65536 скролл резко прыгает вверх. Это что за глюк? Как фиксить, кто-нибудь знает?
Eugene Krasnikov (ᴊɪɴ x)
8
generic procedure function test<T>(param: T); type case T of longint: NewT = word; longword: NewT = byte; end; var v1: NewT; Как это можно сделать? Чтобы у меня...
notme
21
Делал задачу вот такую https://stepik.org/lesson/4985/step/9?unit=1083 получилось такое https://play.haskell.org/saved/ipKrepqe оно работает, тестов много не писал, но работае...
Fedor
22
Можно вообще написать: Person fName' lName' age'. Тогда действительно имена полей потребуются лишь в строковом виде, чтобы эти fName' и т.д. достать :-) Но разве для этого нуж...
Михаил
8
Anyone here suffers from unexplained aural migraines, who would be up for talking for a bit? Doesn't *have* to be aural, but I am not asking about headaches, I mean actual mi...
Martin Rys
58
Карта сайта