170 похожих чатов

Привет! Хочу сделать модельку на классификацию: английский язык(“compliance”), транслитерация(“perestanovka”), абракадабра(“ghftaw”).

Что можно попробовать кроме как обучить FastText или Tf-Idf(chars)+LogReg?

11 ответов

20 просмотров

можно проще https://github.com/google/cld3 (или вообще небольшой трансформер, который сам разберется где ему надо биграммы а где триграммы)

Возможно, тут вообще будет довольно сильной фичей статистика длины бертового токена в этой штуковине и количество неизвестных берту токенов, даже без самого трансформера

хорошо обучить fasttext

Alexander- Автор вопроса
Liza Nosova
Возможно, тут вообще будет довольно сильной фичей ...

То есть прогнать через токенайзер и посмотреть среднюю длину токена? У транслитерации и абракадабры наверно плюс/минус одно и тоже будет. Он этого мало видел

Alexander
То есть прогнать через токенайзер и посмотреть сре...

Интуитивно кажется, что у транслитерации будет хотя бы что-то произносимое, но не проверяла

Транслитерацию можно обучать на русском словаре с транслитом. Возьмете 2 больших словаря: русский (с транслитом), английский и сделаете из них мешок токенов. Потом классификация: английский, русский транслит, не найдено. Не найдено - это будет абракадабра. Тут возможно нужны будут лемматизация и стемминг.

Alexander- Автор вопроса
Erdeni
Транслитерацию можно обучать на русском словаре с ...

В словаре нет частотности. Мне кажется это плохо. Ну и вопрос был какой инструмент использовать) как датасет составить, вроде вариант только один)

Alexander
В словаре нет частотности. Мне кажется это плохо. ...

Из-за того, что русский с транслитом является нестандартом, то предобученные мультиязычные модели по типу BERT не подойдут. Я предлагаю простую модель Bag of word - FastText, Gensim.

Alexander
В словаре нет частотности. Мне кажется это плохо. ...

А если взять частотный словарь, то - внезапно - есть

Liza Nosova
А если взять частотный словарь, то - внезапно - ес...

А зачем частота и лог. рег?) Если можно пройти циклом по каждому слову и однозначно сказать - это английское слово, транслит или не найдено.

Erdeni
Транслитерацию можно обучать на русском словаре с ...

Лемматизацию английского транслита еще не изобрели. Вам придется сначала сделать обратный транслит с английского алфавита на русский алфавит, а потом пройтись лемматизатором от pymorphy2.

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта