Что можно попробовать кроме как обучить FastText или Tf-Idf(chars)+LogReg?
можно проще https://github.com/google/cld3 (или вообще небольшой трансформер, который сам разберется где ему надо биграммы а где триграммы)
Возможно, тут вообще будет довольно сильной фичей статистика длины бертового токена в этой штуковине и количество неизвестных берту токенов, даже без самого трансформера
хорошо обучить fasttext
То есть прогнать через токенайзер и посмотреть среднюю длину токена? У транслитерации и абракадабры наверно плюс/минус одно и тоже будет. Он этого мало видел
Интуитивно кажется, что у транслитерации будет хотя бы что-то произносимое, но не проверяла
Транслитерацию можно обучать на русском словаре с транслитом. Возьмете 2 больших словаря: русский (с транслитом), английский и сделаете из них мешок токенов. Потом классификация: английский, русский транслит, не найдено. Не найдено - это будет абракадабра. Тут возможно нужны будут лемматизация и стемминг.
В словаре нет частотности. Мне кажется это плохо. Ну и вопрос был какой инструмент использовать) как датасет составить, вроде вариант только один)
Из-за того, что русский с транслитом является нестандартом, то предобученные мультиязычные модели по типу BERT не подойдут. Я предлагаю простую модель Bag of word - FastText, Gensim.
А если взять частотный словарь, то - внезапно - есть
А зачем частота и лог. рег?) Если можно пройти циклом по каждому слову и однозначно сказать - это английское слово, транслит или не найдено.
Лемматизацию английского транслита еще не изобрели. Вам придется сначала сделать обратный транслит с английского алфавита на русский алфавит, а потом пройтись лемматизатором от pymorphy2.
Обсуждают сегодня