Ребят, возник вопрос по задачам NLP в целом. Я правильно

Question

Ребят, возник вопрос по задачам NLP в целом. Я правильно

понимаю, что мы в целом обучаем связку 2-х алгоритмов: это векторизатор текста и алгоритм машинного обучения. И векторизатор не должен знать про данные для теста. По итогу мы тестим не одну модель, а как раз ту связку ветокризатор + мл. Я верно всё понимаю ?

#database #programming #russian #software

0

09.06.2022

6 ответов

17 просмотров

Vitaliy Baldeev Автор вопроса

Roman Nm
разные схемы могут быть. Для самых простых вектори...

Вот только и bow и tf-idf собирают статистику по всему корпусу текстов. То есть их векторизации будут отличаться немного.

0

09.06.2022

Roman Nm

Нейронка нейронке рознь. В нейронку можно уже готовый эмбеддинг подавать.

0

09.06.2022

Vitaliy Baldeev Автор вопроса

Roman Nm
Нейронка нейронке рознь. В нейронку можно уже гото...

Да, согласен

0

09.06.2022

Roman Nm

Да, а для трансформеров, кстати, совместно обучаются токенизатор, эмбеддинг токенов и модель. Но инферятся отдельно токенизатор и отдельно всё остальное.

0

09.06.2022

Andrei Kalmykov

Roman Nm
Да, а для трансформеров, кстати, совместно обучают...

в смысле токенизатор одновременно с моделью обучается? токенизатор обучается до

0

09.06.2022

Roman Nm · Accepted Answer

разные схемы могут быть. Для самых простых векторизаторов типа bag of words и TF-IDF фактически обучение не нужно, это просто сбор статистики. Если использовать эмбеддинги, можно брать уже готовые. А можно встроить эмбеддинг в модель, и тогда они обучаются вместе.

215 похожих чатов

Ребят, возник вопрос по задачам NLP в целом. Я правильно

6 ответов

Похожие вопросы