понимаю, что мы в целом обучаем связку 2-х алгоритмов: это векторизатор текста и алгоритм машинного обучения. И векторизатор не должен знать про данные для теста. По итогу мы тестим не одну модель, а как раз ту связку ветокризатор + мл. Я верно всё понимаю ?
разные схемы могут быть. Для самых простых векторизаторов типа bag of words и TF-IDF фактически обучение не нужно, это просто сбор статистики. Если использовать эмбеддинги, можно брать уже готовые. А можно встроить эмбеддинг в модель, и тогда они обучаются вместе.
Вот только и bow и tf-idf собирают статистику по всему корпусу текстов. То есть их векторизации будут отличаться немного.
Нейронка нейронке рознь. В нейронку можно уже готовый эмбеддинг подавать.
Да, а для трансформеров, кстати, совместно обучаются токенизатор, эмбеддинг токенов и модель. Но инферятся отдельно токенизатор и отдельно всё остальное.
в смысле токенизатор одновременно с моделью обучается? токенизатор обучается до
Обсуждают сегодня