(5-10 слов в каждом, но плюс в том, что все слова несут смысловую нагрузку - нет стоп слов) половина размечена на 10 классов. Проблема в том, что очень много уникальных слов получается. Т.е. тупо запихнуть в какой-нибудь векторайзер не вариант - матрица получается 7 млн х 40.000
Чем лучше подготовить данные для обучения? И вообще какую стратегию тут применить?
Можно опять таки в векторайзер, но батчами, чтобы в память влазило. Можно слова через готовый fasttext пропустить и потом векторы усреднить в рамках одного текста (или как-то хитрее агрегировать), тогда размерность сильно меньше будет.
Смотря что с ними далее нужно делать. BPE - первое, что в голову идет.
по тем же 10 классам раскидать..
а BPE это что? где почитать? на вскидку не ищет ничего..
Сделай из большой выборки маленькую выборку, отладь все ошибки, получи pipeline, потом уже тестируй на полной выборке , так время сэкономишь.
Обсуждают сегодня