Коллеги, все с Новым Годом! совет нужен.. есть 7 млн предложений

Question

Big Data Science :: AI / Big Data / Machine Learning / MLOps

Коллеги, все с Новым Годом! совет нужен.. есть 7 млн предложений

(5-10 слов в каждом, но плюс в том, что все слова несут смысловую нагрузку - нет стоп слов) половина размечена на 10 классов. Проблема в том, что очень много уникальных слов получается. Т.е. тупо запихнуть в какой-нибудь векторайзер не вариант - матрица получается 7 млн х 40.000
Чем лучше подготовить данные для обучения? И вообще какую стратегию тут применить?

#database #programming #russian #software

0

04.01.2021

5 ответов

11 просмотров

Ingvar

Смотря что с ними далее нужно делать. BPE - первое, что в голову идет.

0

04.01.2021

Leonid Автор вопроса

Ingvar
Смотря что с ними далее нужно делать. BPE - первое...

по тем же 10 классам раскидать..

0

04.01.2021

Leonid Автор вопроса

Ingvar
Смотря что с ними далее нужно делать. BPE - первое...

а BPE это что? где почитать? на вскидку не ищет ничего..

0

04.01.2021

Кирилл

Сделай из большой выборки маленькую выборку, отладь все ошибки, получи pipeline, потом уже тестируй на полной выборке , так время сэкономишь.

0

06.01.2021

David Dalé · Accepted Answer

David Dalé

Можно опять таки в векторайзер, но батчами, чтобы в память влазило. Можно слова через готовый fasttext пропустить и потом векторы усреднить в рамках одного текста (или как-то хитрее агрегировать), тогда размерность сильно меньше будет.

0

04.01.2021

215 похожих чатов

Коллеги, все с Новым Годом! совет нужен.. есть 7 млн предложений

5 ответов

Похожие вопросы