помощи:
- TF-IDF
- Word2Vec CBOW
- GloVe
если есть берты которые не только слова по отдельности представят в числовом виде, а и attention юзают блгодаря чему сохраняют связь между словами что позволяет вычленить гараздо больше инфы с текста.К примеру те же sentance transformers
В чем смысл юзать что либо иное?
- TF-IDF вообще только релевантность слов считает в рамках предложения, но никак не имитирует смысл слов и их связь.
(исходя из моего понимания,поправьте,пожалуйста, если я не прав)
- Word2Vec CBOW так то учитывает контекст, но attention для этого лучше,ИМХО.Смысл в этом подходе?
- GloVe (uses the semantic relationship between the words is obtained using a co-occurrence matrix)
тоже казалось бы как-то слова связывает между собой, но это все еще не attention.
Вопрос: зачем их юзают, и стоит ли в них углубляться если есть берты?
Предполагаю что основная причина в том, что attention очень дорого считать, поправьте, если ошибаюсь
единственный повод считать эмбеддинги чем-то кроме берта - это то, что TF-IDF заведётся на микроволновке, а берт нет
Мелкий берт заведется
TF-IDF хорошо ловит мусор, опечатки и тп., т.к. считает их очень важными из-за редкого употребления. Ну и ключевые слова (тэги) можно до кучи
но там же он не особо много инфы вычленит, толку 0 почти же, или я не прав?
ещё как вычленит. Языки всегда сложно моделировать
А какая задача, напомни?
та любая, от text-classification до text-generation
ну конкретно сейчас текст классифицирую)
Я бы сделал baseline на tfidf за пару часов со стеммингом, и если качество оказалось бы ниже приемлемого, ковырял бы bert
Обсуждают сегодня