Добрый день, коллеги! Может кому то попадалась статья про сравнение

Question

Добрый день, коллеги! Может кому то попадалась статья про сравнение

качества эмбединг-моделей Word2Vec, fastText, ELMo, BERT? Был бы благодарен за наводку ) Интересует качество в сходстве результирующих векторов для заранее известных пар предложений/фраз. Т.е., например, отдаем всем моделям "горячая вода" и "горячий чай" и считаем сходство векторов на выходе. У кого ближе, тот и молодец. )

#nlp #programming #russian

0

05.06.2022

6 ответов

17 просмотров

David Dalé

Я такое сравнение делал для русского языка, собирался этой зимой в статью запилить, но руки так и не дошли. Чуть позднее могу скинуть код и данные.

0

05.06.2022

Vic

Трансформеры надо использовать тк так модель можно затюнить на ось смысла, из коробки там будут скачки качества в разных сеттингах и жаргонах. Из коробки будет не очень работать и порог подобрать сложно. Условно горячий чай, тёплый компот сходство 0.9 тк напитки. Но если другая ось и надо внутри разделять их типы то тогда сходство станет 0.2

0

05.06.2022

Konstantin Galagan Автор вопроса

Ну для моей цели достаточно было бы упрощённого подхода. Все модели тюним на одном датасете, целевые наборы так же одинаковые, сходимость считаем одинаково

0

05.06.2022

Vic

Konstantin Galagan
Ну для моей цели достаточно было бы упрощённого по...

Я бы ванговал что из коробки модель не подойдёт, тк она общие читчат знания содержит, конечно она даст сходство 0.8 на 2 текста про технологии, и 0.3 сходство на технологии и биологию скажем. Но вот большего добиться от неё не удавалось нам

0

05.06.2022

David Dalé

David Dalé
Я такое сравнение делал для русского языка, собира...

Обещанный текст про сравнение энкодеров предложений: https://habr.com/ru/post/669674/ Код вот https://github.com/avidale/encodechka, но сначала, чтобы понять суть, рекомендую таки прочитать текст)

0

05.06.2022

Andrey · Accepted Answer

Andrey

не знаю как word2vec, но для трансформеров даже графички всякие тут https://paperswithcode.com/sota/semantic-textual-similarity-on-sts-benchmark

0

05.06.2022

170 похожих чатов

Добрый день, коллеги! Может кому то попадалась статья про сравнение

6 ответов

Похожие вопросы