качества эмбединг-моделей Word2Vec, fastText, ELMo, BERT? Был бы благодарен за наводку ) Интересует качество в сходстве результирующих векторов для заранее известных пар предложений/фраз. Т.е., например, отдаем всем моделям "горячая вода" и "горячий чай" и считаем сходство векторов на выходе. У кого ближе, тот и молодец. )
не знаю как word2vec, но для трансформеров даже графички всякие тут https://paperswithcode.com/sota/semantic-textual-similarity-on-sts-benchmark
Я такое сравнение делал для русского языка, собирался этой зимой в статью запилить, но руки так и не дошли. Чуть позднее могу скинуть код и данные.
Трансформеры надо использовать тк так модель можно затюнить на ось смысла, из коробки там будут скачки качества в разных сеттингах и жаргонах. Из коробки будет не очень работать и порог подобрать сложно. Условно горячий чай, тёплый компот сходство 0.9 тк напитки. Но если другая ось и надо внутри разделять их типы то тогда сходство станет 0.2
Ну для моей цели достаточно было бы упрощённого подхода. Все модели тюним на одном датасете, целевые наборы так же одинаковые, сходимость считаем одинаково
Я бы ванговал что из коробки модель не подойдёт, тк она общие читчат знания содержит, конечно она даст сходство 0.8 на 2 текста про технологии, и 0.3 сходство на технологии и биологию скажем. Но вот большего добиться от неё не удавалось нам
Обещанный текст про сравнение энкодеров предложений: https://habr.com/ru/post/669674/ Код вот https://github.com/avidale/encodechka, но сначала, чтобы понять суть, рекомендую таки прочитать текст)
Обсуждают сегодня