170 похожих чатов

Добрый день, коллеги! Может кому то попадалась статья про сравнение

качества эмбединг-моделей Word2Vec, fastText, ELMo, BERT? Был бы благодарен за наводку ) Интересует качество в сходстве результирующих векторов для заранее известных пар предложений/фраз. Т.е., например, отдаем всем моделям "горячая вода" и "горячий чай" и считаем сходство векторов на выходе. У кого ближе, тот и молодец. )

6 ответов

17 просмотров

не знаю как word2vec, но для трансформеров даже графички всякие тут https://paperswithcode.com/sota/semantic-textual-similarity-on-sts-benchmark

Я такое сравнение делал для русского языка, собирался этой зимой в статью запилить, но руки так и не дошли. Чуть позднее могу скинуть код и данные.

Трансформеры надо использовать тк так модель можно затюнить на ось смысла, из коробки там будут скачки качества в разных сеттингах и жаргонах. Из коробки будет не очень работать и порог подобрать сложно. Условно горячий чай, тёплый компот сходство 0.9 тк напитки. Но если другая ось и надо внутри разделять их типы то тогда сходство станет 0.2

Konstantin-Galagan Автор вопроса

Ну для моей цели достаточно было бы упрощённого подхода. Все модели тюним на одном датасете, целевые наборы так же одинаковые, сходимость считаем одинаково

Konstantin Galagan
Ну для моей цели достаточно было бы упрощённого по...

Я бы ванговал что из коробки модель не подойдёт, тк она общие читчат знания содержит, конечно она даст сходство 0.8 на 2 текста про технологии, и 0.3 сходство на технологии и биологию скажем. Но вот большего добиться от неё не удавалось нам

David Dalé
Я такое сравнение делал для русского языка, собира...

Обещанный текст про сравнение энкодеров предложений: https://habr.com/ru/post/669674/ Код вот https://github.com/avidale/encodechka, но сначала, чтобы понять суть, рекомендую таки прочитать текст)

Похожие вопросы

Обсуждают сегодня

А случайно нет ли в паскале штатной возможности передать указатель и количество туда где array of в качестве аргумента?
zamtmn
25
Почему Telegram пишет, что объект media не найден, хотя на самом деле я его передаю? Делаю на urllib, без зависимостей, так надо. Вызываю метод sendMediaGroup с таким JSON: ...
Alexey S
1
Anyone here suffers from unexplained aural migraines, who would be up for talking for a bit? Doesn't *have* to be aural, but I am not asking about headaches, I mean actual mi...
Martin Rys
58
Ну раз я пока тут, задам пару глупых вопросов. Зачем писать на ассемблере если компилятор довольно умный, а ассемблер много времени занимает? В каких прикладных задачах сейчас...
Максим Рябцев
20
Я тут за тем, чтобы задать вопрос, так как не знаю ассемблер, учу с/с++. Короче, насколько дорога операция перехода в функцию при ее вызове? Дело в том, что в с++ есть макросы...
Максим Рябцев
12
Привет, нужен совет старших товарищей. Есть глобальная переменная var DefaultDataFolder:string; инициализируем DefaultDataFolder:='a:\_OUT\'; есть примитивная процедур...
Max Otto
14
А какие чаты вообще в ходу? Auto aim? И что еше
do you think you're better off alone? А
13
hello friends. Do you know how can I learn getx? I have a software project that I should deliver it up to 5 weeks later and I need to learn firebase too. I will be thankfull
AmirHossein Razavi
15
Доброе время суток! у меня тут иноды закончились. и понял почему по сути кстит, я периодически очищаю постгрес и сентри контайнер: postgres=# DELETE FROM nodestore_node WHER...
Юсиф Насиров
9
Вопрос. Теоретический. Есть список команд. Команды отправляю в обработку некой функции, по очереди. Разные команды могут давать разные результаты после обработки. В зависимос...
Serjone
7
Карта сайта