170 похожих чатов

Коллеги, всем привет? как понимаю, при сравнении объектов чаще всего применяются

"расстояния", например, евклидово или блок-сити,
а для сравнения текстов/эмбеддингов - косинусная/контекстная/симантическая близость.
почему так?
то есть почему не сравнивать эмбеддинги теми же расстояниями?
для чего перешли именно на косинусную близость?

8 ответов

11 просмотров

Есть два вектора, если их углы близки, значит, вектора похожи. Это хорошая мера близости.

Vasily Chesalov
Есть два вектора, если их углы близки, значит, век...

Скорее, угол между ними стремиться к нулю, и для которого косинус равен единице. Что есть хорошо.

Anatoly-Belov Автор вопроса
Vasily Chesalov
Есть два вектора, если их углы близки, значит, век...

это я понимаю ) вопрос был в том, почему при сравнении текста/эмбеддинга применяется контекстная близость, а при сравнении просто объектов и координат - евклидово расстояние? в чем разница по логике? если сравнить эмбеддинги, близкие по контекстной близости, через евклидово расстояние - разве они не будут "также" близки?

Anatoly Belov
это я понимаю ) вопрос был в том, почему при сравн...

Косинусное расстояние не подвержено проклятию размерности. Оно учитывает только углы, и это хорошо, потому что одно предложение может содержать 5 слов, а другое 50 и они будут далеко по евклидову расстоянию, но близко по косиносному

Эмиль Шакиров
Косинусное расстояние не подвержено проклятию разм...

Собственно этого хватает чтобы использовать именно его. Но если подумать можно наверное ещё придумать почему евклидово при сравнении текстов неоч

Anatoly Belov
это я понимаю ) вопрос был в том, почему при сравн...

На что учили, то и считают. Как-то повелось, что обычно в конце моделей обычно линейный слой, который по факту считает dot product скрытого состояния и выходных векторов. Поэтому косинусное расстояние более естественно для таких моделей. Или в случае сиамских сетей вообще напрямую косинусное расстояние оптимизируют. Кроме того, для нормированных векторов квадрат евклидова расстояния линейно зависит от косинусного расстояния (d^2 = 2 - 2cos), так что в этом случае нет вообще никакой разницы.

Anatoly-Belov Автор вопроса

Похожие вопросы

Обсуждают сегодня

Интересно, нет ли какого-то способа получить из dll не адрес самой метки, а адрес со смещением?
The Bird of Hermes
54
Делал задачу вот такую https://stepik.org/lesson/4985/step/9?unit=1083 получилось такое https://play.haskell.org/saved/ipKrepqe оно работает, тестов много не писал, но работае...
Fedor
22
что-то я не понимаю, в линуксе отладочную информацию как убрать из бинаря? он что с этой опцией, что без - одного и того же (достаточно большого) размера (да, я про лазарь)
Iluha Companets
13
Hey Does anyone know how can I receive push notifications from Github on my account? The official Github android app doesn't send notifications, and I don't use the email bec...
Jacob
10
Anyone here suffers from unexplained aural migraines, who would be up for talking for a bit? Doesn't *have* to be aural, but I am not asking about headaches, I mean actual mi...
Martin Rys
58
Как в webstorm включить фичу, чтобы прямо в коде можно было видеть кто редактировал это строчку и в каком коммите?
Антон
7
Всем привет, а может кто-то подсказать какие-то советы или типо того, как оптимальнее всего сапортить сервисы в разных локациях (канада + австралия + евпропа)? Будет ли ошибк...
Stas
8
Это что теперь, любой бот сможет принимать платежи без ебли с юр лицами?
Lencore
8
Не догоняю немного каким боком тут эппл Вот есть веб (мини) апп, который по факту веб сайт, просто в телеге веб вью и если там оплата, то нежно вот эти приседания?
e\\/gen
7
Сообщение* в закодированном виде. То есть, просто сделать sendMessage?text=Привет бла-бла! не получится, надо в HEX переводить, и добавлять процент, типа такого: sendMessage?t...
КТ315
21
Карта сайта