170 похожих чатов

Здравтствуйте! У меня очередной очень тупой вопрос - в чем

разница вектора и эмбеддинга? Нужно для диссертации. хаггингфейс говорит "An embedding is a numerical representation of a piece of information, for example, text, documents, images, audio, etc." но ведь это и про вектор можно сказать, что это "an array of numbers". Jurafsky говорит "representations of the meaning of words, called embedding", а у гугла написано "An embedding is a relatively low-dimensional space into which you can translate high-dimensional vectors." я запуталась. В этоге эмбеддинг и есть вектор, но только без нулей? или это пространство для этого вектора? или что вообще?

21 ответов

25 просмотров

Эмбеддинг - это вектор) И он отражает информацию о токене/предложении/...

Вектор - более общее понятие чем эмбеддинг. То есть эмбеддинг - это всегда вектор, но вектор - не всегда эмбеддинг 😀

Вектор - это понятие из математики, означающее «пачку» из ровно n пронумерованных чисел (или не обязательно чисел, а любых объектов, над которыми заданы алгебраические операции, но на практике это чаще всего именно числа). А эмбеддинг – это понятие из data science, и это частный случай вектора. Точнее, это просто вектор из чисел, но мы его наделяем особым смыслом: сопоставляем его какому-то не-математическому объекту, например слову, или subword токену, или предложению, или картинке, или чему-нибудь ещё.

Alfiya-Kh Автор вопроса
David Dalé
Вектор - это понятие из математики, означающее «па...

ага! Спасибо! Я поняла из разных текстов что эмбеддинг - это частный случай вектора, но в чем особенность - не особо. Пишут, что в нем меньше измерений. Вот думала - а как они ограничили эти измерения?

Alfiya-Kh Автор вопроса
David Dalé
Вектор - это понятие из математики, означающее «па...

спасибо! To есть vector representation of the word = embedding?

Alfiya Kh
ага! Спасибо! Я поняла из разных текстов что эмбед...

И эмбеддинги, и любые другие векторы могут иметь любую размерность и быть наполненными какими угодно числами. Суть эмбеддинга не в том, какими числами заполнен вектор, а какой смысл мы в него вкладываем (и, соответственно, как используем). Ну и эмбеддинги слов обычно инициализируются просто случайными числами, а осмысленное содержание эти числа приобретают как в раз результате обучения модели, то есть применения этих векторов специальным образом.

Alfiya Kh
ага! Спасибо! Я поняла из разных текстов что эмбед...

Меньше по сравнению со sparse-векторами типа таких, которые получаются в BoW, когда вектор размерностью со словарь и там в основном нули

Alfiya Kh
спасибо! To есть vector representation of the word...

Ну да. Только это не обязательно слово, а вообще любой объект, который мы как разработчики можем захотеть научится эмбеддить (то есть сопоставлять векторам)

D F
Меньше по сравнению со sparse-векторами типа таких...

Ну вообще-то такие векторы тоже можно называть эмбеддинами. То, что у них пространство огромное и почти пустое, не отменяет их эмбеддинговой сути: это тоже векторы, сопоставленные словам.

David Dalé
Ну вообще-то такие векторы тоже можно называть эмб...

Не, можно, спору нет. Но я подозреваю что тезис про размерность был про этот кейс

На примере слов: - векторное представление слова - это любое представление слова в виде вектора из R^n, например one-hot encoding - векторное вложение слова (embedding) - это когда мы в этом пространстве вводим понятие непрерывности с мерой “семантическая близость”

Alfiya-Kh Автор вопроса
Asiliskins
На примере слов: - векторное представление слова ...

Спасибо большое! А что такое R^n и one-hot encoding?

Alfiya-Kh Автор вопроса
Asiliskins
На примере слов: - векторное представление слова ...

ой, а семантическая близость это то что слова в похожих контекстах похожи?

Alfiya Kh
ой, а семантическая близость это то что слова в по...

Это типа если найти косинусное расстояние между двумя векторами (математическая операция такая) то оно будет меньше между схожими по смыслу словами. Как я понимаю, вся соль именно в этом 😇 конечно есть куча нюансов, но смысл такой.

Alfiya-Kh Автор вопроса
🅿️🅾️Ⓜ️🅰️♓️🈴 romad.ru
Это типа если найти косинусное расстояние между дв...

косинусное расстояние я знаю, мы его учились делать (на калькуляторе много умножали...), и в чем смысл понимаю. У меня научрук еще говорит semantic similarity и distributional similarity - одно и то же. Это как?

Alfiya Kh
косинусное расстояние я знаю, мы его учились делат...

Ну потому что по сути мы же меряем близость между векторами и считаем ее семантической Эти вектора получены за счет подсчета распределения слов, отсюда distributional

🅿️🅾️Ⓜ️🅰️♓️🈴 romad.ru
Это типа если найти косинусное расстояние между дв...

"...то оно будет меньше между схожими по смыслу словами." ...то оно (косинусное расстояние) будет больше. Метрику задают от 0 до 1, где 0 - совсем непохоже, 1- прям точь в точь.

Konstantin Galagan
"...то оно будет меньше между схожими по смыслу сл...

Метрика от -1 до +1 т.к. косинус такие значения может принимать. И «1 - похоже» скорее о cosine similarly https://scikit-learn.org/stable/modules/generated/sklearn.metrics.pairwise.cosine_similarity.html, а не cosine distance https://docs.scipy.org/doc/scipy/reference/generated/scipy.spatial.distance.cosine.html

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта