Здравтствуйте! У меня очередной очень тупой вопрос - в чем

Question

Здравтствуйте! У меня очередной очень тупой вопрос - в чем

разница вектора и эмбеддинга? Нужно для диссертации. хаггингфейс говорит "An embedding is a numerical representation of a piece of information, for example, text, documents, images, audio, etc." но ведь это и про вектор можно сказать, что это "an array of numbers". Jurafsky говорит "representations of the meaning of words, called embedding", а у гугла написано "An embedding is a relatively low-dimensional space into which you can translate high-dimensional vectors." я запуталась. В этоге эмбеддинг и есть вектор, но только без нулей? или это пространство для этого вектора? или что вообще?

#nlp #programming #russian

0

20.05.2023

21 ответов

25 просмотров

Alfiya Kh Автор вопроса

Maria
Эмбеддинг - это вектор) И он отражает информацию о...

спасибо!!!

0

20.05.2023

🅿️🅾️Ⓜ️🅰️♓️🈴 romad.ru

Вектор - более общее понятие чем эмбеддинг. То есть эмбеддинг - это всегда вектор, но вектор - не всегда эмбеддинг 😀

0

20.05.2023

David Dalé

Вектор - это понятие из математики, означающее «пачку» из ровно n пронумерованных чисел (или не обязательно чисел, а любых объектов, над которыми заданы алгебраические операции, но на практике это чаще всего именно числа). А эмбеддинг – это понятие из data science, и это частный случай вектора. Точнее, это просто вектор из чисел, но мы его наделяем особым смыслом: сопоставляем его какому-то не-математическому объекту, например слову, или subword токену, или предложению, или картинке, или чему-нибудь ещё.

0

20.05.2023

Alfiya Kh Автор вопроса

David Dalé
Вектор - это понятие из математики, означающее «па...

ага! Спасибо! Я поняла из разных текстов что эмбеддинг - это частный случай вектора, но в чем особенность - не особо. Пишут, что в нем меньше измерений. Вот думала - а как они ограничили эти измерения?

0

20.05.2023

Alfiya Kh Автор вопроса

David Dalé
Вектор - это понятие из математики, означающее «па...

спасибо! To есть vector representation of the word = embedding?

0

20.05.2023

David Dalé

Alfiya Kh
ага! Спасибо! Я поняла из разных текстов что эмбед...

И эмбеддинги, и любые другие векторы могут иметь любую размерность и быть наполненными какими угодно числами. Суть эмбеддинга не в том, какими числами заполнен вектор, а какой смысл мы в него вкладываем (и, соответственно, как используем). Ну и эмбеддинги слов обычно инициализируются просто случайными числами, а осмысленное содержание эти числа приобретают как в раз результате обучения модели, то есть применения этих векторов специальным образом.

0

20.05.2023

D F

Alfiya Kh
ага! Спасибо! Я поняла из разных текстов что эмбед...

Меньше по сравнению со sparse-векторами типа таких, которые получаются в BoW, когда вектор размерностью со словарь и там в основном нули

0

20.05.2023

David Dalé

Alfiya Kh
спасибо! To есть vector representation of the word...

Ну да. Только это не обязательно слово, а вообще любой объект, который мы как разработчики можем захотеть научится эмбеддить (то есть сопоставлять векторам)

0

20.05.2023

David Dalé

D F
Меньше по сравнению со sparse-векторами типа таких...

Ну вообще-то такие векторы тоже можно называть эмбеддинами. То, что у них пространство огромное и почти пустое, не отменяет их эмбеддинговой сути: это тоже векторы, сопоставленные словам.

0

20.05.2023

D F

David Dalé
Ну вообще-то такие векторы тоже можно называть эмб...

Не, можно, спору нет. Но я подозреваю что тезис про размерность был про этот кейс

0

20.05.2023

Asiliskins

На примере слов: - векторное представление слова - это любое представление слова в виде вектора из R^n, например one-hot encoding - векторное вложение слова (embedding) - это когда мы в этом пространстве вводим понятие непрерывности с мерой “семантическая близость”

0

20.05.2023

Alfiya Kh Автор вопроса

Asiliskins
На примере слов: - векторное представление слова ...

Спасибо большое! А что такое R^n и one-hot encoding?

0

20.05.2023

Alfiya Kh Автор вопроса

Asiliskins
На примере слов: - векторное представление слова ...

ой, а семантическая близость это то что слова в похожих контекстах похожи?

0

20.05.2023

🅿️🅾️Ⓜ️🅰️♓️🈴 romad.ru

Alfiya Kh
ой, а семантическая близость это то что слова в по...

Это типа если найти косинусное расстояние между двумя векторами (математическая операция такая) то оно будет меньше между схожими по смыслу словами. Как я понимаю, вся соль именно в этом 😇 конечно есть куча нюансов, но смысл такой.

0

20.05.2023

Alfiya Kh Автор вопроса

🅿️🅾️Ⓜ️🅰️♓️🈴 romad.ru
Это типа если найти косинусное расстояние между дв...

косинусное расстояние я знаю, мы его учились делать (на калькуляторе много умножали...), и в чем смысл понимаю. У меня научрук еще говорит semantic similarity и distributional similarity - одно и то же. Это как?

0

20.05.2023

Denis Kirjanov

Alfiya Kh
косинусное расстояние я знаю, мы его учились делат...

Ну потому что по сути мы же меряем близость между векторами и считаем ее семантической Эти вектора получены за счет подсчета распределения слов, отсюда distributional

0

20.05.2023

Alfiya Kh Автор вопроса

Denis Kirjanov
Ну потому что по сути мы же меряем близость между ...

А, поняла, спасибо!

0

20.05.2023

Konstantin Galagan

🅿️🅾️Ⓜ️🅰️♓️🈴 romad.ru
Это типа если найти косинусное расстояние между дв...

"...то оно будет меньше между схожими по смыслу словами." ...то оно (косинусное расстояние) будет больше. Метрику задают от 0 до 1, где 0 - совсем непохоже, 1- прям точь в точь.

0

21.05.2023

Yuriy Nazarov

Konstantin Galagan
"...то оно будет меньше между схожими по смыслу сл...

Метрика от -1 до +1 т.к. косинус такие значения может принимать. И «1 - похоже» скорее о cosine similarly https://scikit-learn.org/stable/modules/generated/sklearn.metrics.pairwise.cosine_similarity.html, а не cosine distance https://docs.scipy.org/doc/scipy/reference/generated/scipy.spatial.distance.cosine.html

0

21.05.2023

Konstantin Galagan

Yuriy Nazarov
Метрика от -1 до +1 т.к. косинус такие значения мо...

Да, вы правы, "ошибка выжившего" )

0

21.05.2023

Maria · Accepted Answer

Maria

Эмбеддинг - это вектор) И он отражает информацию о токене/предложении/...

0

20.05.2023

170 похожих чатов

Здравтствуйте! У меня очередной очень тупой вопрос - в чем

21 ответов

Похожие вопросы