разница вектора и эмбеддинга? Нужно для диссертации. хаггингфейс говорит "An embedding is a numerical representation of a piece of information, for example, text, documents, images, audio, etc." но ведь это и про вектор можно сказать, что это "an array of numbers". Jurafsky говорит "representations of the meaning of words, called embedding", а у гугла написано "An embedding is a relatively low-dimensional space into which you can translate high-dimensional vectors." я запуталась. В этоге эмбеддинг и есть вектор, но только без нулей? или это пространство для этого вектора? или что вообще?
Эмбеддинг - это вектор) И он отражает информацию о токене/предложении/...
Вектор - более общее понятие чем эмбеддинг. То есть эмбеддинг - это всегда вектор, но вектор - не всегда эмбеддинг 😀
Вектор - это понятие из математики, означающее «пачку» из ровно n пронумерованных чисел (или не обязательно чисел, а любых объектов, над которыми заданы алгебраические операции, но на практике это чаще всего именно числа). А эмбеддинг – это понятие из data science, и это частный случай вектора. Точнее, это просто вектор из чисел, но мы его наделяем особым смыслом: сопоставляем его какому-то не-математическому объекту, например слову, или subword токену, или предложению, или картинке, или чему-нибудь ещё.
ага! Спасибо! Я поняла из разных текстов что эмбеддинг - это частный случай вектора, но в чем особенность - не особо. Пишут, что в нем меньше измерений. Вот думала - а как они ограничили эти измерения?
спасибо! To есть vector representation of the word = embedding?
И эмбеддинги, и любые другие векторы могут иметь любую размерность и быть наполненными какими угодно числами. Суть эмбеддинга не в том, какими числами заполнен вектор, а какой смысл мы в него вкладываем (и, соответственно, как используем). Ну и эмбеддинги слов обычно инициализируются просто случайными числами, а осмысленное содержание эти числа приобретают как в раз результате обучения модели, то есть применения этих векторов специальным образом.
Меньше по сравнению со sparse-векторами типа таких, которые получаются в BoW, когда вектор размерностью со словарь и там в основном нули
Ну да. Только это не обязательно слово, а вообще любой объект, который мы как разработчики можем захотеть научится эмбеддить (то есть сопоставлять векторам)
Ну вообще-то такие векторы тоже можно называть эмбеддинами. То, что у них пространство огромное и почти пустое, не отменяет их эмбеддинговой сути: это тоже векторы, сопоставленные словам.
Не, можно, спору нет. Но я подозреваю что тезис про размерность был про этот кейс
На примере слов: - векторное представление слова - это любое представление слова в виде вектора из R^n, например one-hot encoding - векторное вложение слова (embedding) - это когда мы в этом пространстве вводим понятие непрерывности с мерой “семантическая близость”
Спасибо большое! А что такое R^n и one-hot encoding?
ой, а семантическая близость это то что слова в похожих контекстах похожи?
Это типа если найти косинусное расстояние между двумя векторами (математическая операция такая) то оно будет меньше между схожими по смыслу словами. Как я понимаю, вся соль именно в этом 😇 конечно есть куча нюансов, но смысл такой.
косинусное расстояние я знаю, мы его учились делать (на калькуляторе много умножали...), и в чем смысл понимаю. У меня научрук еще говорит semantic similarity и distributional similarity - одно и то же. Это как?
Ну потому что по сути мы же меряем близость между векторами и считаем ее семантической Эти вектора получены за счет подсчета распределения слов, отсюда distributional
А, поняла, спасибо!
"...то оно будет меньше между схожими по смыслу словами." ...то оно (косинусное расстояние) будет больше. Метрику задают от 0 до 1, где 0 - совсем непохоже, 1- прям точь в точь.
Метрика от -1 до +1 т.к. косинус такие значения может принимать. И «1 - похоже» скорее о cosine similarly https://scikit-learn.org/stable/modules/generated/sklearn.metrics.pairwise.cosine_similarity.html, а не cosine distance https://docs.scipy.org/doc/scipy/reference/generated/scipy.spatial.distance.cosine.html
Да, вы правы, "ошибка выжившего" )
Обсуждают сегодня