Коллеги, мучает один детский вопрос. Я же правильно понимаю, что

Question

Коллеги, мучает один детский вопрос. Я же правильно понимаю, что

если у меня есть гора эмебедингов SBERT от одного связного большого текста и я хочу свести их к одному эмбедингу, то мне надо смотреть в сторону сверток через CNN? Или есть более изящные способы добиться желаемого?

#nlp #programming #russian

0

04.06.2023

9 ответов

11 просмотров

Konstantin Galagan Автор вопроса

vvv
к одному эмбеддингу привести хочешь чтобы что в ит...

Для поиска по ним входящий коротких запросов

0

12 месяцев назад

vvv

Konstantin Galagan
Для поиска по ним входящий коротких запросов

то есть ты хочешь условно страницу текста искать по короткому предложению?

0

12 месяцев назад

David Dalé

Konstantin Galagan
Для поиска по ним входящий коротких запросов

А зачем тебе вообще агрегировать эмбеддинги для этого поиска? Если запрос достаточно простой, такой, что на него отвечает небольшой фрагмент текста (предложение или большой абзац), то проще всего заматчить эмбеддинг вопроса напрямую с эмбеддингом этого фрагмента. А если вопрос достаточно сложный и требует сопоставления информации из нескольких разных фрагментов текста, то скорее всего при вычислении и агрегировании эмбеддингов эта инорфмация потеряется, и ответ удастся найти только приблизительно (скорее всего - с точностью до темы или ключевых слов).

0

12 месяцев назад

Rinat Abdullin

David Dalé
А зачем тебе вообще агрегировать эмбеддинги для эт...

Это вообще отдельная боль - собирать информацию для ответа по разным местам в базе. Embeddings создают только иллюзию работы на простеньких вопросах Какие есть решения, которые нормально работают на практике? Из того, что показывает потенциал пока: (1) выделять ключевые сущности, потом искать по ним, ранжировать найденные фрагменты и последовательно сливать в ответ (answer refinement) (2) делать разные индексы, начиная с FTT и до графов по структуре документа. Потом результаты ранжировать и см пункт 1 (3) ждать обещанного контекста в миллион tokens от OpenAI

0

12 месяцев назад

Vic

Rinat Abdullin
Это вообще отдельная боль - собирать информацию дл...

Мы 2 делаем

0

12 месяцев назад

Rinat Abdullin

Vic
Мы 2 делаем

А сколько времени на запрос уходит, если не секрет?

0

12 месяцев назад

Erdeni

Rinat Abdullin
Это вообще отдельная боль - собирать информацию дл...

Можно выдернуть эмбединги токенов поискового запроса, а потом полученные span.start и span.end кластеризовать на расстоянии от друг друга. И если рядом находятся слова в ответе, то у них разница будет в len() или больше. И если больше, чем len, тогда будет дистанция от центроида

0

12 месяцев назад

Vic

Rinat Abdullin
А сколько времени на запрос уходит, если не секрет...

0.01с

0

12 месяцев назад

vvv · Accepted Answer

vvv

к одному эмбеддингу привести хочешь чтобы что в итоге с ним делать? для поисковых задач хорошим представлением нескольких эмбеддингов у меня была их сумма

0

12 месяцев назад

170 похожих чатов

Коллеги, мучает один детский вопрос. Я же правильно понимаю, что

9 ответов

Похожие вопросы