170 похожих чатов

Коллеги, мучает один детский вопрос. Я же правильно понимаю, что

если у меня есть гора эмебедингов SBERT от одного связного большого текста и я хочу свести их к одному эмбедингу, то мне надо смотреть в сторону сверток через CNN? Или есть более изящные способы добиться желаемого?

9 ответов

25 просмотров

к одному эмбеддингу привести хочешь чтобы что в итоге с ним делать? для поисковых задач хорошим представлением нескольких эмбеддингов у меня была их сумма

Konstantin-Galagan Автор вопроса
vvv
к одному эмбеддингу привести хочешь чтобы что в ит...

Для поиска по ним входящий коротких запросов

Konstantin Galagan
Для поиска по ним входящий коротких запросов

то есть ты хочешь условно страницу текста искать по короткому предложению?

Konstantin Galagan
Для поиска по ним входящий коротких запросов

А зачем тебе вообще агрегировать эмбеддинги для этого поиска? Если запрос достаточно простой, такой, что на него отвечает небольшой фрагмент текста (предложение или большой абзац), то проще всего заматчить эмбеддинг вопроса напрямую с эмбеддингом этого фрагмента. А если вопрос достаточно сложный и требует сопоставления информации из нескольких разных фрагментов текста, то скорее всего при вычислении и агрегировании эмбеддингов эта инорфмация потеряется, и ответ удастся найти только приблизительно (скорее всего - с точностью до темы или ключевых слов).

David Dalé
А зачем тебе вообще агрегировать эмбеддинги для эт...

Это вообще отдельная боль - собирать информацию для ответа по разным местам в базе. Embeddings создают только иллюзию работы на простеньких вопросах Какие есть решения, которые нормально работают на практике? Из того, что показывает потенциал пока: (1) выделять ключевые сущности, потом искать по ним, ранжировать найденные фрагменты и последовательно сливать в ответ (answer refinement) (2) делать разные индексы, начиная с FTT и до графов по структуре документа. Потом результаты ранжировать и см пункт 1 (3) ждать обещанного контекста в миллион tokens от OpenAI

Vic
Мы 2 делаем

А сколько времени на запрос уходит, если не секрет?

Rinat Abdullin
Это вообще отдельная боль - собирать информацию дл...

Можно выдернуть эмбединги токенов поискового запроса, а потом полученные span.start и span.end кластеризовать на расстоянии от друг друга. И если рядом находятся слова в ответе, то у них разница будет в len() или больше. И если больше, чем len, тогда будет дистанция от центроида

Похожие вопросы

Обсуждают сегодня

Господа, а что сейчас вообще с рынком труда на делфи происходит? Какова ситуация?
Rꙮman Yankꙮvsky
29
А вообще, что может смущать в самой Julia - бы сказал, что нет единого стандартного подхода по многим моментам, поэтому многое выглядит как "хаки" и произвол. Короче говоря, с...
Viktor G.
2
30500 за редактор? )
Владимир
47
а через ESC-код ?
Alexey Kulakov
29
Чёт не понял, я ж правильной функцией воспользовался чтобы вывести отладочную информацию? но что-то она не ловится
notme
18
У меня есть функция где происходит это: write_bit(buffer, 1); write_bit(buffer, 0); write_bit(buffer, 1); write_bit(buffer, 1); write_bit(buffer, 1); w...
~
14
Добрый день! Скажите пожалуйста, а какие программы вы бы рекомендовали написать для того, чтобы научиться управлять памятью? Можно написать динамический массив, можно связный ...
Филипп
7
Недавно Google Project Zero нашёл багу в SQLite с помощью LLM, о чём достаточно было шумно в определённых интернетах, которые сопровождались рассказами, что скоро всех "ибешни...
Alex Sherbakov
5
Ребят в СИ можно реализовать ООП?
Николай
33
https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_h_common.erl#L174 https://github.com/erlang/otp/blob/OTP-27.1/lib/kernel/src/logger_olp.erl#L76 15 лет назад...
Maksim Lapshin
20
Карта сайта