170 похожих чатов

Коллеги, всем привет. Объясните мне, пожалуйста, разницу в обучении на

документах и в применении документов, как контекста, для промптов.

Правильно ли я понимаю, что набор документов, как контекст обязывает модель строго опираться на факты в них, в то время как дообучение на этом же наборе в результате лишь даст вероятностный "доменообразный" Инференс, но вовсе не обязательно фактически правильный?

8 ответов

19 просмотров

для документов лучше брать лангчейн или ретривер

Да все правильно. Обычный термин для "обучения на документах" это файнтюн. Он хорош для того чтобы стиль переносить. Факты оказываются зашифрованы в параметрах модели в таком случае вероятностно. Если часто будут встречаться, то больше вероятность что модель их выдаст верно. Набор документов как контекст, это называется RAG - Retreival Augmented Generation - генерация улучшенная (поисковой выдачей). То есть части документов, после подготовки, подсовываются в промпт и там самым сильно повышают, но не гарантируют фактологическую точность. лангчейн это библиотека, котороая помимо всего прочего упрощает инженерные действия по организации этого самого RAG. То есть инструмент для реализации, второго описанного вами подхода,а не какая-то третья опция.

S S A-Sokol Автор вопроса
Илья Нездешний
Да все правильно. Обычный термин для "обучения на ...

О, то есть, правильно ли я понял механику. Фрагменты, полученные из документа с помощью RAG-техник, "включаются" в пользовательский промпт, уточняя его?

S S A Sokol
О, то есть, правильно ли я понял механику. Фрагмен...

да. Модно - с помощью векторного поиска, но это не единственный и не всегда лучший способ.

S S A-Sokol Автор вопроса
Илья Нездешний
Да все правильно. Обычный термин для "обучения на ...

Еще такой вопрос, на понимание, извините, если покажется наивным: Вот у LLM есть конструктивно заложенный размер промпта, который мы, если мы не большие мира сего, не можем изменить имеющимися ресурсами. Следовательно при инженерном проектировании ассистента мы должны соблюдать trade-off между размерами/количеством вспомогательных фрагментов контекста и собственным орагничением на пользовательский запрос? Потому что в сумме это не может превосходить, например, 4000 токенов

именно. вообще много инженерной возни из этого вытекает. И последним обновлением размера контекста гпт-4 до 128k токенов, убирается. Но не сводится на нет, потому что для каких-то задач данных нужно больше или гораздо больше

S S A-Sokol Автор вопроса
Илья Нездешний
именно. вообще много инженерной возни из этого выт...

В условиях моды на "приземление" LLM на конкретных предприятиях с чувствительными данными, когда как раз от GPT-4 хотят отходить, приходится как то изворачиваться с опенсорсными моделями.

S S A Sokol
В условиях моды на "приземление" LLM на конкретных...

приходится, да. Если хочется иметь дело с такими предприятиями )

Похожие вопросы

Обсуждают сегодня

Добрый вечер. Есть вопрос, а может и предложение. Был у меня диалог в другой группе о делфи и я задался вопросом: "А нельзя ли в делфи цвет //коментария и {комментария} сде...
Kraszx
24
Мдя, прикол, боевая сборка запускается (именно под отладчиком) после F9 примерно полторы минуты (97 секунд если быть точным). Начал копать - проблема детектится сразу - зависа...
Александр (Rouse_) Багель
38
Всем привет! Подскажи, пожалуйста, как передать в TComboBox сразу значение и id записи. На Delphi я делал так: ComboBox1.Items.AddObject('Какое-то значение', Pointer(id запис...
Евгений
13
я так понимаю, я так подозреваю, что создание такого плагина для человека, кто умеет писать плагины для делфи потребует минут 5-10 времени. но это мое подозрение. хотелось бы ...
Kraszx
7
Товарищи, кто работа с iphelper? Или может я в самой логике ошибки фигачу, не пойму.... var ifTable : PMIB_IFTABLE; size, corSize: DWORD; Buffer ...
Warfarellen
4
Здравствуйте, вопрос по структурам данных. Были у вас случаи, когда пришлось писать деревья или двунаправленные списки?
/ /
50
Коллеги, добрый вечер. Создаю коллекцию от TFPGMap, ключ - перечисление, значение - целое. Нужно отсортировать коллекцию по значению. Как это можно сделать?
Kirill Filippenok
11
Привет, такой вопросик появился кажется ли вам что Rust слишком сложный/строгий для высокоуровневого программирования и слишком "безопасный"/строгий для низкоуровневого?
Крокант
10
Скажи а ты когда этот канал создавал ты уже дельфи не любил, или это со временем пришло?
Роман Лях (rgreat)
18
Всем привет! Использую кастомное модальное диалоговое окошко, все по классике - mrOK, mrCancel как ModalResult. Однако есть нюанс - в главной форме есть универсальный обработч...
Олег Гранишевский
20
Карта сайта