Всем привет! занимаюсь разработкой защиты LLM от prompt injection. накидал словарь

Question

Всем привет! занимаюсь разработкой защиты LLM от prompt injection. накидал словарь

из фраз по типу "забудь предыдущие инструкции" и ищу их нечетким поиском в запросе пользователя.
подскажите, какие еще есть варианты? может быть, датасеты или большой список примеров prompt injection?
в конечном итоге хочется, чтобы модель не сорвалась в дискуссии на холиварные темы (политика и т.п.), никого не оскорбила и т.д. из-за пользователя с плохими намерениями.
язык - русский

#nlp #programming #russian

0

19.09.2023

2 ответов

44 просмотра

Timur Автор вопроса

а можно где-то подробнее почитать про канарейки в промпте? не совсем понял суть метода

0

19.09.2023

Ilya Gusev · Accepted Answer

Ilya Gusev

Timur
а можно где-то подробнее почитать про канарейки в ...

https://github.com/protectai/rebuff#detect-canary-word-leakage

0

19.09.2023

170 похожих чатов

Всем привет! занимаюсь разработкой защиты LLM от prompt injection. накидал словарь

2 ответов

Похожие вопросы