из фраз по типу "забудь предыдущие инструкции" и ищу их нечетким поиском в запросе пользователя.
подскажите, какие еще есть варианты? может быть, датасеты или большой список примеров prompt injection?
в конечном итоге хочется, чтобы модель не сорвалась в дискуссии на холиварные темы (политика и т.п.), никого не оскорбила и т.д. из-за пользователя с плохими намерениями.
язык - русский
а можно где-то подробнее почитать про канарейки в промпте? не совсем понял суть метода
https://github.com/protectai/rebuff#detect-canary-word-leakage
Обсуждают сегодня