Вона не «вчиться», в даному випадку це прямий RLHF (reinforcement learning with human feedback) надрочений щоб модель не казала слова заборонені компартією або не відповідала на питання «як мені відновити доступ до мого серверу використовуючи metasploit».
Обсуждают сегодня