«Исследования Anthropic показали, что люди, которые учат нейросеть отличать хороший ответ от плохого, часто вознаграждают лесть, а не честность. И модель усваивает этот паттерн в гигантском масштабе», — констатировал он в разговоре с «Газетой.Ru».
Поэтому крупнейшие ИИ-модели соглашаются с мнением пользователя более чем в 90% случаев, и это создаёт риски, считает эксперт. Так, GPT-4o хвалил «ясность мышления» человека, описывающего параноидальный бред.
В быту нейросеть усиливает заблуждения человека, а в важных вопросах, таких как здоровье или бизнес, может подтвердить опасные или ложные идеи. Голованов советует задавать нейтральные вопросы вместо утверждений, назначать ИИ роль оппонента и проверять ответы в нескольких чатах без истории.
Ранее гендиректор компании Дмитрий Исаев рассказал, что в 2026 году до 47% работодателей планируют проверять соискателей и сотрудников в условиях ограничения доступа к искусственному интеллекту.