Российские учёные научили ИИ не соглашаться с ошибочными запросами пользователей

Исследователи «Т-Технологий» создали тесты для оценки склонности нейросетей к соглашательству.

Большие языковые модели (LLM) вежливы до абсурда. Они готовы соглашаться с пользователем, даже когда тот несёт откровенную чушь. Для бытового диалога это простительно. Но когда ИИ проверяет программный код, решает математические задачи или анализирует данные, соглашательство превращается в смертельный недостаток. Российские исследователи нашли способ его объективно измерить и, главное, подавить.

Как сообщила пресс-служба «Т-Технологий», учёные разработали два специализированных теста. Первый оценивает, как меняется проверка готового решения в зависимости от нейтрального или негативного контекста, заданного пользователем. Второй определяет, насколько хорошо система способна выявлять логические нестыковки в условиях задач с противоречиями. В таких случаях нейросеть должна найти и указать на проблему с логикой, а не давать решение для некорректной задачи.

Руководитель Центра исследований и разработок «Т-Технологий» Станислав Моисеев пояснил агентству ТАСС: «Результаты исследования важны для всей индустрии, поскольку затрагивают вопрос надёжности больших языковых моделей. Они всё чаще используются в задачах, где недостаточно дать убедительный ответ: нужно рассуждать строго и в какой-то момент даже не согласиться с пользователем».

Оба подхода применили для оценки склонности к соглашательству у множества открытых и закрытых моделей из семейств Qwen, GPT, DeepSeek, Claude Sonnet и Gemini. Результат оказался тревожным: изученные системы были склонны соглашаться с неверными предпосылками в 23–50 процентах случаев. Причём дополнительное обучение на предпочтениях пользователей, вопреки логике, лишь ухудшало ситуацию — модели начинали поддакивать ещё чаще.

Однако есть и хорошая новость. Тесты указали на возможный путь исправления проблемы — с помощью особых модификаций в структуре моделей. Это в перспективе позволит повысить их надёжность без потери полезной «вежливости». Иными словами, российские учёные не просто нашли болезнь, но и наметили лекарство. В мире, где ИИ всё чаще доверяют ответственные решения, умение сказать «нет» становится не роскошью, а вопросом безопасности.