Учёные AIRI выяснили, что ИИ теряет способность рассуждать при избытке информации
Исследователи Института искусственного интеллекта AIRI проверили 12 продвинутых моделей (GPT-4o, Deepseek-R1, VideoLLaMA и другие). На задачах с сотнями логических переходов качество рассуждений резко падало — вплоть до полного коллапса.
Мы привыкли думать, что чем больше информации дать нейросети, тем умнее будет ответ. Российские учёные из Института искусственного интеллекта AIRI доказали обратное: при работе с длинными цепочками данных способность ИИ к рассуждению падает катастрофически — вплоть до полного коллапса.
Специалисты создали новый способ оценки логических способностей нейросетей и протестировали 12 продвинутых моделей:
-
GPT-4o (OpenAI);
-
Qwen2.5 (Alibaba);
-
Deepseek-R1;
-
VideoLLaMA;
-
LLaVA-Video и другие.
Пять персонажей перемещаются между шестью комнатами, совершая от десятков до сотен переходов. Нейросеть должна запомнить все перемещения и ответить, кто где оказался после нескольких раундов. Задача простая для человека, но дьявольски сложная для ИИ.
С ростом числа перемещений качество рассуждений резко снижалось. На самых сложных задачах даже лучшие модели давали неверные ответы — практически наугад. Как пояснил научный сотрудник AIRI Максим Куркин:
«Речь идёт не просто об ухудшении качества, а о серьёзном сбое. На некоторых задачах даже ведущие модели начинали отвечать практически наугад. Проблема носит системный характер — она проявляется у всех больших языковых моделей примерно одинаково».
Существующие тесты для ИИ проверяют умение находить один факт в большом объёме данных. Но они не оценивают способность прослеживать длинные цепочки взаимосвязанных действий. Новое исследование AIRI подтверждает вывод, сделанный ещё в 2024 году: даже самые продвинутые ИИ способны эффективно использовать лишь 10–20% контекста при анализе длинных текстов.
Если вы загрузите в ChatGPT 500-страничный договор или трёхчасовую стенограмму совещания, нейросеть запомнит хорошо только начало и конец. Середина, логические связи, повторы, уточнения — провалятся в «чёрную дыру» внимания. ИИ не «склеротит» специально — это архитектурное ограничение.
По мнению учёных, для реального прогресса потребуются серьёзные изменения в архитектуре самих моделей. Нынешние трансформеры (механизм внимания) не справляются с длинными контекстами, как бы их ни тренировали.