Учёные AIRI выяснили, что ИИ теряет способность рассуждать при избытке информации

Исследователи Института искусственного интеллекта AIRI проверили 12 продвинутых моделей (GPT-4o, Deepseek-R1, VideoLLaMA и другие). На задачах с сотнями логических переходов качество рассуждений резко падало — вплоть до полного коллапса.

Мы привыкли думать, что чем больше информации дать нейросети, тем умнее будет ответ. Российские учёные из Института искусственного интеллекта AIRI доказали обратное: при работе с длинными цепочками данных способность ИИ к рассуждению падает катастрофически — вплоть до полного коллапса.

Специалисты создали новый способ оценки логических способностей нейросетей и протестировали 12 продвинутых моделей:

GPT-4o (OpenAI);
Qwen2.5 (Alibaba);
Deepseek-R1;
VideoLLaMA;
LLaVA-Video и другие.

Пять персонажей перемещаются между шестью комнатами, совершая от десятков до сотен переходов. Нейросеть должна запомнить все перемещения и ответить, кто где оказался после нескольких раундов. Задача простая для человека, но дьявольски сложная для ИИ.

С ростом числа перемещений качество рассуждений резко снижалось. На самых сложных задачах даже лучшие модели давали неверные ответы — практически наугад. Как пояснил научный сотрудник AIRI Максим Куркин:

«Речь идёт не просто об ухудшении качества, а о серьёзном сбое. На некоторых задачах даже ведущие модели начинали отвечать практически наугад. Проблема носит системный характер — она проявляется у всех больших языковых моделей примерно одинаково».

Существующие тесты для ИИ проверяют умение находить один факт в большом объёме данных. Но они не оценивают способность прослеживать длинные цепочки взаимосвязанных действий. Новое исследование AIRI подтверждает вывод, сделанный ещё в 2024 году: даже самые продвинутые ИИ способны эффективно использовать лишь 10–20% контекста при анализе длинных текстов.

Если вы загрузите в ChatGPT 500-страничный договор или трёхчасовую стенограмму совещания, нейросеть запомнит хорошо только начало и конец. Середина, логические связи, повторы, уточнения — провалятся в «чёрную дыру» внимания. ИИ не «склеротит» специально — это архитектурное ограничение.

По мнению учёных, для реального прогресса потребуются серьёзные изменения в архитектуре самих моделей. Нынешние трансформеры (механизм внимания) не справляются с длинными контекстами, как бы их ни тренировали.