Учёные AIRI выяснили, что ИИ теряет способность рассуждать при избытке информации

Исследователи Института искусственного интеллекта AIRI проверили 12 продвинутых моделей (GPT-4o, Deepseek-R1, VideoLLaMA и другие). На задачах с сотнями логических переходов качество рассуждений резко падало — вплоть до полного коллапса.

Учёные AIRI выяснили, что ИИ теряет способность рассуждать при избытке информации
magnific.com

Мы привыкли думать, что чем больше информации дать нейросети, тем умнее будет ответ. Российские учёные из Института искусственного интеллекта AIRI доказали обратное: при работе с длинными цепочками данных способность ИИ к рассуждению падает катастрофически — вплоть до полного коллапса.

Специалисты создали новый способ оценки логических способностей нейросетей и протестировали 12 продвинутых моделей:

  • GPT-4o (OpenAI);

  • Qwen2.5 (Alibaba);

  • Deepseek-R1;

  • VideoLLaMA;

  • LLaVA-Video и другие.

Пять персонажей перемещаются между шестью комнатами, совершая от десятков до сотен переходов. Нейросеть должна запомнить все перемещения и ответить, кто где оказался после нескольких раундов. Задача простая для человека, но дьявольски сложная для ИИ.

С ростом числа перемещений качество рассуждений резко снижалось. На самых сложных задачах даже лучшие модели давали неверные ответы — практически наугад. Как пояснил научный сотрудник AIRI Максим Куркин:

«Речь идёт не просто об ухудшении качества, а о серьёзном сбое. На некоторых задачах даже ведущие модели начинали отвечать практически наугад. Проблема носит системный характер — она проявляется у всех больших языковых моделей примерно одинаково».

Существующие тесты для ИИ проверяют умение находить один факт в большом объёме данных. Но они не оценивают способность прослеживать длинные цепочки взаимосвязанных действий. Новое исследование AIRI подтверждает вывод, сделанный ещё в 2024 году: даже самые продвинутые ИИ способны эффективно использовать лишь 10–20% контекста при анализе длинных текстов.

Если вы загрузите в ChatGPT 500-страничный договор или трёхчасовую стенограмму совещания, нейросеть запомнит хорошо только начало и конец. Середина, логические связи, повторы, уточнения — провалятся в «чёрную дыру» внимания. ИИ не «склеротит» специально — это архитектурное ограничение.

По мнению учёных, для реального прогресса потребуются серьёзные изменения в архитектуре самих моделей. Нынешние трансформеры (механизм внимания) не справляются с длинными контекстами, как бы их ни тренировали.