ИИ-агенты в GitHub могут красть учётные данные через вредоносные комментарии — исследование

Специалисты Университета Джонса Хопкинса взломали ИИ-агентов Anthropic, Google и Microsoft в GitHub Actions с помощью атаки «комментируй и контролируй».

ИИ-агенты в GitHub могут красть учётные данные через вредоносные комментарии — исследование
Источник фото: ru.freepik.com

Разработчики всё чаще доверяют искусственному интеллекту анализ кода, поиск уязвимостей и автоматизацию задач. Удобно, быстро, эффективно. Но безопасно? Группа исследователей из Университета Джонса Хопкинса доказала, что нет. ИИ-агенты от ведущих технологических компаний можно заставить раскрыть секретные данные простым… комментарием в коде.

Специалисты под руководством Аонана Гуана успешно взломали ИИ-агентов Anthropic, Google и Microsoft, интегрированных в платформу GitHub Actions. Использован новый тип атаки — с внедрением промптов. Метод назвали «комментируй и контролируй» (Comment and Control).

Злоумышленнику достаточно встроить вредоносную команду в заголовок pull-запроса или комментарий к задаче. ИИ-агент автоматически считывает этот текст, воспринимает как инструкцию и выполняет. Результат — команда оболочки, которая раскрывает API-ключи, токены доступа и другие чувствительные данные прямо в комментарии, который видит атакующий.

Что взломали?

  • Claude Code Security (Anthropic) — агент, анализирующий код на уязвимости. Исследователи заставили его выполнить команду через заголовок pull-запроса. Уязвимость получила критичность 9,4 из 10. Anthropic выплатила 100 долларов и добавила в документацию предупреждение: инструмент не защищён от инъекций.

  • Gemini CLI Action (Google). Тактика схожая: в комментарий добавили фальшивый раздел «доверенного контента», который переопределил инструкции безопасности. Модель опубликовала GEMINI_API_KEY в открытом доступе. Google оценила находку в 1337 долларов.

  • GitHub Copilot (Microsoft) — оказался самым сложным. Многоуровневая защита, фильтрация окружения, сетевой экран. Исследователи использовали скрытые HTML-комментарии, невидимые для человека, но читаемые ИИ. Microsoft изначально назвала проблему «известной», но после доказательства концепции выплатила 500 долларов.

Самое тревожное: все три компании признали проблему и выплатили вознаграждение. Но ни одна не опубликовала официальных рекомендаций для широкой аудитории и не раскрыла номера идентификаторов уязвимостей (CVE). Пользователи уязвимых версий ПО могут никогда не узнать об угрозе.

По словам Гуана, это опасно, так как разработчики, использующие уязвимые версии ПО, могут никогда не узнать о проблемах безопасности.