Российские учёные из ВШЭ ускорили нейросети для русской науки в 2,7 раза. 15 мая 2026 «Вот это новости»

Исследователи НИУ ВШЭ дообучили большие языковые модели на корпусе данных iFORA-QA, собранном 150 экспертами. Адаптированная система понимает русскоязычную научную терминологию, работает в 2,7 раза быстрее и требует на 73% меньше памяти.

magnific.com

Нейросети говорят по-русски. Теперь — ещё и по-научному. Исследователи из НИУ ВШЭ разработали подход, который позволяет большим языковым моделям лучше понимать русскоязычную научную терминологию. И результат впечатляет даже видавших виды IT-специалистов.

Адаптированная система ИИ работает в 2,7 раза быстрее и требует на 73% меньше памяти по сравнению с исходной открытой мультиязычной моделью. Почти три четверти экономии ресурсов — это не просто цифры, это возможность запускать сложные аналитические задачи на гораздо более скромном оборудовании.

Проблема, которую решили в Вышке, знакома всем, кто работал с научными текстами на русском. Объём публикаций, патентов и данных постоянно растёт. Учёные всё чаще прибегают к помощи нейросетей для их анализа. Но существующие модели в основном обучены на английском языке и «не знают» специфики русскоязычной науки. Термины, устойчивые обороты, контекст — всё это терялось при переводе.

Как добились успеха? Специалисты Института статистических исследований и экономики знаний ВШЭ дообучили языковые модели на специальном корпусе данных iFORA-QA. Этот массив вручную собрали более 150 экспертов из аналитических материалов и отчётов в области науки, технологий и инноваций. Люди, а не машины, отбирали качественные данные — и это дало результат.

«Универсальные языковые модели знают много, но поверхностно. Нам же нужна модель, которая понимает, о чём пишут российские учёные и инженеры», — пояснила ведущий эксперт центра стратегической аналитики и больших данных Анастасия Малашина.