Российские учёные из ВШЭ ускорили нейросети для русской науки в 2,7 раза
Исследователи НИУ ВШЭ дообучили большие языковые модели на корпусе данных iFORA-QA, собранном 150 экспертами. Адаптированная система понимает русскоязычную научную терминологию, работает в 2,7 раза быстрее и требует на 73% меньше памяти.
Нейросети говорят по-русски. Теперь — ещё и по-научному. Исследователи из НИУ ВШЭ разработали подход, который позволяет большим языковым моделям лучше понимать русскоязычную научную терминологию. И результат впечатляет даже видавших виды IT-специалистов.
Адаптированная система ИИ работает в 2,7 раза быстрее и требует на 73% меньше памяти по сравнению с исходной открытой мультиязычной моделью. Почти три четверти экономии ресурсов — это не просто цифры, это возможность запускать сложные аналитические задачи на гораздо более скромном оборудовании.
Проблема, которую решили в Вышке, знакома всем, кто работал с научными текстами на русском. Объём публикаций, патентов и данных постоянно растёт. Учёные всё чаще прибегают к помощи нейросетей для их анализа. Но существующие модели в основном обучены на английском языке и «не знают» специфики русскоязычной науки. Термины, устойчивые обороты, контекст — всё это терялось при переводе.
Как добились успеха? Специалисты Института статистических исследований и экономики знаний ВШЭ дообучили языковые модели на специальном корпусе данных iFORA-QA. Этот массив вручную собрали более 150 экспертов из аналитических материалов и отчётов в области науки, технологий и инноваций. Люди, а не машины, отбирали качественные данные — и это дало результат.
«Универсальные языковые модели знают много, но поверхностно. Нам же нужна модель, которая понимает, о чём пишут российские учёные и инженеры», — пояснила ведущий эксперт центра стратегической аналитики и больших данных Анастасия Малашина.