Российские ученые создали инструмент для автоматического обучения ИИ пониманию текстов

Российские разработчики из MWS AI (входит в МТС Web Services) создали библиотеку для автоматизации задач понимания естественного языка.

Создать чат-бота, который действительно понимает, что ему говорит человек, — это сложная инженерная задача. Нужно собрать данные, разметить их, выбрать алгоритм, настроить параметры, обучить модель, проверить. Это занимает месяцы и требует высокой квалификации. Российские ученые из MWS AI решили проблему: они создали библиотеку, которая делает всю сложную работу автоматически.

«Работа над данной библиотекой заняла у нас около полутора лет. Мы создавали ее как прикладной инструмент, который снижает порог входа в разработку систем понимания естественного языка — чтобы пользователь мог получить рабочую модель, не погружаясь глубоко в устройство алгоритмов», — пояснил исследователь Григорий Аршинов.

Как это работает
Пользователь загружает в систему набор текстов с разметкой (например, «это жалоба», «это вопрос», «это благодарность»). Библиотека сама выбирает режим обучения, подбирает параметры и выдает готовую модель. Все — через минимальный набор команд. Никакого ручного перебора десятков алгоритмов.

Библиотека решает два ключевых класса задач:

Классификация текстов (определение смысла, тональности, тематики).
Распознавание именованных сущностей (извлечение из текста дат, имен, адресов, сумм).

Но главная инновация — это выявление запросов «вне области обучения». То есть система не только распознает знакомые категории, но и понимает, когда входящий текст не относится ни к одной из известных. Для чат-ботов это критически важно: лучше сказать «не понял, переформулируйте», чем дать уверенный, но неверный ответ.

Результаты тестов
Первые проверки показали, что библиотека достигает лучшего или сопоставимого с мировыми лидерами результата. В трех из четырех тестов она вошла в число лучших решений по качеству классификации. И при этом показала более сильные результаты в задаче выявления запросов вне области обучения.