Киберпсихологи Университета Лобачевского научат ИИ распознавать стресс в голосе с точностью почти 92%
Нижегородские ученые создают модель машинного обучения, способную выявлять тревогу по голосу. Специалисты кафедры киберпсихологии ННГУ использовали метод MFCC и машинный классификатор Gradient Boosting. В эксперименте со студентами система отличила стрессовую речь от спокойной с точностью 91,9%.
Скоро компьютер сможет определить ваше нервное состояние, даже если вы молчите о проблемах. Специалисты кафедры киберпсихологии Университета Лобачевского разрабатывают модели машинного обучения, способные выявлять тревогу по акустическим характеристикам речи. Технология обещает найти применение в образовании, психиатрии и системах взаимодействия человека с компьютером.
Заведующая кафедрой Валерия Демарева пояснила: автоматический анализ голоса позволяет своевременно обнаруживать перегрузки у операторов, диспетчеров и медперсонала, снижая риск ошибок и профессионального выгорания. Кроме того, система может фиксировать состояние клиента при подозрении на мошенничество, когда человек действует под влиянием обмана.
Стресс проявляется в речи вполне определенно: меняются мышечный тонус, частота дыхания, голос становится жестче или дрожит, изменяются высота тона, громкость и темп. Чтобы уловить эти изменения, исследователи применили метод машинного обучения на основе мел-частотных кепстральных коэффициентов (MFCC). Эти показатели компактно описывают спектральную оболочку речи, устойчивы к шуму и работают даже на небольших выборках.
В эксперименте участвовали 10 студентов, которые дважды зачитывали отрывки докладов: в спокойной обстановке и публично перед комиссией. Четырехминутные записи разбили на пятисекундные отрезки, очистили от шумов и обработали. Машинный классификатор Gradient Boosting отличил тревожную речь от спокойной с точностью 91,9%: из 110 сегментов приватных выступлений верно распознано 102, из 111 публичных — 101.