Российский датасет помог европейским учёным ускорить обучение ИИ в 60 раз

Набор данных «Яндекс.Музыки» объёмом 5 млрд элементов позволил исследователям из Амстердамского университета сократить время обучения рекомендательных систем с 82 минут до 83 секунд без потери качества.

Российские открытые данные совершили прорыв в мировой науке об искусственном интеллекте. В начале лета 2025 года специалисты «Яндекса» разработали и опубликовали в открытом доступе один из крупнейших в мире наборов данных для развития рекомендательных систем на основе обезличенных данных «Яндекс.Музыки». Полная версия датасета включает пять миллиардов элементов — сведения о прослушиваниях, лайках и характеристиках треков, сообщили ТАСС в пресс-службе компании.

Этот массив данных привлёк внимание учёных из Амстердамского университета. Исследователи использовали его для оптимизации алгоритма SEATER, созданного китайскими специалистами. Алгоритм организует треки в иерархический каталог, но его подготовка в процессе обучения занимала слишком много времени.

Нидерландские учёные разработали два альтернативных подхода и протестировали их на российских данных. Результат превзошёл ожидания: один из новых алгоритмов сократил время подготовки каталога с 82 минут до 83 секунд — почти в 60 раз быстрее. При этом качество рекомендаций практически не снизилось.

Код улучшенной модели уже выложен в открытый доступ. Работа подтверждает, что публикация крупных промышленных данных, которую «Яндекс» осуществил одним из первых, даёт мощный импульс глобальному развитию ИИ. Открытые данные «Яндекс.Музыки» помогли европейским учёным совершить прорыв в сфере искусственного интеллекта. Набор данных, включающий 5 миллиардов элементов, позволил исследователям из Амстердамского университета сократить время обучения рекомендательных систем с 82 минут до 83 секунд, что в 60 раз быстрее. При этом качество работы алгоритмов осталось на высоком уровне.

Российский датасет был создан на основе обезличенных данных стримингового сервиса и опубликован в открытом доступе летом 2025 года. Он содержит агрегированные сведения о прослушиваниях, пользовательских оценках и характеристиках музыкальных записей. Этот массив данных стал одним из крупнейших в мире для развития рекомендательных систем.

Учёные из Нидерландов использовали российский датасет для тестирования новых подходов к обучению ИИ. Они работали с алгоритмом SEATER, разработанным китайскими специалистами. Этот алгоритм организует товары или треки в иерархический каталог, напоминающий структуру папок на компьютере. Однако подготовка такого каталога обычно занимает много времени, что затрудняет оперативное обновление рекомендаций в реальных продуктах.

Нидерландские исследователи разработали два альтернативных подхода для ускорения этого процесса. Один из них показал впечатляющие результаты: время подготовки сократилось до 83 секунд, что почти в 60 раз быстрее исходного показателя. При этом качество рекомендаций осталось на высоком уровне.

В пресс-службе «Яндекса» отметили, что код улучшенной модели SEATER был выложен в открытый доступ. Это наглядно демонстрирует пользу публикации больших наборов данных для разработки искусственного интеллекта. Работа голландских учёных подтверждает практическую ценность открытых данных для ускорения создания ИИ-рекомендаций. Долгое время доступ исследовательского сообщества к крупномасштабным промышленным данным был ограничен. Открыв свой датасет, российская компания одной из первых устранила этот разрыв, предоставив уникальный инструмент для глобального прорыва в этой области.