Российский набор данных для обучения рекомендательных систем сыграл ключевую роль в разработке нового подхода европейскими исследователями, который позволяет ускорить обучение искусственного интеллекта в десятки раз без потери качества.
Как пишет информационное агентство ТАСС, ссылаясь на пресс-службу компании «Яндекс», работа голландских ученых с российским датасетом наглядно демонстрирует практическую ценность открытых данных для ускорения разработки ИИ-рекомендаций. Отмечается, что долгое время доступ исследовательского сообщества к крупномасштабным промышленным данным был ограничен, и «Яндекс» одним из первых устранил этот разрыв, предоставив уникальный инструмент для глобального прорыва в этой области.
В начале лета 2025 года исследователи из «Яндекса» опубликовали один из крупнейших в мире наборов данных для развития рекомендательных систем, включающий в себя пять миллиардов элементов. Он был построен на базе обезличенных данных сервиса «Яндекс. Музыка» и содержал информацию о прослушиваниях, лайках, дизлайках и некоторых характеристиках музыкальных записей. Этот набор обучающих данных недавно был использован учеными из Амстердамского университета для создания нового подхода к обучению рекомендательных систем на основе алгоритма SEATER, разработанного китайскими специалистами.
Этот алгоритм позволяет организовать все товары или треки в умный иерархический каталог, который в теории должен ускорить и уточнить выдачу рекомендаций. Однако его подготовка занимала очень много времени в процессе обучения, что мешало часто обновлять рекомендации и быстро реагировать на изменения предпочтений пользователей в реальных продуктах. Нидерландские исследователи подготовили два альтернативных подхода для ускорения подготовки каталога и проверили их на данных «Яндекса».
Проверки показали, что один из новых алгоритмов сократил время подготовки данных почти в 60 раз — с 82 минут до 83 секунд, при этом почти не повлияв на качество рекомендаций. Благодаря этому созданный китайскими специалистами алгоритм по-прежнему превосходит уже популярные и применяющиеся на рынке системы. В пресс-службе «Яндекса» отметили, что код улучшенной модели SEATER был выложен в открытый доступ, что наглядно демонстрирует пользу от публикации и использования больших наборов данных для разработки и обучения искусственного интеллекта.
