Microsoft создала ИИ, копирующий голоса людей с пугающей точностью

Microsoft создала ИИ, копирующий голоса людей с пугающей точностью

Microsoft разработала передовую систему искусственного интеллекта VALL-E 2, способную с высокой точностью имитировать человеческий голос. Однако компания решила не выпускать ее в публичный доступ из-за потенциальных рисков неправомерного использования.

VALL-E 2 может воспроизводить голос человека, прослушав всего несколько секунд аудиозаписи. Согласно исследованию, опубликованному на сервере arXiv, система генерирует «точную, естественную речь, полностью соответствующую голосу оригинального диктора, сравнимую с человеческим исполнением».

Разработчики утверждают, что VALL-E 2 превосходит предыдущие системы синтеза речи по устойчивости, естественности и сходству с голосом диктора. Это первая система, достигшая паритета с человеком по этим параметрам.

Ключевыми особенностями VALL-E 2 являются «выборка с учетом повторений» и «групповое моделирование кодов». Эти инновации повышают плавность и эффективность генерации речи, учитывая лингвистические повторения и оптимизируя обработку входных последовательностей.

Несмотря на впечатляющие возможности, Microsoft не планирует выпускать VALL-E 2 в коммерческое использование. Компания опасается потенциальных рисков, таких как подделка голосовой идентификации или имперсонация конкретных людей. Подобные ограничения на голосовые технологии ввели и другие компании, например, OpenAI.

Источник: mirror.co.uk


Подписывайтесь на Science XXI в Дзен и Telegram.

Поделиться с друзьями
Science XXI