
Microsoft разработала передовую систему искусственного интеллекта VALL-E 2, способную с высокой точностью имитировать человеческий голос. Однако компания решила не выпускать ее в публичный доступ из-за потенциальных рисков неправомерного использования.
VALL-E 2 может воспроизводить голос человека, прослушав всего несколько секунд аудиозаписи. Согласно исследованию, опубликованному на сервере arXiv, система генерирует «точную, естественную речь, полностью соответствующую голосу оригинального диктора, сравнимую с человеческим исполнением».
Разработчики утверждают, что VALL-E 2 превосходит предыдущие системы синтеза речи по устойчивости, естественности и сходству с голосом диктора. Это первая система, достигшая паритета с человеком по этим параметрам.
Ключевыми особенностями VALL-E 2 являются «выборка с учетом повторений» и «групповое моделирование кодов». Эти инновации повышают плавность и эффективность генерации речи, учитывая лингвистические повторения и оптимизируя обработку входных последовательностей.
Несмотря на впечатляющие возможности, Microsoft не планирует выпускать VALL-E 2 в коммерческое использование. Компания опасается потенциальных рисков, таких как подделка голосовой идентификации или имперсонация конкретных людей. Подобные ограничения на голосовые технологии ввели и другие компании, например, OpenAI.
Источник: mirror.co.uk








