Google представила AudioPaLM: новую языковую модель, которая может слушать, говорить и переводить

Google представила AudioPaLM: новую языковую модель, которая может слушать, говорить и переводить

В сфере искусственного интеллекта непрерывно происходят новые открытия и разработки. И хотя многие люди используют ИИ для решения бытовых задач, его потенциал простирается гораздо дальше.

Компания Google на протяжении многих лет работает над раскрытием полного потенциала искусственного интеллекта, и сегодня они представляют свою последнюю разработку – AudioPaLM. Эта новая языковая модель позволяет слушать, говорить и переводить с невероятной точностью, открывая новые горизонты для мультимодальных коммуникаций.

AudioPaLM – это уникальная мультимодальная архитектура, которая объединяет лучшие качества двух существующих моделей: PaLM-2 и AudioLM. Первая модель, PaLM-2, является текстовой языковой моделью, которая специализируется на анализе и понимании лингвистических знаний, связанных с текстом. AudioLM, в свою очередь, способен точно передавать паралингвистическую информацию, такую как интонация и идентификация говорящего. AudioPaLM, объединяя эти две модели, основывается на лингвистическом опыте PaLM-2 и умении AudioLM сохранять паралингвистическую информацию. Такое взаимодействие позволяет более глубоко понимать и обрабатывать текст и речь.

Одной из ключевых особенностей AudioPaLM является использование совместного словаря, способного представлять как речь, так и текст с помощью ограниченного набора дискретных токенов. Это позволяет объединить задачи распознавания речи, синтеза речи и перевода в единую архитектуру и процесс обучения.

Проведенные исследования показали, что AudioPaLM превосходит уже существующие системы в области перевода речи и способен выполнять даже перевод речи в текст с нулевым шагом для языковых комбинаций, с которыми он ранее не сталкивался. Кроме того, AudioPaLM способен передавать голоса между языками на основе коротких голосовых подсказок и воспроизводить разные голоса на разных языках.

С внедрением AudioPaLM открываются новые возможности в области коммуникаций и обработки естественного языка. От совершенствования переводчиков до улучшения систем голосового помощника, эта новая лингвистическая модель проложит путь к более точной и гибкой коммуникации между людьми и машинами.

Science XXI