Головні Новини

Свіжі новини України та всього Світу

Новый ИИ может имитировать человеческие голоса всего за 3 секунды обучения – PlayGround.ru
Наука та Техніка

Новый ИИ может имитировать человеческие голоса всего за 3 секунды обучения – PlayGround.ru

©


Человечество сделало еще один шаг к неизбежной войне с машинами (которую мы проиграем), создав Vall-E, ИИ, разработанный группой исследователей из Microsoft, который может воспроизводить человеческий голос высокого качества всего за несколько секунд обучения.

Vall-E – не первый голосовой ИИ-инструмент – например, xVASynth существует уже несколько лет, но он обещает превзойти их все по своим возможностям. В статье, исследователи Vall-E утверждают, что большинство современных систем преобразования текста в речь ограничены их зависимостью от “высококачественных чистых данных” для точного синтеза высококачественной речи.

Крупномасштабные данные, взятые из Интернета, не могут соответствовать этому требованию и всегда приводят к снижению эффективности. Поскольку обучающие данные относительно малы, существующие системы TTS по-прежнему страдают от плохой обобщенности. Сходство с диктором и естественность речи резко снижаются для невидимых дикторов в сценарии нулевого выстрела.

(“Нулевой выстрел” в данном случае означает способность ИИ воссоздавать голоса, не будучи специально обученным на них).

Vall-E, с другой стороны, обучается на гораздо большем и более разнообразном наборе данных: 60 000 часов англоязычной речи, полученной от более чем 7 000 уникальных дикторов, и все они расшифрованы программой распознавания речи. Данные, поступающие в ИИ, содержат “более шумную речь и неточные транскрипции”, чем те, которые используются другими системами преобразования текста в речь, но исследователи считают, что огромный объем входных данных и их разнообразие делают систему гораздо более гибкой, адаптируемой и, что самое главное, естественной, чем ее предшественники.

“Результаты экспериментов показывают, что Vall-E значительно превосходит современную систему TTS с нулевым выстрелом по естественности речи и сходству с диктором”, – говорится в статье, которая наполнена цифрами, уравнениями, диаграммами и другими подобными сложностями. “Кроме того, мы обнаружили, что VALL-E может сохранить эмоцию говорящего и акустическую среду”.


Вы можете услышать Vall-E в действии на Github, где исследовательская группа поделилась кратким описанием того, как все это работает, а также десятками образцов. Качество варьируется: Некоторые голоса заметно роботизированы, в то время как другие звучат вполне по-человечески. Но как своего рода начальная техническая демонстрация, это впечатляет. Представьте, что будет с этой технологией через год, два или пять, по мере совершенствования систем и дальнейшего расширения базы данных для обучения голосу.

И, конечно же, это проблема. Dall-E, ИИ-генератор изображений, сталкивается с противодействием из-за проблем конфиденциальности и права собственности, а бот ChatGPT настолько убедителен, что недавно был запрещен Департаментом образования Нью-Йорка. Vall-E может вызвать еще большее беспокойство из-за возможного использования в мошеннических маркетинговых звонках или для усиления фейковых видео.

Исследовательская группа Vall-E рассмотрела эти “более широкие последствия” в заключении своей работы.

Поскольку VALL-E может синтезировать речь, сохраняя идентичность говорящего, это может нести потенциальные риски незаконного использования модели, такие как подмена идентификации голоса или выдача себя за конкретного говорящего. Чтобы снизить такие риски, можно построить модель обнаружения, позволяющую определить, был ли аудиоклип синтезирован VALL-E. Мы также будем применять принципы Microsoft AI Principles на практике при дальнейшей разработке моделей.

Если вам нужны дополнительные доказательства того, что имитация голоса на лету ведет к плохим вещам:

Source: news.google.com

ЗАЛИШИТЬ ВІДПОВІДЬ

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *

Артем Школьний – це видатна постать у світі журналістики та публіцистики і головний редактор сайту Головні Новини, яка відзначається своїм талантом та професіоналізмом у створенні інформаційного контенту. Вже з молодих років виявив великий інтерес до подій, що відбуваються у світі.