
Image by Vecstoc, from Freepik
Новая модель ИИ прекращает клонирование голоса с помощью «машинного забывания»
Южнокорейские исследователи разработали новый способ заставить искусственный интеллект, создающий голоса, «забывать» имитацию голосов конкретных людей.
Спешите? Вот краткие факты:
- Метод снижает точность имитации голоса более чем на 75%.
- Разрешенные голоса продолжают работать, причем потеря производительности составляет всего 2,8%.
- Системе нужно 5 минут аудиозаписи, чтобы «забыть» о дикторе.
Система «забывания машинами» стремится стать решением для предотвращения неправильного использования технологий клонирования голоса, которые используют мошенники и создатели дипфейков.
Современные модели синтеза речи без обучения на конкретном голосе (ZS-TTS) требуют всего несколько секунд аудиозаписи для создания реалистичных голосовых подражаний любого человека. «Голос любого человека может быть воспроизведен или скопирован всего за несколько секунд его голоса», — сказал Чон Хван Ко, профессор университета Сунгкюнкван, как сообщает MIT Technology Review.
Это открывает двери для серьезных проблем связанных с конфиденциальностью и безопасностью, таких как подделка личности и мошенничество.
Исследовательская группа под руководством Ко разработала первую в своем роде систему, обучающую модели ИИ «забывать», как воспроизводить голоса конкретных людей. Эта система получила название «Учительский контроль над забывчивостью» (Teacher-Guided Unlearning, TGU). В своей статье они объясняют, что вместо блокировки запросов с помощью фильтров (называемых «ограждениями»), эта техника модифицирует память ИИ таким образом, что данные о голосе становятся для системы недоступными.
Когда ИИ получает требование сгенерировать речь забытым голосом, обновленная модель возвращает случайный голос. Этот элемент случайности, утверждают исследователи, доказывает, что оригинальный голос был успешно стерт. В ходе тестов стало ясно, что ИИ стал на 75% менее точным в подражании удаленному голосу, тогда как производительность для разрешенных голосов упала лишь незначительно (на 2,8%).
Метод требует всего пяти минут аудиозаписей от каждого оратора для завершения своего процесса. Разработка на раннем этапе показывает значительные перспективы, согласно мнениям экспертов. «Это одна из первых работ, которые я видела в области речи», — сказала Вайдехи Патил, аспирантка UNC-Chapel Hill, как сообщает MIT.