
Image by Firmbee.com, from Unsplash
Google Gemini 2.5 добавляет инструменты для работы с аудио в реальном времени и пользовательской речью
Google представил встроенные аудиофункции в модели Gemini 2.5, расширив свою встроенную поддержку для реального диалога и управляемого генератора текста в речь (TTS).
Спешите? Вот краткие факты:
- Пользователи могут контролировать тон, акцент и эмоции при помощи голоса или подсказок.
- Функции преобразования текста в речь позволяют создавать выразительные, многоязычные аудиосообщения с различными голосами.
- Gemini способен игнорировать фоновый шум и реагировать только тогда, когда это актуально.
Google объявил, что теперь пользователи и разработчики могут использовать ИИ для устных разговоров и создания аудиоконтента на более чем 24 языках.
Google заявляет, что Gemini 2.5 теперь генерирует и понимает речь непосредственно в аудиоформате, что позволяет пользователям взаимодействовать быстрее и естественнее. Модель принимает команды на естественном языке для изменения своего тона, акцента и стиля, при этом добавляя невербальные особенности, такие как паузы и шепот.
Система поддерживает подключение к внешним инструментам через Google Search и пользовательские API, во время всего разговора, чтобы получать актуальную информацию.
Одна из функций направлена на улучшение осведомленности о контексте. Система Gemini 2.5 распознает фоновую речь или шум и отвечает только тогда, когда это уместно. Система поддерживает понимание аудио-видео, что позволяет ей анализировать и комментировать видео, или содержимое общего экрана.
Также был обновлен компонент текст-в-речь. Теперь пользователи могут контролировать генерацию аудио с помощью расширенных функций, включая регулировку эмоционального тона, контроль темпа, настройку произношения и аудиовыход с несколькими дикторами. Эти функции работают с разными типами контента, включая рассказы, объявления и подкасты.
Google предоставляет Gemini 2.5 Pro и предварительный просмотр Flash для разработчиков через Google AI Studio или Vertex AI. Предварительный просмотр Flash служит для быстрого и доступного использования, но Pro предлагает расширенные функциональные возможности для сложных запросов.
Google внедрил водяные знаки через SynthID во всем AI-сгенерированном аудио во время разработки, чтобы обеспечить прозрачность, и проводил оценки рисков в целях безопасности. Компания проводила внутренние и внешние оценки безопасности перед выпуском системы в публичное пользование. Google внедряет эти функции в рамках своей инициативы по разработке мультимодальных AI систем, которые работают между текстом, изображением, видео, кодом и продвинутым аудио.