Image by Firmbee.com, from Unsplash

Google Gemini 2.5 добавляет инструменты для работы с аудио в реальном времени и пользовательской речью

Время для прочтения: 2 мин.

Дата первой публикации: Jun 6, 2025

Обновлено 2 раз с момента публикации

Автор Киара Фаббри Бывший автор новостных статей в области технологий
Перевод выполнен Команда локализации и перевода Услуги локализации и перевода

Google представил встроенные аудиофункции в модели Gemini 2.5, расширив свою встроенную поддержку для реального диалога и управляемого генератора текста в речь (TTS).

Спешите? Вот краткие факты:

Пользователи могут контролировать тон, акцент и эмоции при помощи голоса или подсказок.
Функции преобразования текста в речь позволяют создавать выразительные, многоязычные аудиосообщения с различными голосами.
Gemini способен игнорировать фоновый шум и реагировать только тогда, когда это актуально.

Google объявил, что теперь пользователи и разработчики могут использовать ИИ для устных разговоров и создания аудиоконтента на более чем 24 языках.

Google заявляет, что Gemini 2.5 теперь генерирует и понимает речь непосредственно в аудиоформате, что позволяет пользователям взаимодействовать быстрее и естественнее. Модель принимает команды на естественном языке для изменения своего тона, акцента и стиля, при этом добавляя невербальные особенности, такие как паузы и шепот.

Система поддерживает подключение к внешним инструментам через Google Search и пользовательские API, во время всего разговора, чтобы получать актуальную информацию.

Одна из функций направлена на улучшение осведомленности о контексте. Система Gemini 2.5 распознает фоновую речь или шум и отвечает только тогда, когда это уместно. Система поддерживает понимание аудио-видео, что позволяет ей анализировать и комментировать видео, или содержимое общего экрана.

Также был обновлен компонент текст-в-речь. Теперь пользователи могут контролировать генерацию аудио с помощью расширенных функций, включая регулировку эмоционального тона, контроль темпа, настройку произношения и аудиовыход с несколькими дикторами. Эти функции работают с разными типами контента, включая рассказы, объявления и подкасты.

Google предоставляет Gemini 2.5 Pro и предварительный просмотр Flash для разработчиков через Google AI Studio или Vertex AI. Предварительный просмотр Flash служит для быстрого и доступного использования, но Pro предлагает расширенные функциональные возможности для сложных запросов.

Google внедрил водяные знаки через SynthID во всем AI-сгенерированном аудио во время разработки, чтобы обеспечить прозрачность, и проводил оценки рисков в целях безопасности. Компания проводила внутренние и внешние оценки безопасности перед выпуском системы в публичное пользование. Google внедряет эти функции в рамках своей инициативы по разработке мультимодальных AI систем, которые работают между текстом, изображением, видео, кодом и продвинутым аудио.

Google Gemini 2.5 добавляет инструменты для работы с аудио в реальном времени и пользовательской речью

Мы рады, что вам понравилась наша статья!