Lyria 3 — новая модель Google для генерации музыки
Google DeepMind представила Lyria 3 и Lyria 3 Pro — AI-модели для генерации музыки через Gemini API. Обзор возможностей, цен и примеров.
Google DeepMind выпустила Lyria 3 — семейство моделей для генерации музыки, доступное разработчикам через Gemini API. Модели умеют создавать полноценные треки с вокалом, инструменталом и чёткой структурой — от вступления до финала. Разбираемся, что именно получили разработчики, как это работает и сколько стоит.
Что такое Lyria 3
Lyria 3 — это модель генерации музыки от Google DeepMind, которая пришла на смену предыдущим версиям Lyria. Ключевое отличие третьего поколения — глубокое понимание музыкальной структуры. Модель не просто генерирует звук, а выстраивает композицию: куплеты, припевы, бриджи, вступление и аутро связаны между собой и звучат как единое целое.
Модель генерирует стерео-аудио с частотой дискретизации 48 кГц — это студийное качество.
Две модели — два сценария
Google предлагает два варианта модели, рассчитанных на разные задачи:
| Параметр | Lyria 3 Clip | Lyria 3 Pro |
|---|---|---|
| ID модели | lyria-3-clip-preview | lyria-3-pro-preview |
| Длительность | до 30 секунд | до ~3 минут |
| Назначение | Быстрое прототипирование, лупы, контент для соцсетей | Полноценные треки студийного качества |
| Структура | Короткий фрагмент | Intro → куплет → припев → бридж → аутро |
| Стоимость через API | $0,04 за клип | $0,08 за трек |
| Скорость генерации | Высокая | Умеренная |
Lyria 3 Pro — первая массово доступная модель от Google, которая генерирует полноценные трёхминутные песни с вокалом и продуманной структурой.
Что умеет Lyria 3
Реалистичный вокал
Обе модели поддерживают генерацию вокала с выразительными нюансами — это не роботизированный голос, а приближённое к живому звучание. Поддерживаются разные языки и жанры: от поп-музыки и фанка до Motown и электроники.
Точное управление через промпты
Lyria 3 принимает команды на естественном языке и позволяет задавать:
- Темп (Tempo conditioning) — можно указать «быстрый», «медленный» или конкретный BPM, и модель точно его выдержит.
- Тайминг текста (Time-aligned lyrics) — в промпте можно описать, когда начинается и заканчивается вокальная партия, распределить текст по частям трека.
- Мультимодальный ввод — помимо текста, модель принимает изображения. Загрузите фотографию — и Lyria 3 подберёт настроение, стиль и атмосферу музыки, отталкиваясь от визуального образа.
graph LR
A["📝 Текстовый промпт"] --> D["🎵 Lyria 3"]
B["🖼️ Изображение"] --> D
C["⚙️ Параметры
темп, тональность, лирика"] --> D
D --> E["🎧 Готовый трек
48 кГц стерео"]
E --> F["🔍 SynthID
водяной знак"]
Генерация через API
Работа с моделью идёт через стандартный метод generateContent в Gemini API. Вот минимальный пример на Python:
from google import genai
client = genai.Client()
# Генерация 30-секундного клипа
response = client.models.generate_content(
model="lyria-3-clip-preview",
contents="Energetic electronic track with driving bass, "
"bright synth arpeggios, 128 BPM"
)
# Сохранение результата
with open("output.wav", "wb") as f:
f.write(response.candidates[0].content.parts[0].inline_data.data)
Режимы работы в AI Studio
Google подготовила специальный интерфейс в AI Studio с двумя режимами:
Text mode — описываете музыку на естественном языке: жанр, настроение, темп, тональность. Подходит для быстрых экспериментов.
Composer mode — конструируете трек по секциям: задаёте вступление, куплеты, припев, бридж отдельно. Для каждой секции можно указать длительность, интенсивность и текстовое описание. Это режим для тех, кто хочет контролировать каждый такт.
Практические примеры
Google показала несколько демо-приложений, чтобы проиллюстрировать возможности модели:
Фоновая музыка для видео
Пользователь загружает видео → Gemini 3 Flash анализирует содержимое и генерирует описание → Lyria 3 создаёт подходящий саундтрек. Всё автоматически.
sequenceDiagram
participant U as Пользователь
participant G as Gemini Flash
participant L as Lyria 3
U->>G: Загрузка видео
G->>G: Анализ содержимого
G->>L: Промпт для саундтрека
L->>U: Готовый трек + видео
AI-будильник
Приложение каждое утро генерирует уникальную песню, которая включает информацию о погоде, текущую дату и события из вашего календаря. Вместо надоедливого рингтона — персонализированный трек.
Цены и доступность
API для разработчиков
Lyria 3 доступна через Gemini API в режиме публичного превью по всему миру.
| Модель | Стоимость | Что получаете |
|---|---|---|
| Lyria 3 Clip | $0,04 за клип | 30-секундный трек |
| Lyria 3 Pro | $0,08 за трек | Полная песня до 3 мин |
Подписки Gemini
Для обычных пользователей (без написания кода) Lyria 3 доступна через подписку:
| План | Цена/мес | Лимит треков/день |
|---|---|---|
| Gemini AI Plus | $19,99 | 10 |
| Gemini Pro | $29,99 | 20 |
| Gemini Ultra | $99,99 | 50 |
SynthID: цифровой водяной знак
Каждый трек, созданный Lyria 3, содержит невидимый цифровой водяной знак SynthID. Эта технология, разработанная Google DeepMind, позволяет определить, что аудио сгенерировано искусственным интеллектом — даже если запись была отредактирована, сжата или обрезана.
Это важный шаг в сторону прозрачности: слушатель или платформа всегда может проверить происхождение трека.
Как начать
- Попробовать без кода — откройте Google AI Studio, выберите Lyria 3 (30s) или Lyria 3 Pro (Full Song) и экспериментируйте.
- Изучить документацию — Music Generation Guide содержит гайды по промптам, справку по API и примеры кода.
- Запустить первый проект — начните с cookbook-примеров от Google.
- Посмотреть демо — Lyria Studio, Lyria Rhythm, AI-будильник, генератор фоновой музыки для видео.
Итог
Lyria 3 — это серьёзная заявка Google на рынке AI-генерации музыки. Трёхминутные треки с вокалом, управление через текст и изображения, студийное качество звука и прозрачная маркировка через SynthID — всё это доступно разработчикам прямо сейчас через API с понятным ценообразованием. Для тех, кто создаёт приложения с аудио-контентом — от видеоредакторов до игр — это один из самых простых способов интегрировать генерацию музыки в свой продукт.