Appearance
Форматы аудио
GenVoice API поддерживает несколько форматов вывода аудио. Формат задаётся в параметре output_format при запросе синтеза речи.
Формат имени пресета
Имя пресета строится по шаблону:
{кодек}_{частота_дискретизации}_{битрейт}Для форматов без сжатия (PCM, WAV, µ-law, A-law) битрейт не указывается.
Поддерживаемые форматы
MP3
Сжатый формат с потерями. Подходит для большинства задач — веб-приложения, мобильные приложения, хранение.
| Пресет | Частота | Битрейт | MIME-тип | Расширение |
|---|---|---|---|---|
mp3_22050_32 | 22 050 Гц | 32 kbps | audio/mpeg | .mp3 |
mp3_24000_48 | 24 000 Гц | 48 kbps | audio/mpeg | .mp3 |
mp3_44100_32 | 44 100 Гц | 32 kbps | audio/mpeg | .mp3 |
mp3_44100_64 | 44 100 Гц | 64 kbps | audio/mpeg | .mp3 |
По умолчанию: mp3_24000_48 — оптимальный баланс качества и размера файла.
PCM
Несжатый формат (raw signed 16-bit little-endian, моно). Подходит для потоковой обработки, интеграции с аудиопайплайнами и систем реального времени.
| Пресет | Частота | MIME-тип | Расширение |
|---|---|---|---|
pcm_8000 | 8 000 Гц | audio/pcm | .pcm |
pcm_16000 | 16 000 Гц | audio/pcm | .pcm |
pcm_22050 | 22 050 Гц | audio/pcm | .pcm |
pcm_24000 | 24 000 Гц | audio/pcm | .pcm |
WARNING
PCM-файлы не содержат заголовков — для воспроизведения нужно указать параметры вручную: 16-bit, mono, соответствующая частота дискретизации.
WAV
Несжатый формат с заголовком RIFF. Универсальный и простой в использовании — поддерживается любым аудиоплеером.
| Пресет | Частота | MIME-тип | Расширение |
|---|---|---|---|
wav_24000 | 24 000 Гц | audio/wav | .wav |
Opus
Современный кодек с высоким качеством при низком битрейте. Хорошо подходит для VoIP, стриминга, Telegram-ботов.
| Пресет | Частота | Битрейт | MIME-тип | Расширение |
|---|---|---|---|---|
opus_24000_32 | 24 000 Гц | 32 kbps | audio/ogg | .ogg |
µ-law / A-law
Форматы кодирования для телефонии. µ-law используется в Северной Америке и Японии (стандарт G.711µ), A-law — в Европе и остальном мире (стандарт G.711A).
| Пресет | Частота | Кодирование | MIME-тип | Расширение |
|---|---|---|---|---|
ulaw_8000 | 8 000 Гц | µ-law (G.711µ) | audio/basic | .raw |
alaw_8000 | 8 000 Гц | A-law (G.711A) | audio/basic | .raw |
Для IVR и телефонии
Используйте ulaw_8000 или alaw_8000 при интеграции с телефонными системами (Asterisk, FreeSWITCH, Twilio и др.).
Как выбрать формат
| Сценарий | Рекомендуемый пресет |
|---|---|
| Веб-приложение / мобильное приложение | mp3_24000_48 |
| Высокое качество для прослушивания | mp3_44100_64 |
| Минимальный размер файла | mp3_22050_32 или opus_24000_32 |
| Обработка в аудиопайплайне | pcm_24000 или wav_24000 |
| Телефония (IVR, колл-центр) | ulaw_8000 / alaw_8000 |
| Telegram-бот | opus_24000_32 |
Пример использования
bash
curl -X POST https://api.genvoice.ru/v1/api/tts \
-H "Authorization: Bearer sk_live_YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"text": "Привет!",
"voice_id": "550e8400-e29b-41d4-a716-446655440000",
"output_format": "opus_24000_32"
}' \
--output speech.ogg