Skip to content

Форматы аудио

GenVoice API поддерживает несколько форматов вывода аудио. Формат задаётся в параметре output_format при запросе синтеза речи.

Формат имени пресета

Имя пресета строится по шаблону:

{кодек}_{частота_дискретизации}_{битрейт}

Для форматов без сжатия (PCM, WAV, µ-law, A-law) битрейт не указывается.

Поддерживаемые форматы

MP3

Сжатый формат с потерями. Подходит для большинства задач — веб-приложения, мобильные приложения, хранение.

ПресетЧастотаБитрейтMIME-типРасширение
mp3_22050_3222 050 Гц32 kbpsaudio/mpeg.mp3
mp3_24000_4824 000 Гц48 kbpsaudio/mpeg.mp3
mp3_44100_3244 100 Гц32 kbpsaudio/mpeg.mp3
mp3_44100_6444 100 Гц64 kbpsaudio/mpeg.mp3

По умолчанию: mp3_24000_48 — оптимальный баланс качества и размера файла.

PCM

Несжатый формат (raw signed 16-bit little-endian, моно). Подходит для потоковой обработки, интеграции с аудиопайплайнами и систем реального времени.

ПресетЧастотаMIME-типРасширение
pcm_80008 000 Гцaudio/pcm.pcm
pcm_1600016 000 Гцaudio/pcm.pcm
pcm_2205022 050 Гцaudio/pcm.pcm
pcm_2400024 000 Гцaudio/pcm.pcm

WARNING

PCM-файлы не содержат заголовков — для воспроизведения нужно указать параметры вручную: 16-bit, mono, соответствующая частота дискретизации.

WAV

Несжатый формат с заголовком RIFF. Универсальный и простой в использовании — поддерживается любым аудиоплеером.

ПресетЧастотаMIME-типРасширение
wav_2400024 000 Гцaudio/wav.wav

Opus

Современный кодек с высоким качеством при низком битрейте. Хорошо подходит для VoIP, стриминга, Telegram-ботов.

ПресетЧастотаБитрейтMIME-типРасширение
opus_24000_3224 000 Гц32 kbpsaudio/ogg.ogg

µ-law / A-law

Форматы кодирования для телефонии. µ-law используется в Северной Америке и Японии (стандарт G.711µ), A-law — в Европе и остальном мире (стандарт G.711A).

ПресетЧастотаКодированиеMIME-типРасширение
ulaw_80008 000 Гцµ-law (G.711µ)audio/basic.raw
alaw_80008 000 ГцA-law (G.711A)audio/basic.raw

Для IVR и телефонии

Используйте ulaw_8000 или alaw_8000 при интеграции с телефонными системами (Asterisk, FreeSWITCH, Twilio и др.).

Как выбрать формат

СценарийРекомендуемый пресет
Веб-приложение / мобильное приложениеmp3_24000_48
Высокое качество для прослушиванияmp3_44100_64
Минимальный размер файлаmp3_22050_32 или opus_24000_32
Обработка в аудиопайплайнеpcm_24000 или wav_24000
Телефония (IVR, колл-центр)ulaw_8000 / alaw_8000
Telegram-ботopus_24000_32

Пример использования

bash
curl -X POST https://api.genvoice.ru/v1/api/tts \
  -H "Authorization: Bearer sk_live_YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "Привет!",
    "voice_id": "550e8400-e29b-41d4-a716-446655440000",
    "output_format": "opus_24000_32"
  }' \
  --output speech.ogg