Whisper API

Whisper API: transcripción de audio multilingüe

La Whisper API expone el modelo open-source Whisper de OpenAI como servicio gestionado, sin necesidad de infraestructura propia para procesar audio.

Transcripción básica

from openai import OpenAI

client = OpenAI()

with open("audio.mp3", "rb") as audio_file:
    transcripcion = client.audio.transcriptions.create(
        model="whisper-1",
        file=audio_file,
        language="es"  # Opcional: especificar idioma mejora la precisión
    )

print(transcripcion.text)

Traducción (a inglés)

with open("audio_espanol.mp3", "rb") as audio_file:
    traduccion = client.audio.translations.create(
        model="whisper-1",
        file=audio_file,
    )

print(traduccion.text)  # Siempre en inglés

Formatos de salida

# Obtener timestamps por segmento
transcripcion = client.audio.transcriptions.create(
    model="whisper-1",
    file=audio_file,
    response_format="verbose_json",
    timestamp_granularities=["segment", "word"]
)

for segmento in transcripcion.segments:
    print(f"[{segmento.start:.1f}s - {segmento.end:.1f}s] {segmento.text}")

Formatos de audio soportados

mp3, mp4, mpeg, mpga, m4a, wav, webm (máx. 25MB por archivo)

Idiomas con mejor rendimiento

Español, inglés, francés, alemán, japonés, portugués, italiano, chino, ruso y más de 40 idiomas adicionales.

Combinación con TTS

# Pipeline STT → procesamiento → TTS
texto = client.audio.transcriptions.create(model="whisper-1", file=audio).text
respuesta = client.chat.completions.create(model="gpt-4o", messages=[...])
audio_respuesta = client.audio.speech.create(model="tts-1", voice="alloy", input=respuesta)