GPT-4o API

GPT-4o API: el modelo multimodal de referencia de OpenAI

GPT-4o ("omni") unifica texto, visión y audio en un único modelo, eliminando la necesidad de encadenar modelos separados para cada modalidad.

Características clave

Multimodal nativo: texto, imágenes, audio y vídeo en una sola llamada
Contexto de 128 000 tokens: documentos largos y conversaciones extendidas
Latencia optimizada: más rápido que GPT-4 Turbo con mejor relación coste/rendimiento
Structured Outputs: respuestas JSON con esquema garantizado

Uso básico

from openai import OpenAI

client = OpenAI()

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[
        {"role": "system", "content": "Eres un asistente experto."},
        {"role": "user", "content": "Explica la arquitectura transformer en 3 puntos."}
    ]
)

print(response.choices[0].message.content)

Visión: análisis de imágenes

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "¿Qué muestra este diagrama?"},
            {"type": "image_url", "image_url": {"url": "https://ejemplo.com/diagrama.png"}}
        ]
    }]
)

Structured Outputs

from pydantic import BaseModel

class Analisis(BaseModel):
    resumen: str
    puntos_clave: list[str]
    puntuacion: int

response = client.beta.chat.completions.parse(
    model="gpt-4o",
    messages=[{"role": "user", "content": "Analiza este texto..."}],
    response_format=Analisis,
)

Modelos disponibles en la familia

Modelo	Contexto	Mejor para
gpt-4o	128k	Tareas generales de alta calidad
gpt-4o-mini	128k	Tareas de coste optimizado
gpt-4o-audio-preview	128k	Entrada/salida de audio en tiempo real