Volver a herramientas
DisponibleIntegración·

GPT-4o API

Modelo multimodal principal de OpenAI. Procesa texto, imágenes y audio en una sola llamada con latencia reducida y precio competitivo. Base de la mayoría de integraciones de OpenAI en producción.

Compatible con

PythonTypeScriptREST APIAzure OpenAI
gpt-4omultimodalvisiónopenaillm

GPT-4o API: el modelo multimodal de referencia de OpenAI

GPT-4o ("omni") unifica texto, visión y audio en un único modelo, eliminando la necesidad de encadenar modelos separados para cada modalidad.

Características clave

  • Multimodal nativo: texto, imágenes, audio y vídeo en una sola llamada
  • Contexto de 128 000 tokens: documentos largos y conversaciones extendidas
  • Latencia optimizada: más rápido que GPT-4 Turbo con mejor relación coste/rendimiento
  • Structured Outputs: respuestas JSON con esquema garantizado

Uso básico

from openai import OpenAI

client = OpenAI()

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[
        {"role": "system", "content": "Eres un asistente experto."},
        {"role": "user", "content": "Explica la arquitectura transformer en 3 puntos."}
    ]
)

print(response.choices[0].message.content)

Visión: análisis de imágenes

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "¿Qué muestra este diagrama?"},
            {"type": "image_url", "image_url": {"url": "https://ejemplo.com/diagrama.png"}}
        ]
    }]
)

Structured Outputs

from pydantic import BaseModel

class Analisis(BaseModel):
    resumen: str
    puntos_clave: list[str]
    puntuacion: int

response = client.beta.chat.completions.parse(
    model="gpt-4o",
    messages=[{"role": "user", "content": "Analiza este texto..."}],
    response_format=Analisis,
)

Modelos disponibles en la familia

ModeloContextoMejor para
gpt-4o128kTareas generales de alta calidad
gpt-4o-mini128kTareas de coste optimizado
gpt-4o-audio-preview128kEntrada/salida de audio en tiempo real