Volver a herramientas
DisponibleIntegración·
GPT-4o API
Modelo multimodal principal de OpenAI. Procesa texto, imágenes y audio en una sola llamada con latencia reducida y precio competitivo. Base de la mayoría de integraciones de OpenAI en producción.
Compatible con
PythonTypeScriptREST APIAzure OpenAI
gpt-4omultimodalvisiónopenaillm
GPT-4o API: el modelo multimodal de referencia de OpenAI
GPT-4o ("omni") unifica texto, visión y audio en un único modelo, eliminando la necesidad de encadenar modelos separados para cada modalidad.
Características clave
- Multimodal nativo: texto, imágenes, audio y vídeo en una sola llamada
- Contexto de 128 000 tokens: documentos largos y conversaciones extendidas
- Latencia optimizada: más rápido que GPT-4 Turbo con mejor relación coste/rendimiento
- Structured Outputs: respuestas JSON con esquema garantizado
Uso básico
from openai import OpenAI
client = OpenAI()
response = client.chat.completions.create(
model="gpt-4o",
messages=[
{"role": "system", "content": "Eres un asistente experto."},
{"role": "user", "content": "Explica la arquitectura transformer en 3 puntos."}
]
)
print(response.choices[0].message.content)
Visión: análisis de imágenes
response = client.chat.completions.create(
model="gpt-4o",
messages=[{
"role": "user",
"content": [
{"type": "text", "text": "¿Qué muestra este diagrama?"},
{"type": "image_url", "image_url": {"url": "https://ejemplo.com/diagrama.png"}}
]
}]
)
Structured Outputs
from pydantic import BaseModel
class Analisis(BaseModel):
resumen: str
puntos_clave: list[str]
puntuacion: int
response = client.beta.chat.completions.parse(
model="gpt-4o",
messages=[{"role": "user", "content": "Analiza este texto..."}],
response_format=Analisis,
)
Modelos disponibles en la familia
| Modelo | Contexto | Mejor para |
|---|---|---|
| gpt-4o | 128k | Tareas generales de alta calidad |
| gpt-4o-mini | 128k | Tareas de coste optimizado |
| gpt-4o-audio-preview | 128k | Entrada/salida de audio en tiempo real |