Computer-Using Agent (CUA): el modelo que impulsa Operator
OpenAI presentó el Computer-Using Agent (CUA), el modelo que impulsa Operator, que combina las capacidades de visión de GPT-4o con razonamiento avanzado mediante aprendizaje por refuerzo. El CUA puede 'ver' a través de capturas de pantalla e 'interactuar' usando todas las acciones de ratón y teclado, permitiéndole ejecutar tareas en navegadores y aplicaciones de escritorio sin necesidad de integraciones API personalizadas.
OpenAI presentó el Computer-Using Agent (CUA), el modelo de IA que impulsa la herramienta Operator. El CUA combina las capacidades de visión de GPT-4o con razonamiento avanzado entrenado mediante aprendizaje por refuerzo para interactuar con interfaces gráficas de usuario (GUIs).
El modelo puede 'ver' el estado de una pantalla a través de capturas de pantalla e 'interactuar' utilizando cualquier acción disponible con ratón y teclado. Esto le permite navegar por páginas web, rellenar formularios, hacer pedidos en línea, programar citas y realizar otras tareas basadas en el navegador sin requerir integraciones API personalizadas con cada sitio web.
Cuando el CUA se enfrenta a situaciones difíciles o comete errores, puede aprovechar sus capacidades de razonamiento para autocorregirse. Si necesita asistencia o se bloquea, devuelve el control al usuario de forma fluida, garantizando una experiencia colaborativa.
Fuente original
Ver en OpenAI