
Nota — perfil prospectivo. Gemini 2.5 Computer Use Preview (
gemini-2.5-computer-use-preview-10-2025) es una instantánea de vista previa. El comportamiento, las capacidades y los límites de tasa cambiarán antes de la disponibilidad general. Trate las observaciones siguientes como una instantánea de un modelo en evolución.
No es un modelo de chat de propósito general. Gemini 2.5 Computer Use Preview es el especialista de Google para el control agéntico de escritorio: mirar una captura de pantalla, decidir en qué hacer clic, escribir en campos, desplazarse por una UI. Es la respuesta de Google a la categoría más amplia que Anthropic ayudó a popularizar con sus propios modelos de uso del equipo.
El contexto de 131 072 tokens es más que suficiente para el bucle típico de control de escritorio: un prompt del sistema describiendo la tarea, una o dos capturas de pantalla del estado actual, un historial de acciones y la salida de siguiente acción del modelo. La entrada de texto e imagen es el primitivo correcto para el trabajo.
Qué hace en realidad
El modelo está entrenado para tomar el estado de la pantalla y producir acciones estructuradas. Una llamada típica tiene este aspecto:
- Entrada: una captura de pantalla del estado actual de la pantalla, más una descripción del objetivo general y el historial de acciones tomadas hasta ahora.
- Salida: una siguiente acción estructurada: coordenadas para hacer clic, teclas para escribir, una dirección de desplazamiento o una señal de "tarea completada".
El bucle de agente ejecuta ese patrón en un ciclo ajustado: actuar, capturar nueva captura de pantalla, decidir la siguiente acción. El framework alrededor del modelo maneja la interacción real con el sistema operativo: el modelo es el cerebro, no las manos.
Dónde resulta genuinamente útil
Algunas cargas de trabajo donde los modelos de uso del equipo especializados realmente superan a los modelos de visión y lenguaje genéricos en la misma tarea:
- Automatización repetitiva de escritorio donde la UI no tiene una API limpia. Rellenar formularios en aplicaciones de escritorio heredadas, extraer datos de herramientas internas, automatizar flujos de trabajo en software de terceros que no ofrece superficie de automatización.
- Pruebas de QA para aplicaciones de escritorio y web donde el arnés de pruebas necesita ejercitar la UI como lo haría un usuario.
- Herramientas de accesibilidad que necesitan entender el estado de la UI con fines de asistencia.
- Flujos de trabajo agénticos donde parte de la tarea es "ve e interactúa con esta aplicación web" en lugar de llamar a su API.
El patrón: las tareas donde una persona diría "simplemente lo haría en la UI, tomaría cinco minutos" encajan bien en los modelos de uso del equipo. Las tareas donde ya existe una llamada a la API no necesitan este tier: llame a la API.
Cuándo no es la herramienta adecuada
Conversación general. No es un modelo de chat. Los patrones de entrenamiento y prompts están orientados en torno a la salida de acciones estructuradas, no al diálogo de forma libre.
Cualquier cosa que tenga una API limpia. Si la tarea es "enviar un correo electrónico", no haga que el modelo navegue a una interfaz de webmail: llame a una API de correo electrónico. Los modelos de uso del equipo son la opción correcta cuando no existe API, no cuando existe una.
Acciones críticas para la seguridad sin revisión humana. El modelo cometerá errores: clics incorrectos, campos equivocados, lecturas incorrectas ocasionales del estado de la pantalla. Para flujos de trabajo que toquen dinero real, datos reales o cualquier cosa irreversible, el bucle de agente necesita un humano en el medio.
Llamadas cortas de alto volumen. El bucle de agente es por naturaleza de múltiples pasos. Planifique eso operacionalmente. No es un modelo que se pone detrás de un chatbot.
Tareas de visión que no son específicamente de tipo UI. Para lectura de documentos, comprensión de gráficos o análisis de diagramas, un modelo de visión y lenguaje general encaja mejor. Computer Use está especializado para la interpretación del estado de la pantalla, no para trabajo de visión arbitrario.
Cómo se compara con las alternativas
El competidor más directo es la capacidad de uso del equipo integrada en la familia Claude de Anthropic. La forma del trabajo es similar: captura de pantalla como entrada, acción estructurada como salida. La diferencia es operacional:
- El uso del equipo de Anthropic vive dentro de la familia de modelos Claude regular: misma superficie, misma autenticación, mismo comportamiento general.
- El Computer Use Preview de Google es un identificador de modelo separado con convenciones de prompts algo diferentes.
Para cargas de trabajo ya en Claude, la opción de Anthropic es la integración más sencilla. Para cargas de trabajo ya en el stack de Google, el 2.5 Computer Use Preview mantiene el mismo ecosistema.
La calidad es competitiva entre los dos. Ambos cometen lecturas incorrectas ocasionales en UIs densas. Ambos gestionan bien las interfaces modernas limpias. Ambos tienen dificultades con elementos de UI muy pequeños, texto de bajo contraste y diálogos que se superponen al contenido. Los benchmarks de cargas de trabajo específicas tienden a variar más según la aplicación que según el modelo.
Patrones prácticos
Algunas cosas que vale la pena saber antes de construir sobre este modelo:
- El bucle de agente a veces se atasca: hace clic en el lugar equivocado, pierde un popup, repite una acción que no produjo el resultado esperado. Construya un contador de pasos y un mecanismo de reinicio.
- La resolución de la captura de pantalla importa. Demasiado baja y el modelo lee mal los elementos de UI; demasiado alta y se desperdician tokens de contexto en píxeles irrelevantes. Pruebe contra su aplicación específica.
- El historial de acciones ayuda. Incluir las últimas acciones en el prompt reduce los bucles donde el modelo reintenta algo que ya ha fallado.
- Algunas tareas se benefician de dividirse en sub-objetivos explícitos en lugar de darse al modelo como una única instrucción de alto nivel.
Su posición en los benchmarks
El uso del equipo es una categoría difícil de comparar limpiamente porque las aplicaciones reales varían mucho. El panorama por categorías entre modelos de visión y lenguaje está en /benchmarks/intelligence, pero los números principales allí no siempre predicen el rendimiento en una carga de trabajo específica de automatización de escritorio.
Para el rendimiento del bucle agéntico específicamente, ejecute los modelos candidatos contra su propio conjunto de tareas. Las diferencias entre modelos en aplicaciones reales rara vez coinciden con lo que se ve en benchmarks sintéticos.
Notas de despliegue
API estándar de Google Gemini pero con convenciones de prompts específicas para el flujo de uso del equipo. El formato de salida de acción estructurada está documentado separadamente de la guía general de prompts de Gemini; consulte la referencia específica del modelo.
La disponibilidad regional sigue el patrón estándar de Vertex AI de Google. Las regiones de la UE están disponibles en contratos enterprise. El acceso a la API de consumidor estándar no fija una región.
El modelo en sí no ejecuta acciones. Necesita un arnés alrededor de él que traduzca la salida de acción estructurada del modelo en interacción real a nivel de sistema operativo. Existen varios frameworks de código abierto para esto; la elección correcta depende de si el objetivo son navegadores web, aplicaciones de escritorio nativas o ambos.
Cuándo elegirlo
Use Gemini 2.5 Computer Use Preview cuando:
- La carga de trabajo implica controlar una UI que no expone una API.
- Ya esté en el stack de Google y quiera permanecer en él.
- El bucle de agente funciona con supervisión humana para acciones irreversibles.
- La fiabilidad de nivel prototipo es aceptable: esto es vista previa, no GA.
Elija otra opción cuando:
- Existe una API para la tarea. Llame a la API.
- El trabajo es visión general o conversación en lugar de interacción con UI.
- Necesite estabilidad y límites de tasa de nivel GA.
- El coste de integración de construir el arnés del agente supera el valor de automatizar el flujo de trabajo.
El resumen: herramienta especializada para una categoría especializada. Cuando la carga de trabajo encaja, hace el trabajo. Cuando no encaja, casi cualquier otra cosa es la mejor opción.
Pruébelo en una tarea real de automatización de UI en /live-test. El comportamiento es suficientemente distintivo como para verlo antes de comprometerse con una construcción.
Última revisión técnica: 2026-05-22 — Tokonomix.ai

