¿Puedo desplegarlo en un entorno de producción hoy?

Al ser una versión preview de octubre de 2025, Google lo posiciona como plataforma de investigación y desarrollo. Conviene usarlo en pilotos controlados y prever cambios de API o de comportamiento antes de una integración estable.

¿Qué tan grande es la ventana de contexto y para qué alcanza?

Ofrece 131.072 tokens de contexto, suficientes para mantener historiales largos de interacción, múltiples capturas y descripciones detalladas de la UI dentro de una misma sesión de agente.

¿Cómo se compara con modelos Gemini orientados a texto puro?

Su valor diferencial está en la acción sobre interfaces, no en métricas de razonamiento o redacción. Para tareas puramente textuales, otros modelos del catálogo Gemini suelen ser más adecuados.

¿Qué riesgos operativos debo considerar al integrarlo?

Al ejecutar acciones reales sobre interfaces, requiere sandboxing, controles de permisos y supervisión humana en pasos sensibles. También conviene registrar trazas detalladas para auditar decisiones del agente.

Tier B — Producción

Se ejecuta en:USCreado en:United States

Google Gemini

Gemini 2.5 Computer Use Preview 10-2025

Tier B — Producción · 131K tokens

Equipo editorial Tokonomix·Revisado por Mes Kalkan·Publicado 22 de mayo de 2026·Última revisión 24 de mayo de 2026

Gemini 2.5 Computer Use Preview 10-2025 es un modelo de lenguaje experimental de Google diseñado para permitir que agentes de IA interactúen con interfaces de computadora de manera similar a los usuarios humanos. Este modelo va más allá de la generación de texto estándar al incorporar capacidades para comprender y generar instrucciones relacionadas con tareas de control de computadora, como navegar interfaces de usuario, hacer clic en botones, completar formularios y ejecutar flujos de trabajo de múltiples pasos entre aplicaciones. Representa la exploración de Google en sistemas de IA agéntica que pueden realizar tareas que requieren tanto comprensión del lenguaje como interacción con entornos digitales. El modelo cuenta con una ventana de contexto de 131,000 tokens, lo que le permite procesar cantidades sustanciales de información dentro de una sola sesión. Si bien admite tareas estándar de generación de texto, su característica distintiva es la funcionalidad de uso de computadora, que le permite interpretar capturas de pantalla, comprender elementos de UI y generar acciones apropiadas para lograr objetivos especificados por el usuario. Esto lo posiciona como una herramienta para automatización, pruebas e investigación en capacidades de agentes de IA, más que principalmente como un modelo de conversación o generación de contenido. Dentro de la línea Gemini de Google, este lanzamiento preview ocupa un nicho especializado enfocado en avanzar capacidades de interacción con computadoras. Como modelo preview lanzado en octubre de 2025, sirve como plataforma de investigación y desarrollo para desarrolladores y organizaciones que exploran aplicaciones de agentes autónomos. El modelo permite a los usuarios experimentar con control de computadora impulsado por IA mientras Google continúa refinando la tecnología para un despliegue más amplio.

Gemini 2.5 Computer Use Preview 10-2025 marca la apuesta de Google por agentes capaces de operar interfaces gráficas como lo haría una persona, más allá de la simple generación de texto.
— Resumen editorial de Tokonomix

Sección 01

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰

Tarifas API — Gemini 2.5 Computer Use Preview 10-2025

$1.25 por 1M de tokens de entrada

$10.00 por 1M de tokens de salida

≈ $0.0028 por conversación típica (800 tokens)

Precio entrada vs salida (por 1M de tokens)

por 1M de tokens de entrada$1.25

por 1M de tokens de salida$10.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$1.25

input / 1M

— stable

$10.00

output / 1M

— stable

2026-05-242026-06-282026-07-26

Input

Output

Price change

⟳ synced weekly

Sección 02

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Control nativo de interfacesNavegación multi-paso en aplicacionesInterpretación de capturas de pantallaLlenado automatizado de formulariosVentana de contexto de 131K tokensOrientado a flujos agénticosÚtil para pruebas y QA automatizadoRespaldado por el ecosistema Gemini

Debilidades

Estado preview, no apto para producción críticaDisponibilidad regional limitadaMenos pulido en tareas conversacionales generalesCorte de conocimiento y capacidades aún sin detallar

Sección 03

Capacidades

toolssource: litellmvisionoutputTokenLimit: 65536max output tokens: 64000

Sección 04

Preguntas frecuentes

Está diseñado para agentes que necesitan operar interfaces gráficas: hacer clic en botones, completar formularios y encadenar pasos en aplicaciones. No es la mejor opción para chat general o generación creativa de contenido.

Es una pieza experimental valiosa para equipos que exploran automatización agéntica, pero conviene tratarla como plataforma de investigación antes que como motor de producción.
— Veredicto de Tokonomix

Sección 05

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 06

Veredictos del benchmark Tokonomix

● 2026-07-26

Gemini 2.5 Computer Use maintains tool and vision capabilities

Gemini 2.5 Computer Use Preview continues to offer both tool integration and vision capabilities without measurable changes in this benchmark window. The model maintains its core functionality for computer interaction tasks, allowing it to process visual inputs and utilize external tools as part of its operational framework. No performance regressions or improvements were detected across the evaluated metrics, suggesting stable model behavior between benchmark periods. Users can expect consistent performance for tasks requiring multimodal understanding and tool orchestration. The model remains in preview status, indicating ongoing development and potential future refinements. Organizations considering this model for computer use automation should note the stability of its current capabilities while remaining aware of its preview designation. The absence of benchmark fluctuations suggests reliable behavior for integration into existing workflows, though users should continue monitoring for updates as Google iterates on this specialized model variant.

Quality

—

Latency p50

—

Test runs

✓ Tool capabilities maintained✓ Vision support stable

Sección 07

Perfil completo del modelo

Gemini 2.5 Computer Use Preview (oct. de 2025): el especialista en control de escritorio

Nota — perfil prospectivo. Gemini 2.5 Computer Use Preview (gemini-2.5-computer-use-preview-10-2025) es una instantánea de vista previa. El comportamiento, las capacidades y los límites de tasa cambiarán antes de la disponibilidad general. Trate las observaciones siguientes como una instantánea de un modelo en evolución.

No es un modelo de chat de propósito general. Gemini 2.5 Computer Use Preview es el especialista de Google para el control agéntico de escritorio: mirar una captura de pantalla, decidir en qué hacer clic, escribir en campos, desplazarse por una UI. Es la respuesta de Google a la categoría más amplia que Anthropic ayudó a popularizar con sus propios modelos de uso del equipo.

El contexto de 131 072 tokens es más que suficiente para el bucle típico de control de escritorio: un prompt del sistema describiendo la tarea, una o dos capturas de pantalla del estado actual, un historial de acciones y la salida de siguiente acción del modelo. La entrada de texto e imagen es el primitivo correcto para el trabajo.

Qué hace en realidad

El modelo está entrenado para tomar el estado de la pantalla y producir acciones estructuradas. Una llamada típica tiene este aspecto:

Entrada: una captura de pantalla del estado actual de la pantalla, más una descripción del objetivo general y el historial de acciones tomadas hasta ahora.
Salida: una siguiente acción estructurada: coordenadas para hacer clic, teclas para escribir, una dirección de desplazamiento o una señal de "tarea completada".

El bucle de agente ejecuta ese patrón en un ciclo ajustado: actuar, capturar nueva captura de pantalla, decidir la siguiente acción. El framework alrededor del modelo maneja la interacción real con el sistema operativo: el modelo es el cerebro, no las manos.

Dónde resulta genuinamente útil

Algunas cargas de trabajo donde los modelos de uso del equipo especializados realmente superan a los modelos de visión y lenguaje genéricos en la misma tarea:

Automatización repetitiva de escritorio donde la UI no tiene una API limpia. Rellenar formularios en aplicaciones de escritorio heredadas, extraer datos de herramientas internas, automatizar flujos de trabajo en software de terceros que no ofrece superficie de automatización.
Pruebas de QA para aplicaciones de escritorio y web donde el arnés de pruebas necesita ejercitar la UI como lo haría un usuario.
Herramientas de accesibilidad que necesitan entender el estado de la UI con fines de asistencia.
Flujos de trabajo agénticos donde parte de la tarea es "ve e interactúa con esta aplicación web" en lugar de llamar a su API.

El patrón: las tareas donde una persona diría "simplemente lo haría en la UI, tomaría cinco minutos" encajan bien en los modelos de uso del equipo. Las tareas donde ya existe una llamada a la API no necesitan este tier: llame a la API.

Cuándo no es la herramienta adecuada

Conversación general. No es un modelo de chat. Los patrones de entrenamiento y prompts están orientados en torno a la salida de acciones estructuradas, no al diálogo de forma libre.

Cualquier cosa que tenga una API limpia. Si la tarea es "enviar un correo electrónico", no haga que el modelo navegue a una interfaz de webmail: llame a una API de correo electrónico. Los modelos de uso del equipo son la opción correcta cuando no existe API, no cuando existe una.

Acciones críticas para la seguridad sin revisión humana. El modelo cometerá errores: clics incorrectos, campos equivocados, lecturas incorrectas ocasionales del estado de la pantalla. Para flujos de trabajo que toquen dinero real, datos reales o cualquier cosa irreversible, el bucle de agente necesita un humano en el medio.

Llamadas cortas de alto volumen. El bucle de agente es por naturaleza de múltiples pasos. Planifique eso operacionalmente. No es un modelo que se pone detrás de un chatbot.

Tareas de visión que no son específicamente de tipo UI. Para lectura de documentos, comprensión de gráficos o análisis de diagramas, un modelo de visión y lenguaje general encaja mejor. Computer Use está especializado para la interpretación del estado de la pantalla, no para trabajo de visión arbitrario.

Cómo se compara con las alternativas

El competidor más directo es la capacidad de uso del equipo integrada en la familia Claude de Anthropic. La forma del trabajo es similar: captura de pantalla como entrada, acción estructurada como salida. La diferencia es operacional:

El uso del equipo de Anthropic vive dentro de la familia de modelos Claude regular: misma superficie, misma autenticación, mismo comportamiento general.
El Computer Use Preview de Google es un identificador de modelo separado con convenciones de prompts algo diferentes.

Para cargas de trabajo ya en Claude, la opción de Anthropic es la integración más sencilla. Para cargas de trabajo ya en el stack de Google, el 2.5 Computer Use Preview mantiene el mismo ecosistema.

La calidad es competitiva entre los dos. Ambos cometen lecturas incorrectas ocasionales en UIs densas. Ambos gestionan bien las interfaces modernas limpias. Ambos tienen dificultades con elementos de UI muy pequeños, texto de bajo contraste y diálogos que se superponen al contenido. Los benchmarks de cargas de trabajo específicas tienden a variar más según la aplicación que según el modelo.

Patrones prácticos

Algunas cosas que vale la pena saber antes de construir sobre este modelo:

El bucle de agente a veces se atasca: hace clic en el lugar equivocado, pierde un popup, repite una acción que no produjo el resultado esperado. Construya un contador de pasos y un mecanismo de reinicio.
La resolución de la captura de pantalla importa. Demasiado baja y el modelo lee mal los elementos de UI; demasiado alta y se desperdician tokens de contexto en píxeles irrelevantes. Pruebe contra su aplicación específica.
El historial de acciones ayuda. Incluir las últimas acciones en el prompt reduce los bucles donde el modelo reintenta algo que ya ha fallado.
Algunas tareas se benefician de dividirse en sub-objetivos explícitos en lugar de darse al modelo como una única instrucción de alto nivel.

Su posición en los benchmarks

El uso del equipo es una categoría difícil de comparar limpiamente porque las aplicaciones reales varían mucho. El panorama por categorías entre modelos de visión y lenguaje está en /benchmarks/intelligence, pero los números principales allí no siempre predicen el rendimiento en una carga de trabajo específica de automatización de escritorio.

Para el rendimiento del bucle agéntico específicamente, ejecute los modelos candidatos contra su propio conjunto de tareas. Las diferencias entre modelos en aplicaciones reales rara vez coinciden con lo que se ve en benchmarks sintéticos.

Notas de despliegue

API estándar de Google Gemini pero con convenciones de prompts específicas para el flujo de uso del equipo. El formato de salida de acción estructurada está documentado separadamente de la guía general de prompts de Gemini; consulte la referencia específica del modelo.

La disponibilidad regional sigue el patrón estándar de Vertex AI de Google. Las regiones de la UE están disponibles en contratos enterprise. El acceso a la API de consumidor estándar no fija una región.

El modelo en sí no ejecuta acciones. Necesita un arnés alrededor de él que traduzca la salida de acción estructurada del modelo en interacción real a nivel de sistema operativo. Existen varios frameworks de código abierto para esto; la elección correcta depende de si el objetivo son navegadores web, aplicaciones de escritorio nativas o ambos.

Cuándo elegirlo

Use Gemini 2.5 Computer Use Preview cuando:

La carga de trabajo implica controlar una UI que no expone una API.
Ya esté en el stack de Google y quiera permanecer en él.
El bucle de agente funciona con supervisión humana para acciones irreversibles.
La fiabilidad de nivel prototipo es aceptable: esto es vista previa, no GA.

Elija otra opción cuando:

Existe una API para la tarea. Llame a la API.
El trabajo es visión general o conversación en lugar de interacción con UI.
Necesite estabilidad y límites de tasa de nivel GA.
El coste de integración de construir el arnés del agente supera el valor de automatizar el flujo de trabajo.

El resumen: herramienta especializada para una categoría especializada. Cuando la carga de trabajo encaja, hace el trabajo. Cuando no encaja, casi cualquier otra cosa es la mejor opción.

Pruébelo en una tarea real de automatización de UI en /live-test. El comportamiento es suficientemente distintivo como para verlo antes de comprometerse con una construcción.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

Última prueba automática

21 jun 2026 · 04:48 UTC · Benchmark

Latencia P50

—

Latencia P95

—

Errores

1 / 6 ejecuciones

Última revisión por Equipo Tokonomix·24 de mayo de 2026