Ir al contenido
Se ejecuta en:USCreado en:United States
Google Gemini

Gemini 2.5 Computer Use Preview 10-2025

131K tokens

Equipo editorial Tokonomix·Revisado por Mes Kalkan··

Gemini 2.5 Computer Use Preview 10-2025 es un modelo de lenguaje experimental de Google diseñado para permitir que agentes de IA interactúen con interfaces de computadora de manera similar a los usuarios humanos. Este modelo va más allá de la generación de texto estándar al incorporar capacidades para comprender y generar instrucciones relacionadas con tareas de control de computadora, como navegar interfaces de usuario, hacer clic en botones, completar formularios y ejecutar flujos de trabajo de múltiples pasos entre aplicaciones. Representa la exploración de Google en sistemas de IA agéntica que pueden realizar tareas que requieren tanto comprensión del lenguaje como interacción con entornos digitales. El modelo cuenta con una ventana de contexto de 131,000 tokens, lo que le permite procesar cantidades sustanciales de información dentro de una sola sesión. Si bien admite tareas estándar de generación de texto, su característica distintiva es la funcionalidad de uso de computadora, que le permite interpretar capturas de pantalla, comprender elementos de UI y generar acciones apropiadas para lograr objetivos especificados por el usuario. Esto lo posiciona como una herramienta para automatización, pruebas e investigación en capacidades de agentes de IA, más que principalmente como un modelo de conversación o generación de contenido. Dentro de la línea Gemini de Google, este lanzamiento preview ocupa un nicho especializado enfocado en avanzar capacidades de interacción con computadoras. Como modelo preview lanzado en octubre de 2025, sirve como plataforma de investigación y desarrollo para desarrolladores y organizaciones que exploran aplicaciones de agentes autónomos. El modelo permite a los usuarios experimentar con control de computadora impulsado por IA mientras Google continúa refinando la tecnología para un despliegue más amplio.

Gemini 2.5 Computer Use Preview 10-2025 marca la apuesta de Google por agentes capaces de operar interfaces gráficas como lo haría una persona, más allá de la simple generación de texto.

Resumen editorial de Tokonomix
Sección 01

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰
Tarifas API — Gemini 2.5 Computer Use Preview 10-2025
$1.25 por 1M de tokens de entrada
$10.00 por 1M de tokens de salida
≈ $0.0028 por conversación típica (800 tokens)
Precio entrada vs salida (por 1M de tokens)
por 1M de tokens de entrada$1.25
por 1M de tokens de salida$10.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$1.25

input / 1M

— stable

$10.00

output / 1M

— stable

2026-05-242026-06-072026-06-14
Input
Output
Price change
⟳ synced weekly
Sección 02

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Control nativo de interfacesNavegación multi-paso en aplicacionesInterpretación de capturas de pantallaLlenado automatizado de formulariosVentana de contexto de 131K tokensOrientado a flujos agénticosÚtil para pruebas y QA automatizadoRespaldado por el ecosistema Gemini

Debilidades

Estado preview, no apto para producción críticaDisponibilidad regional limitadaMenos pulido en tareas conversacionales generalesCorte de conocimiento y capacidades aún sin detallar
Sección 03

Capacidades

toolssource: litellmvisionoutputTokenLimit: 65536max output tokens: 64000
Sección 04

Preguntas frecuentes

Está diseñado para agentes que necesitan operar interfaces gráficas: hacer clic en botones, completar formularios y encadenar pasos en aplicaciones. No es la mejor opción para chat general o generación creativa de contenido.

Es una pieza experimental valiosa para equipos que exploran automatización agéntica, pero conviene tratarla como plataforma de investigación antes que como motor de producción.

Veredicto de Tokonomix
Sección 05

Disponibilidad

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 06

Veredictos del benchmark Tokonomix

2026-06-14

Gemini 2.5 Computer Use maintains tool and vision capabilities

Gemini 2.5 Computer Use Preview continues to offer tool integration and vision capabilities in this benchmark window, maintaining the features introduced in the previous period. No benchmark performance data is available for either the current or previous windows, making it impossible to assess quantitative changes in model quality, speed, or accuracy across tasks. The model remains positioned as Google's offering for computer use automation scenarios, leveraging both visual understanding and tool execution to interact with digital environments. Without concrete performance metrics, users should approach this model with caution and conduct their own testing for their specific use cases. The lack of benchmark data means there is no empirical evidence of improvements or regressions in areas like instruction following, task completion rates, or error handling. Organizations considering this model for production deployments should establish their own evaluation frameworks and success criteria, as public benchmarks have not yet provided insight into how this model performs relative to alternatives or how its capabilities have evolved over time.

Quality

Latency p50

Test runs

0

Maintains tool capabilities Maintains vision capabilities
Sección 07

Perfil completo del modelo

Gemini 2.5 Computer Use Preview 10-2025 — illustration 1
Gemini 2.5 Computer Use Preview (oct. de 2025): el especialista en control de escritorio

Nota — perfil prospectivo. Gemini 2.5 Computer Use Preview (gemini-2.5-computer-use-preview-10-2025) es una instantánea de vista previa. El comportamiento, las capacidades y los límites de tasa cambiarán antes de la disponibilidad general. Trate las observaciones siguientes como una instantánea de un modelo en evolución.

No es un modelo de chat de propósito general. Gemini 2.5 Computer Use Preview es el especialista de Google para el control agéntico de escritorio: mirar una captura de pantalla, decidir en qué hacer clic, escribir en campos, desplazarse por una UI. Es la respuesta de Google a la categoría más amplia que Anthropic ayudó a popularizar con sus propios modelos de uso del equipo.

El contexto de 131 072 tokens es más que suficiente para el bucle típico de control de escritorio: un prompt del sistema describiendo la tarea, una o dos capturas de pantalla del estado actual, un historial de acciones y la salida de siguiente acción del modelo. La entrada de texto e imagen es el primitivo correcto para el trabajo.

Qué hace en realidad

El modelo está entrenado para tomar el estado de la pantalla y producir acciones estructuradas. Una llamada típica tiene este aspecto:

  • Entrada: una captura de pantalla del estado actual de la pantalla, más una descripción del objetivo general y el historial de acciones tomadas hasta ahora.
  • Salida: una siguiente acción estructurada: coordenadas para hacer clic, teclas para escribir, una dirección de desplazamiento o una señal de "tarea completada".

El bucle de agente ejecuta ese patrón en un ciclo ajustado: actuar, capturar nueva captura de pantalla, decidir la siguiente acción. El framework alrededor del modelo maneja la interacción real con el sistema operativo: el modelo es el cerebro, no las manos.

Dónde resulta genuinamente útil

Algunas cargas de trabajo donde los modelos de uso del equipo especializados realmente superan a los modelos de visión y lenguaje genéricos en la misma tarea:

  • Automatización repetitiva de escritorio donde la UI no tiene una API limpia. Rellenar formularios en aplicaciones de escritorio heredadas, extraer datos de herramientas internas, automatizar flujos de trabajo en software de terceros que no ofrece superficie de automatización.
  • Pruebas de QA para aplicaciones de escritorio y web donde el arnés de pruebas necesita ejercitar la UI como lo haría un usuario.
  • Herramientas de accesibilidad que necesitan entender el estado de la UI con fines de asistencia.
  • Flujos de trabajo agénticos donde parte de la tarea es "ve e interactúa con esta aplicación web" en lugar de llamar a su API.

El patrón: las tareas donde una persona diría "simplemente lo haría en la UI, tomaría cinco minutos" encajan bien en los modelos de uso del equipo. Las tareas donde ya existe una llamada a la API no necesitan este tier: llame a la API.

Cuándo no es la herramienta adecuada

Conversación general. No es un modelo de chat. Los patrones de entrenamiento y prompts están orientados en torno a la salida de acciones estructuradas, no al diálogo de forma libre.

Cualquier cosa que tenga una API limpia. Si la tarea es "enviar un correo electrónico", no haga que el modelo navegue a una interfaz de webmail: llame a una API de correo electrónico. Los modelos de uso del equipo son la opción correcta cuando no existe API, no cuando existe una.

Acciones críticas para la seguridad sin revisión humana. El modelo cometerá errores: clics incorrectos, campos equivocados, lecturas incorrectas ocasionales del estado de la pantalla. Para flujos de trabajo que toquen dinero real, datos reales o cualquier cosa irreversible, el bucle de agente necesita un humano en el medio.

Llamadas cortas de alto volumen. El bucle de agente es por naturaleza de múltiples pasos. Planifique eso operacionalmente. No es un modelo que se pone detrás de un chatbot.

Tareas de visión que no son específicamente de tipo UI. Para lectura de documentos, comprensión de gráficos o análisis de diagramas, un modelo de visión y lenguaje general encaja mejor. Computer Use está especializado para la interpretación del estado de la pantalla, no para trabajo de visión arbitrario.

Cómo se compara con las alternativas

El competidor más directo es la capacidad de uso del equipo integrada en la familia Claude de Anthropic. La forma del trabajo es similar: captura de pantalla como entrada, acción estructurada como salida. La diferencia es operacional:

  • El uso del equipo de Anthropic vive dentro de la familia de modelos Claude regular: misma superficie, misma autenticación, mismo comportamiento general.
  • El Computer Use Preview de Google es un identificador de modelo separado con convenciones de prompts algo diferentes.

Para cargas de trabajo ya en Claude, la opción de Anthropic es la integración más sencilla. Para cargas de trabajo ya en el stack de Google, el 2.5 Computer Use Preview mantiene el mismo ecosistema.

La calidad es competitiva entre los dos. Ambos cometen lecturas incorrectas ocasionales en UIs densas. Ambos gestionan bien las interfaces modernas limpias. Ambos tienen dificultades con elementos de UI muy pequeños, texto de bajo contraste y diálogos que se superponen al contenido. Los benchmarks de cargas de trabajo específicas tienden a variar más según la aplicación que según el modelo.

Patrones prácticos

Algunas cosas que vale la pena saber antes de construir sobre este modelo:

  • El bucle de agente a veces se atasca: hace clic en el lugar equivocado, pierde un popup, repite una acción que no produjo el resultado esperado. Construya un contador de pasos y un mecanismo de reinicio.
  • La resolución de la captura de pantalla importa. Demasiado baja y el modelo lee mal los elementos de UI; demasiado alta y se desperdician tokens de contexto en píxeles irrelevantes. Pruebe contra su aplicación específica.
  • El historial de acciones ayuda. Incluir las últimas acciones en el prompt reduce los bucles donde el modelo reintenta algo que ya ha fallado.
  • Algunas tareas se benefician de dividirse en sub-objetivos explícitos en lugar de darse al modelo como una única instrucción de alto nivel.

Su posición en los benchmarks

El uso del equipo es una categoría difícil de comparar limpiamente porque las aplicaciones reales varían mucho. El panorama por categorías entre modelos de visión y lenguaje está en /benchmarks/intelligence, pero los números principales allí no siempre predicen el rendimiento en una carga de trabajo específica de automatización de escritorio.

Para el rendimiento del bucle agéntico específicamente, ejecute los modelos candidatos contra su propio conjunto de tareas. Las diferencias entre modelos en aplicaciones reales rara vez coinciden con lo que se ve en benchmarks sintéticos.

Notas de despliegue

API estándar de Google Gemini pero con convenciones de prompts específicas para el flujo de uso del equipo. El formato de salida de acción estructurada está documentado separadamente de la guía general de prompts de Gemini; consulte la referencia específica del modelo.

La disponibilidad regional sigue el patrón estándar de Vertex AI de Google. Las regiones de la UE están disponibles en contratos enterprise. El acceso a la API de consumidor estándar no fija una región.

El modelo en sí no ejecuta acciones. Necesita un arnés alrededor de él que traduzca la salida de acción estructurada del modelo en interacción real a nivel de sistema operativo. Existen varios frameworks de código abierto para esto; la elección correcta depende de si el objetivo son navegadores web, aplicaciones de escritorio nativas o ambos.

Cuándo elegirlo

Use Gemini 2.5 Computer Use Preview cuando:

  • La carga de trabajo implica controlar una UI que no expone una API.
  • Ya esté en el stack de Google y quiera permanecer en él.
  • El bucle de agente funciona con supervisión humana para acciones irreversibles.
  • La fiabilidad de nivel prototipo es aceptable: esto es vista previa, no GA.

Elija otra opción cuando:

  • Existe una API para la tarea. Llame a la API.
  • El trabajo es visión general o conversación en lugar de interacción con UI.
  • Necesite estabilidad y límites de tasa de nivel GA.
  • El coste de integración de construir el arnés del agente supera el valor de automatizar el flujo de trabajo.

El resumen: herramienta especializada para una categoría especializada. Cuando la carga de trabajo encaja, hace el trabajo. Cuando no encaja, casi cualquier otra cosa es la mejor opción.

Pruébelo en una tarea real de automatización de UI en /live-test. El comportamiento es suficientemente distintivo como para verlo antes de comprometerse con una construcción.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

Gemini 2.5 Computer Use Preview 10-2025 — illustration 2Gemini 2.5 Computer Use Preview 10-2025 — illustration 3
Última prueba automática
14 jun 2026 · 04:55 UTC · Benchmark
Latencia P50
Latencia P95
Errores
1 / 6 ejecuciones
Última revisión por Equipo Tokonomix·24 de mayo de 2026