¿Cuándo conviene usar search vs modelo estándar?

Para consultas sobre eventos recientes, noticias o información que cambia frecuentemente más allá de la fecha de corte del modelo.

¿Las fuentes de búsqueda son verificables?

OpenAI puede incluir citas en las respuestas; la transparencia sobre las fuentes está en la documentación oficial.

¿Es más lento por incluir búsqueda?

Sí, el tiempo de búsqueda añade latencia; se recomienda para consultas donde la actualidad justifica la espera extra.

Tier C — Especialista

Se ejecuta en:USCreado en:United States

Archivado

Este modelo ha sido descontinuado por el proveedor. Los datos históricos se conservan.

Ya no está disponible desde el 26 de julio de 2026.

OpenAI

gpt-4o-mini-search-preview-2025-03-11

Tier C — Especialista

Equipo editorial Tokonomix·Revisado por Mes Kalkan·Publicado 22 de mayo de 2026·Última revisión 26 de mayo de 2026

gpt-4o-mini-search-preview-2025-03-11 es una variante del modelo GPT-4o mini de OpenAI, que representa una opción económicamente eficiente en la línea de modelos de lenguaje de la empresa. Como parte de la familia GPT-4o, se construye sobre la arquitectura multimodal de OpenAI mientras está optimizado para escenarios donde la baja latencia y la reducción de sobrecarga computacional son prioridades. Esta versión preview incluye funcionalidad de búsqueda, sugiriendo integración con capacidades de recuperación de información externa para mejorar las respuestas con datos actuales o fácticos más allá de la fecha límite de entrenamiento del modelo. El modelo está diseñado para tareas estándar de generación de texto, soportando aplicaciones como agentes conversacionales, creación de contenido, resumen y respuestas a preguntas de propósito general. La designación search preview indica que esta variante está en una fase de prueba o acceso temprano, permitiendo a los desarrolladores experimentar con patrones de generación aumentada por búsqueda. Aunque el tamaño exacto de la ventana de contexto no se ha especificado públicamente, los modelos en la familia GPT-4o mini típicamente ofrecen capacidad de contexto suficiente para la mayoría de casos de uso comunes mientras mantienen tiempos de respuesta más rápidos comparados con modelos más grandes en la serie GPT-4. Dentro de la jerarquía de modelos de OpenAI, gpt-4o-mini-search-preview-2025-03-11 se sitúa por debajo de los modelos completos GPT-4o y GPT-4 en términos de capacidad y escala, pero ofrece ventajas en velocidad y eficiencia. Sirve a usuarios que necesitan comprensión y generación de lenguaje confiables sin requerir las capacidades de razonamiento más avanzadas de los modelos insignia, particularmente en aplicaciones donde el acceso a información en tiempo real a través de integración de búsqueda proporciona valor significativo.

GPT-4o Mini Search Preview integra búsqueda web en tiempo real con la eficiencia del modelo mini, ofreciendo respuestas actualizadas a menor costo.
— Resumen de benchmark Tokonomix

Sección 01

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰

Tarifas API — gpt-4o-mini-search-preview-2025-03-11

$0.1500 por 1M de tokens de entrada

$0.6000 por 1M de tokens de salida

≈ $0.0002 por conversación típica (800 tokens)

Precio entrada vs salida (por 1M de tokens)

por 1M de tokens de entrada$0.1500

por 1M de tokens de salida$0.6000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1500

input / 1M

— stable

$0.6000

output / 1M

— stable

2026-05-242026-06-282026-07-26

Input

Output

Price change

⟳ synced weekly

Sección 02

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Búsqueda web integrada en tiempo realMenor costo que search estándarInformación actualizada más allá del corteVelocidad del modelo miniFact-checking con fuentes actualesÚtil para consultas sobre eventos recientes

Debilidades

Preview: capacidades en evoluciónRazonamiento limitado por ser miniCalidad de búsqueda puede variarContexto no documentado para esta versión

Sección 03

Capacidades

toolssource: litellmvisionjson modepdf inputjson schemaparallel toolsprompt cachingmax output tokens: 16384

Sección 04

Preguntas frecuentes

El modelo recupera información de la web durante la inferencia para complementar su conocimiento de entrenamiento con datos actuales.

La combinación de búsqueda web y modelo eficiente resuelve el problema del conocimiento desactualizado en aplicaciones de bajo presupuesto.
— Resumen de benchmark Tokonomix

Sección 05

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 06

Veredictos del benchmark Tokonomix

⚖️

Endorsed by 1 judge

Independent LLM judges evaluated this model on our weekly intelligence tests

claude-sonnet-4-591/100 · 105 runs

84 correct17 partial4 wrong80% accuracy

● 2026-07-26

No benchmark data available; extensive tool capabilities added

This model iteration adds substantial capability expansion without accompanying benchmark performance data. The addition of tools, vision, JSON mode, PDF input, JSON schema support, parallel tools, and prompt caching represents a significant technical evolution from previous versions that lacked these features. However, the absence of benchmark results across all standard evaluation metrics makes it impossible to assess actual performance characteristics or compare against other models in the class. Users should note that while the feature set suggests this is a full-capability model variant, there is no empirical evidence of its performance on reasoning tasks, knowledge retrieval, coding challenges, or instruction following. The search-preview designation in the model name suggests integration with search capabilities, though this cannot be verified through available data. For production deployments, teams should conduct internal evaluations since public benchmarks provide no guidance on expected performance levels. The comprehensive tooling support indicates suitability for agentic workflows and structured output scenarios, but actual effectiveness remains unvalidated by standardized testing.

Quality

—

Latency p50

—

Test runs

✓ Tool capabilities added✓ Vision and PDF support enabled✓ Prompt caching now available✗ No benchmark data published

Sección 07

Perfil completo del modelo

gpt-4o-mini-search-preview-2025-03-11: la instantánea mini-search de marzo

gpt-4o-mini-search-preview-2025-03-11 es la instantánea fechada de marzo de 2025 del modelo pequeño de chat con búsqueda aumentada de OpenAI. Misma arquitectura de herramienta de recuperación que el alias móvil, congelada en ese punto de lanzamiento para que los despliegues en producción puedan fijar contra un comportamiento conocido.

Las respuestas fundamentadas en búsqueda son inusualmente sensibles a la deriva de versión del modelo. Fijar una instantánea es lo que mantiene predecible el comportamiento de citación, las estrategias de consulta y el estilo de síntesis mientras OpenAI continúa iterando sobre la línea preview.

Qué representa esta instantánea

Para marzo de 2025, la mini-search preview había:

Estabilizado el formato de metadatos de citación que el alias móvil todavía utiliza.
Consolidado la estructura de facturación por llamada de búsqueda.
Resuelto las regresiones más disruptivas en la construcción de consultas de las primeras versiones preview.

Lo que no tiene, en relación con instantáneas posteriores:

La reescritura de consultas mejorada que llegó a mediados de 2025 y redujo el número de llamadas de búsqueda por respuesta.
Los refinamientos en el ranking de citaciones que promovieron fuentes autoritativas de manera más agresiva.
Las mejoras de latencia provenientes de cambios de infraestructura backend durante el segundo trimestre de 2025.

Para despliegues validados en primavera de 2025, esta es muy probablemente la instantánea contra la cual pasó la validación.

Por qué la fijación fechada importa más para modelos de búsqueda

El chat con búsqueda aumentada tiene múltiples dimensiones comportamentales que pueden cambiar entre instantáneas, cada una de las cuales es visible en el producto:

El número de llamadas de búsqueda por respuesta — cambia el perfil de latencia y el coste por solicitud.
La elección de qué fuentes citar — afecta la autoridad percibida de la respuesta.
El estilo de síntesis para combinar contenido recuperado con conocimiento pre-entrenado — afecta cómo se lee la respuesta.
El umbral para cuando el modelo decide buscar en absoluto versus responder desde el pre-entrenamiento — afecta la cobertura de actualidad.

Una fijación de instantánea congela todas estas en su lugar. Rodar con el alias significa aceptar que cualquiera de ellas puede cambiar el día que OpenAI lance una nueva revisión.

La cuestión de la migración

Misma forma que cualquier fijación de instantánea fechada.

Mantén la fijación de marzo en producción mientras evalúas.
Vuelve a ejecutar un conjunto representativo de consultas contra la instantánea candidata más nueva.
Compara en calidad de citación, eficiencia de llamadas de búsqueda, latencia y estilo de síntesis junto con la precisión bruta de la respuesta.
Migra cuando la instantánea más nueva gane de manera demostrable en las dimensiones que importan para tu producto.

El caso para migrar desde una fijación estable rara vez es "la nueva es mejor en promedio". El caso es "la nueva es mejor en las cosas específicas sobre las que mi producto está construido". Sé honesto sobre en qué caso estás realmente.

Dónde falla

Razonamiento intenso sobre contenido recuperado. Mini es el modelo pequeño. La search preview completa es la escalada correcta cuando la síntesis se convierte en el cuello de botella.

Conocimiento privado de dominio. La herramienta de búsqueda indexa contenido web público. Los documentos internos necesitan un pipeline RAG separado.

Uso interactivo crítico en latencia. La búsqueda añade viajes de ida y vuelta. Mini-search es más rápida que la search preview completa pero todavía más lenta que las respuestas puramente generadas.

Despliegue auto-hospedado. La herramienta de búsqueda requiere la infraestructura backend de OpenAI. La revisión de /usecases/local cubre qué está disponible cuando las restricciones on-premises vinculan.

Cuándo fijar esta instantánea exacta

Elige gpt-4o-mini-search-preview-2025-03-11 cuando:

Lanzaste una funcionalidad fundamentada en búsqueda sobre el comportamiento de mini-search de marzo de 2025 y necesitas mantenerla estable.
El comportamiento de citación y la selección de fuentes fueron parte de lo que pasó tu evaluación de primavera de 2025.
Una prueba A/B o protocolo de investigación necesita una referencia de modelo de búsqueda fija a lo largo de meses.

Omítela cuando:

Estás empezando desde cero — fija la instantánea más reciente en su lugar.
Las mejoras de reescritura de consultas o latencia en instantáneas posteriores han ganado en tu evaluación.
El lanzamiento estable eventual de la línea con búsqueda aumentada está disponible — ese es el objetivo correcto para proyectos nuevos.

Notas de despliegue

API estándar de Chat Completions. La herramienta de búsqueda es invocada automáticamente por el modelo basándose en el prompt; la superficie de la API no cambia respecto a modelos sin búsqueda con la adición de metadatos de citación estructurados en la respuesta.

La facturación de tokens divide texto de entrada, texto de salida y tarifas por llamada de búsqueda. La tarifa por llamada de búsqueda no ha cambiado entre instantáneas mini-search hasta ahora, aunque la tasa a la que el modelo activa búsquedas puede variar entre instantáneas y por lo tanto también puede hacerlo el coste efectivo por conversación.

El formato de metadatos de citación es estable a través de esta instantánea y las instantáneas posteriores de 2025, lo que mantiene el código de renderizado de UI reutilizable a través de migraciones.

La lectura pragmática. Esta es la congelación de marzo de 2025 de mini-search. Fíjala cuando tu producto fue validado contra ella. Migra cuando tu propia evaluación diga que la instantánea más nueva es el movimiento correcto en las dimensiones que importan. Ejecuta comparaciones a nivel de consulta en /live-test antes de comprometerte.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

Última prueba automática

26 jul 2026 · 05:30 UTC · Benchmark

Latencia P50

—

Latencia P95

—

Errores

1 / 6 ejecuciones

Última revisión por Equipo Tokonomix·26 de mayo de 2026