
gpt-4o-mini-search-preview es el modelo de chat con búsqueda aumentada de nivel pequeño de OpenAI. El modelo tiene acceso a una herramienta de búsqueda backend que recupera contenido web actualizado, integra citas, y devuelve respuestas fundamentadas en fuentes recuperadas en lugar de depender puramente del conocimiento de pre-entrenamiento. El tamaño mini mantiene el coste por solicitud lo suficientemente bajo como para colocar respuestas fundamentadas en búsquedas detrás de funcionalidades de alto volumen.
Esto sigue etiquetado como preview. La línea en su conjunto todavía está en flujo. Fije la variante con fecha para mantener estabilidad de comportamiento.
Qué problema resuelve el chat con búsqueda aumentada
El límite del conocimiento pre-entrenado de un LLM estándar es un muro duro para muchos casos de uso prácticos. El modelo no conoce eventos posteriores a su fecha de corte de entrenamiento. El modelo no conoce el comunicado de prensa reciente de tu cliente. El modelo no conoce el cambio regulatorio que entró en vigor la semana pasada.
El chat con búsqueda aumentada coloca una herramienta de recuperación dentro del bucle de razonamiento del modelo. El modelo decide cuándo buscar, ejecuta la consulta, ingiere el contenido recuperado, y lo incorpora a la respuesta con citas en línea. Desde la perspectiva del llamador es una llamada API; detrás de escena el modelo está haciendo recuperación en vivo como parte de la respuesta.
Lo que esto te aporta, cuando funciona:
- Respuestas fundamentadas en información actual en lugar de puntos de corte de pre-entrenamiento.
- Citas que permiten al usuario verificar lo que el modelo está afirmando.
- Una ruta de recuperación que no requiere que construyas y mantengas tu propia infraestructura RAG para contenido web general.
Mini-search es la variante apropiada de nivel de coste para aplicaciones de alto volumen. El gpt-4o-search-preview completo es la elección correcta cuando el razonamiento sobre contenido recuperado importa más que el coste por solicitud.
Dónde mini-search encaja bien
Cargas de trabajo que le vienen bien.
Interfaces conversacionales que necesitan verificaciones de actualización ocasionales en lugar de investigación continua. Asistentes de atención al cliente que necesitan consultar información de producto actual. Herramientas de conocimiento interno que aumentan RAG privado con contexto de web pública.
Superficies de preguntas y respuestas de alto volumen donde el coste de ejecutar cada consulta a través de un modelo completo con búsqueda fundamentada no sobreviviría a la economía unitaria. El perfil de coste de mini es lo que hace factibles las respuestas fundamentadas en búsquedas a escala.
Aplicaciones donde las citas son una característica en lugar de algo agradable de tener. Mini-search devuelve metadatos de citas estructurados que te permiten renderizar enlaces de fuentes en la interfaz sin scraping separado.
Dónde falla
Razonamiento pesado sobre el contenido recuperado. Mini es el modelo pequeño. Si la tarea es sintetizar documentos técnicos largos en un análisis de varios párrafos, la preview de búsqueda completa sale adelante. Si la tarea se adentra aún más en territorio de investigación, los modelos de línea de investigación en /benchmarks/methodology son el siguiente paso correcto.
Conocimiento privado del dominio. La herramienta de búsqueda indexa la web pública. Mini-search no encontrará tus documentos internos, los datos CRM de tu cliente, o tu base de conocimiento privada. Para ese trabajo todavía necesitas tu propia pipeline RAG.
Uso interactivo sensible a latencia. La búsqueda añade viajes de ida y vuelta. Incluso con el nivel mini, las respuestas con búsqueda aumentada son más lentas que las respuestas puramente generadas. Para interfaces donde la velocidad de escritura importa, sopesa el coste de latencia contra el beneficio de actualización.
Contratos estables. Etiquetado como preview. Fija la instantánea con fecha si tu producto no puede tolerar deriva de comportamiento.
Cuándo recurrir a él
Elige gpt-4o-mini-search-preview cuando:
- Necesitas respuestas fundamentadas en búsquedas a alto volumen y el perfil de coste de la preview de búsqueda completa no encaja.
- La carga de razonamiento sobre contenido recuperado es moderada — resumen, extracción de hechos, integración conversacional de información actualizada.
- Las citas en línea son un requisito de producto en lugar de una característica extra.
Omítelo cuando:
- La síntesis pesada sobre documentos recuperados es la tarea real — escala a la preview de búsqueda completa o a un modelo de línea de investigación.
- El conocimiento que necesitas es privado — construye una pipeline RAG específica del dominio en su lugar.
- La latencia importa más que la actualización — usa un modelo sin búsqueda y acepta la desactualización.
- El despliegue requiere operación auto-alojada o con air-gap — ver /usecases/local.
Alternativas que vale la pena considerar
El gpt-4o-search-preview completo cuando el razonamiento sobre contenido recuperado es el diferenciador. Modelos de chat estándar sin búsqueda cuando la actualización en realidad no es requerida. Los modelos de línea de investigación de OpenAI y proveedores competidores para tareas de síntesis de formato largo. La encuesta más amplia de modelos de recuperación en /usecases/data-extraction cubre cargas de trabajo de extracción estructurada donde mini-search tiene la forma equivocada.
Notas de despliegue
Superficie API estándar de Chat Completions. La herramienta de búsqueda es invocada automáticamente por el modelo basándose en el prompt; no la pasas como definición de herramienta en la solicitud. Los metadatos de citas se devuelven en un campo estructurado junto con la salida de texto del modelo.
La facturación de tokens se divide en texto de entrada, texto de salida, y una tarifa por llamada de búsqueda. La tarifa por llamada es la nueva partida significativa frente a modelos de chat estándar. La planificación de capacidad necesita tener en cuenta el multiplicador que las invocaciones de búsqueda añaden a los costes de texto base.
La lectura pragmática. Mini-search es el modelo correcto cuando las respuestas fundamentadas en búsquedas necesitan estar disponibles a alto volumen y de forma económica. Es el modelo equivocado cuando el razonamiento sobre contenido recuperado es el verdadero diferenciador, o cuando el conocimiento que necesitas es privado en lugar de web pública. Pruébalo contra tus consultas reales en /live-test.
Última revisión técnica: 2026-05-22 — Tokonomix.ai

