Ir al contenido
Tier C — Especialista
Se ejecuta en:USCreado en:United States
OpenAI

gpt-4o-search-preview

Tier C — Especialista

Equipo editorial Tokonomix·Revisado por Mes Kalkan··

GPT-4o-search-preview es un modelo de lenguaje desarrollado por OpenAI que integra capacidades de búsqueda web con generación de texto estándar. Este modelo representa una variante experimental en la familia GPT-4o, diseñada para mejorar la precisión factual y proporcionar información más actualizada mediante el acceso a datos web en tiempo real durante la inferencia. Es particularmente adecuado para tareas que requieren conocimiento actualizado, verificación de datos o referencias a eventos recientes que quedan fuera de la fecha de corte de los datos de entrenamiento del modelo. El modelo mantiene la arquitectura central de GPT-4o mientras incorpora funcionalidad de búsqueda que le permite recuperar y sintetizar información de internet al generar respuestas. Esta capacidad lo distingue del GPT-4o estándar, que se basa únicamente en conocimiento preentrenado. Las especificaciones de la ventana de contexto no han sido divulgadas públicamente, aunque se espera que admita longitudes de entrada sustanciales comparables a otros modelos de la serie GPT-4o. Como otras variantes de GPT-4o, maneja tareas de comprensión y generación multimodal, aunque su mejora principal radica en la generación de texto aumentada por búsqueda. Dentro de la línea de modelos de OpenAI, gpt-4o-search-preview ocupa una posición especializada como lanzamiento preliminar destinado a evaluación y retroalimentación. Complementa la oferta estándar de GPT-4o al abordar casos de uso donde la frescura de la información es crítica, como asistencia en investigación, resumen de noticias y consultas sobre eventos actuales. Como modelo preliminar, permite a desarrolladores e investigadores explorar el potencial de los modelos de lenguaje integrados con búsqueda antes de un despliegue más amplio.

GPT-4o Search Preview integra búsqueda web en tiempo real en la arquitectura GPT-4o, combinando razonamiento avanzado con acceso a información actualizada.

Resumen de benchmark Tokonomix
Sección 01

Puntuaciones de calidad

Resultados de evaluación de modelos juez en diversas categorías de tareas. Las puntuaciones reflejan coherencia, precisión y seguimiento de instrucciones.

100
Generación de código
97
Multilingüe
100
Razonamiento
Sección 02

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰
Tarifas API — gpt-4o-search-preview
$2.50 por 1M de tokens de entrada
$10.00 por 1M de tokens de salida
≈ $0.0035 por conversación típica (800 tokens)
Precio entrada vs salida (por 1M de tokens)
por 1M de tokens de entrada$2.50
por 1M de tokens de salida$10.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$2.50

input / 1M

— stable

$10.00

output / 1M

— stable

2026-05-242026-06-142026-06-14
Input
Output
Price change
⟳ synced weekly
Sección 03

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Búsqueda web en tiempo real integradaRazonamiento avanzado de GPT-4oInformación actualizada más allá del corteFact-checking con fuentes web actualesConsultas sobre eventos recientesPuede citar fuentes de información

Debilidades

Preview: capacidades en desarrolloMayor latencia por proceso de búsquedaCalidad de resultados depende de fuentes webContexto no documentado específicamente
Sección 04

Capacidades

toolssource: litellmvisionjson modepdf inputjson schemaparallel toolsprompt cachingmax output tokens: 16384
Sección 05

Preguntas frecuentes

El modelo realiza búsquedas web durante la generación de respuestas para incorporar información actual en sus respuestas.

La integración de búsqueda web elimina la barrera del conocimiento desactualizado, permitiendo respuestas factuales sobre eventos recientes.

Resumen de benchmark Tokonomix
Sección 06

Disponibilidad

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 07

Veredictos del benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-594/100 · 75 runs
68 correct6 partial1 wrong91% accuracy
2026-06-14

Quality rises to 97.3 with major capability expansion and latency reduction

GPT-4o Search Preview demonstrates measurable improvements across core metrics while adding significant new capabilities. Quality increased from 96.7 to 97.3, continuing an upward trend in performance consistency. Latency improved substantially, dropping from 4.93 seconds to 3.76 seconds, representing a 24% reduction that brings median response time well under 4 seconds. This makes the model considerably more responsive for interactive applications. The most notable development is the addition of seven new capabilities: tools, vision, JSON mode, PDF input, JSON schema, parallel tools, and prompt caching. These additions transform the model from a text-only interface into a multimodal system with structured output support and external tool integration. Vision and PDF input enable document and image analysis workflows, while the various JSON capabilities provide developers with reliable structured data extraction. Prompt caching should reduce costs for repeated operations. The capability expansion positions this model as a more versatile option for production applications requiring multimodal understanding, structured outputs, or tool integration. The simultaneous improvements in both quality and speed suggest successful optimization work alongside feature additions.

Quality

Latency p50

Test runs

0

Quality improved to 97.3 Latency reduced 24% to 3.76s Seven new capabilities added Vision and PDF support enabled
Sección 08

Perfil completo del modelo

gpt-4o-search-preview — illustration 1
gpt-4o-search-preview: chat con búsqueda aumentada de nivel completo

gpt-4o-search-preview es el modelo de chat con búsqueda aumentada de nivel completo de OpenAI. Misma arquitectura de herramienta de recuperación que gpt-4o-mini-search-preview, asentado sobre el núcleo de razonamiento más grande de GPT-4o. El contenido web se recupera en vivo como parte de la respuesta, las citas se devuelven en línea y el modelo decide cuándo buscar en función del prompt.

Esta es la opción fundamentada en búsqueda cuando la calidad de síntesis sobre el contenido recuperado importa más que la economía por solicitud que lleva a los equipos hacia mini-search.

Qué te ofrece la búsqueda de nivel completo

La diferencia entre mini-search y full-search no está en la recuperación. Ambos llaman al mismo backend de búsqueda, ambos ingieren el mismo contenido web, ambos devuelven el mismo formato de metadatos de citación. La diferencia está en lo que el modelo hace con el contenido recuperado.

Donde la búsqueda de nivel completo toma ventaja:

  • Calidad de síntesis sobre fuentes técnicas extensas. El modelo puede leer un artículo de múltiples páginas y producir un resumen limpio que integra el razonamiento de la fuente en lugar de extraer pasajes.
  • Razonamiento a través de múltiples fuentes. Cuando la búsqueda devuelve información contradictoria de diferentes fuentes, el modelo de nivel completo es más confiable al ponderarlas y producir una respuesta coherente que reconoce el conflicto.
  • Estrategia de consulta. El modelo decide cuándo buscar, cómo formular la consulta y si emitir consultas de seguimiento basándose en lo que devolvió la primera búsqueda. El juicio de nivel completo es más confiable en casos extremos.
  • Recuperación de resultados de búsqueda pobres. Cuando la primera búsqueda devuelve fuentes débiles, el nivel completo es más probable que reformule la consulta en lugar de sintetizar desde una entrada inadecuada.

Para cargas de trabajo donde el contenido buscado es la sustancia de la respuesta en lugar de una verificación de frescura sobre el conocimiento de pre-entrenamiento, el nivel completo es la elección correcta.

Dónde encaja bien

Cargas de trabajo que le sientan bien.

Q&A adyacente a investigación donde los usuarios esperan respuestas sustanciales fundamentadas en fuentes actuales en lugar de búsquedas rápidas. Herramientas de conocimiento interno que mezclan búsqueda en web pública con RAG privado y necesitan síntesis cuidadosa a través de ambos. Asistentes expertos de dominio en campos donde la información pública actual importa: políticas, regulaciones, movimientos de mercado, monitoreo del panorama tecnológico.

Tareas de síntesis de formato largo donde el modelo necesita ingerir múltiples fuentes recuperadas y producir una respuesta coherente de múltiples párrafos. El nivel completo mantiene la calidad a lo largo de la síntesis de maneras que la variante mini no hace.

Consultas de menor volumen y mayor valor donde el costo por solicitud no es la restricción dominante y la calidad de la respuesta es el diferenciador.

Dónde falla

Cargas de trabajo de investigación pesada. Para síntesis de formato largo a través de muchas fuentes con investigación de seguimiento autónoma, los modelos de línea de investigación de OpenAI y proveedores competidores están construidos específicamente y vale la pena compararlos — ver /benchmarks/methodology para el mapa del campo.

Conocimiento privado de dominio. La herramienta de búsqueda indexa la web pública. Los documentos privados necesitan tu propia canalización RAG.

Q&A de alto volumen a escala de consumidor. Mini-search es el nivel de costo correcto para esa carga de trabajo, aceptando el compromiso de calidad de síntesis.

Uso interactivo crítico de latencia. La búsqueda añade viajes de ida y vuelta. Incluso las respuestas con búsqueda aumentada de nivel completo son más lentas que las respuestas puramente generadas. Para interfaces donde la velocidad de escritura importa, pondera el costo de latencia contra el beneficio de frescura.

Estabilidad contractual de grado de producción. Etiquetado como preview. Fija la instantánea fechada para predictibilidad de comportamiento.

Cuándo recurrir a él

Elige gpt-4o-search-preview cuando:

  • Necesitas respuestas fundamentadas en búsqueda y la calidad de síntesis sobre el contenido recuperado es el diferenciador para tu producto.
  • La mezcla de consultas es de volumen moderado, mayor valor, donde el costo por solicitud no es la restricción dominante.
  • El comportamiento de citación y la calidad de selección de fuentes importan como características visibles del producto.

Omítelo cuando:

  • Alto volumen, Q&A de menor margen es la carga de trabajo — mini-search es el nivel de costo correcto.
  • La investigación autónoma de formato largo es la tarea — escala a un modelo de línea de investigación.
  • El conocimiento que necesitas es privado en lugar de web pública — construye una canalización RAG específica de dominio.
  • El despliegue requiere operación on-premises — ver /usecases/local.

Alternativas que vale la pena comparar

Mini-search cuando el costo por consulta importa más que la calidad de síntesis. Los modelos de línea de investigación cuando la tarea cruza de "responder con citas" a "producir un informe investigado". Modelos de chat estándar sin búsqueda cuando la frescura no es realmente requerida. El estudio más amplio de modelos de recuperación en /usecases/content cubre cargas de trabajo de generación de contenido donde la fundamentación en búsqueda ayuda.

Notas de despliegue

API estándar de Chat Completions. La herramienta de búsqueda se invoca automáticamente según el prompt — no hay definición de herramienta del lado del cliente que pasar en la solicitud. Los metadatos de citación se devuelven en un campo estructurado junto con la salida de texto del modelo.

La facturación de tokens divide texto de entrada, texto de salida y tarifas por llamada de búsqueda. La tarifa por llamada de búsqueda es la nueva partida significativa versus los modelos de chat estándar. Los modelos de búsqueda de nivel completo desencadenan búsquedas más reflexivamente que mini-search en promedio, lo que puede traducirse en menos llamadas de búsqueda por respuesta en prompts equivalentes — pero las tasas de texto por token son más altas, por lo que la economía total por respuesta depende de la mezcla de consultas.

La lectura pragmática. La búsqueda de nivel completo es el modelo correcto cuando la síntesis sobre contenido recuperado impulsa el producto, y el modelo equivocado cuando la economía de alto volumen o la profundidad de investigación autónoma es el requisito real. Pruébalo contra tu mezcla de consultas real en /live-test.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

gpt-4o-search-preview — illustration 2
Última prueba automática
14 jun 2026 · 05:00 UTC · Benchmark
Latencia P50
2930 ms
Latencia P95
Errores
0 / 6 ejecuciones
Última revisión por Equipo Tokonomix·26 de mayo de 2026