¿Siempre busca en la web o solo cuando es necesario?

Busca cuando el modelo determina que la información actualizada mejora la respuesta; no en cada consulta.

¿Puede ver contenido detrás de muros de pago?

No, accede a contenido web públicamente disponible; no puede acceder a contenido que requiere suscripción o login.

¿Se pueden ver las fuentes usadas?

OpenAI puede incluir citas en las respuestas cuando usa búsqueda; la transparencia sobre fuentes está documentada en la API.

Tier C — Especialista

Se ejecuta en:USCreado en:United States

OpenAI

gpt-4o-search-preview

Tier C — Especialista

Equipo editorial Tokonomix·Revisado por Mes Kalkan·Publicado 22 de mayo de 2026·Última revisión 26 de mayo de 2026

GPT-4o-search-preview es un modelo de lenguaje desarrollado por OpenAI que integra capacidades de búsqueda web con generación de texto estándar. Este modelo representa una variante experimental en la familia GPT-4o, diseñada para mejorar la precisión factual y proporcionar información más actualizada mediante el acceso a datos web en tiempo real durante la inferencia. Es particularmente adecuado para tareas que requieren conocimiento actualizado, verificación de datos o referencias a eventos recientes que quedan fuera de la fecha de corte de los datos de entrenamiento del modelo. El modelo mantiene la arquitectura central de GPT-4o mientras incorpora funcionalidad de búsqueda que le permite recuperar y sintetizar información de internet al generar respuestas. Esta capacidad lo distingue del GPT-4o estándar, que se basa únicamente en conocimiento preentrenado. Las especificaciones de la ventana de contexto no han sido divulgadas públicamente, aunque se espera que admita longitudes de entrada sustanciales comparables a otros modelos de la serie GPT-4o. Como otras variantes de GPT-4o, maneja tareas de comprensión y generación multimodal, aunque su mejora principal radica en la generación de texto aumentada por búsqueda. Dentro de la línea de modelos de OpenAI, gpt-4o-search-preview ocupa una posición especializada como lanzamiento preliminar destinado a evaluación y retroalimentación. Complementa la oferta estándar de GPT-4o al abordar casos de uso donde la frescura de la información es crítica, como asistencia en investigación, resumen de noticias y consultas sobre eventos actuales. Como modelo preliminar, permite a desarrolladores e investigadores explorar el potencial de los modelos de lenguaje integrados con búsqueda antes de un despliegue más amplio.

GPT-4o Search Preview integra búsqueda web en tiempo real en la arquitectura GPT-4o, combinando razonamiento avanzado con acceso a información actualizada.
— Resumen de benchmark Tokonomix

Sección 01

Puntuaciones de calidad

Resultados de evaluación de modelos juez en diversas categorías de tareas. Las puntuaciones reflejan coherencia, precisión y seguimiento de instrucciones.

Creativo

Factual

100

Multilingüe

100

Razonamiento

Sección 02

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰

Tarifas API — gpt-4o-search-preview

$2.50 por 1M de tokens de entrada

$10.00 por 1M de tokens de salida

≈ $0.0035 por conversación típica (800 tokens)

Precio entrada vs salida (por 1M de tokens)

por 1M de tokens de entrada$2.50

por 1M de tokens de salida$10.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$2.50

input / 1M

— stable

$10.00

output / 1M

— stable

2026-05-242026-06-282026-07-26

Input

Output

Price change

⟳ synced weekly

Sección 03

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Búsqueda web en tiempo real integradaRazonamiento avanzado de GPT-4oInformación actualizada más allá del corteFact-checking con fuentes web actualesConsultas sobre eventos recientesPuede citar fuentes de información

Debilidades

Preview: capacidades en desarrolloMayor latencia por proceso de búsquedaCalidad de resultados depende de fuentes webContexto no documentado específicamente

Sección 04

Capacidades

toolssource: litellmvisionjson modepdf inputjson schemaparallel toolsprompt cachingmax output tokens: 16384

Sección 05

Preguntas frecuentes

El modelo realiza búsquedas web durante la generación de respuestas para incorporar información actual en sus respuestas.

La integración de búsqueda web elimina la barrera del conocimiento desactualizado, permitiendo respuestas factuales sobre eventos recientes.
— Resumen de benchmark Tokonomix

Sección 06

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 07

Veredictos del benchmark Tokonomix

⚖️

Endorsed by 2 judges

Independent LLM judges evaluated this model on our weekly intelligence tests

cohere/command-a100/100 · 1 runs

1 correct0 partial0 wrong100% accuracy

claude-sonnet-4-594/100 · 110 runs

97 correct11 partial2 wrong88% accuracy

● 2026-07-26

Quality decline with factual performance drop, latency improvement

GPT-4o-search-preview shows a notable quality regression in this benchmark window, dropping 12.4 points to an overall score of 86.5. The decline is primarily driven by a significant factual performance issue, scoring only 52 in that category compared to strong performance elsewhere. Creative, multilingual, and reasoning capabilities remain excellent at 94, 100, and 100 respectively, indicating the model maintains its strengths in these areas. The previous window's coding evaluation was not repeated in current testing, making direct comparison unavailable for that dimension. Latency improved by 18 percent, with the median response time decreasing from 3409ms to 2805ms. This represents a meaningful speed gain that users should notice in practice. The model continues to excel at multilingual tasks with perfect scores across both windows, suggesting robust language handling remains a core strength. The sharp factual performance drop is concerning and represents the most significant change in this evaluation period. Users relying on factual accuracy should exercise additional caution and verification. The model appears well-suited for creative and reasoning tasks but may require additional scrutiny for fact-based applications until this performance issue is addressed.

Quality

86.5

Latency p50

2,805 ms

Test runs

✗ Quality dropped 12.4 points✗ Factual score only 52✓ Latency improved 18%✓ Reasoning remains perfect

Sección 08

Perfil completo del modelo

gpt-4o-search-preview: chat con búsqueda aumentada de nivel completo

gpt-4o-search-preview es el modelo de chat con búsqueda aumentada de nivel completo de OpenAI. Misma arquitectura de herramienta de recuperación que gpt-4o-mini-search-preview, asentado sobre el núcleo de razonamiento más grande de GPT-4o. El contenido web se recupera en vivo como parte de la respuesta, las citas se devuelven en línea y el modelo decide cuándo buscar en función del prompt.

Esta es la opción fundamentada en búsqueda cuando la calidad de síntesis sobre el contenido recuperado importa más que la economía por solicitud que lleva a los equipos hacia mini-search.

Qué te ofrece la búsqueda de nivel completo

La diferencia entre mini-search y full-search no está en la recuperación. Ambos llaman al mismo backend de búsqueda, ambos ingieren el mismo contenido web, ambos devuelven el mismo formato de metadatos de citación. La diferencia está en lo que el modelo hace con el contenido recuperado.

Donde la búsqueda de nivel completo toma ventaja:

Calidad de síntesis sobre fuentes técnicas extensas. El modelo puede leer un artículo de múltiples páginas y producir un resumen limpio que integra el razonamiento de la fuente en lugar de extraer pasajes.
Razonamiento a través de múltiples fuentes. Cuando la búsqueda devuelve información contradictoria de diferentes fuentes, el modelo de nivel completo es más confiable al ponderarlas y producir una respuesta coherente que reconoce el conflicto.
Estrategia de consulta. El modelo decide cuándo buscar, cómo formular la consulta y si emitir consultas de seguimiento basándose en lo que devolvió la primera búsqueda. El juicio de nivel completo es más confiable en casos extremos.
Recuperación de resultados de búsqueda pobres. Cuando la primera búsqueda devuelve fuentes débiles, el nivel completo es más probable que reformule la consulta en lugar de sintetizar desde una entrada inadecuada.

Para cargas de trabajo donde el contenido buscado es la sustancia de la respuesta en lugar de una verificación de frescura sobre el conocimiento de pre-entrenamiento, el nivel completo es la elección correcta.

Dónde encaja bien

Cargas de trabajo que le sientan bien.

Q&A adyacente a investigación donde los usuarios esperan respuestas sustanciales fundamentadas en fuentes actuales en lugar de búsquedas rápidas. Herramientas de conocimiento interno que mezclan búsqueda en web pública con RAG privado y necesitan síntesis cuidadosa a través de ambos. Asistentes expertos de dominio en campos donde la información pública actual importa: políticas, regulaciones, movimientos de mercado, monitoreo del panorama tecnológico.

Tareas de síntesis de formato largo donde el modelo necesita ingerir múltiples fuentes recuperadas y producir una respuesta coherente de múltiples párrafos. El nivel completo mantiene la calidad a lo largo de la síntesis de maneras que la variante mini no hace.

Consultas de menor volumen y mayor valor donde el costo por solicitud no es la restricción dominante y la calidad de la respuesta es el diferenciador.

Dónde falla

Cargas de trabajo de investigación pesada. Para síntesis de formato largo a través de muchas fuentes con investigación de seguimiento autónoma, los modelos de línea de investigación de OpenAI y proveedores competidores están construidos específicamente y vale la pena compararlos — ver /benchmarks/methodology para el mapa del campo.

Conocimiento privado de dominio. La herramienta de búsqueda indexa la web pública. Los documentos privados necesitan tu propia canalización RAG.

Q&A de alto volumen a escala de consumidor. Mini-search es el nivel de costo correcto para esa carga de trabajo, aceptando el compromiso de calidad de síntesis.

Uso interactivo crítico de latencia. La búsqueda añade viajes de ida y vuelta. Incluso las respuestas con búsqueda aumentada de nivel completo son más lentas que las respuestas puramente generadas. Para interfaces donde la velocidad de escritura importa, pondera el costo de latencia contra el beneficio de frescura.

Estabilidad contractual de grado de producción. Etiquetado como preview. Fija la instantánea fechada para predictibilidad de comportamiento.

Cuándo recurrir a él

Elige gpt-4o-search-preview cuando:

Necesitas respuestas fundamentadas en búsqueda y la calidad de síntesis sobre el contenido recuperado es el diferenciador para tu producto.
La mezcla de consultas es de volumen moderado, mayor valor, donde el costo por solicitud no es la restricción dominante.
El comportamiento de citación y la calidad de selección de fuentes importan como características visibles del producto.

Omítelo cuando:

Alto volumen, Q&A de menor margen es la carga de trabajo — mini-search es el nivel de costo correcto.
La investigación autónoma de formato largo es la tarea — escala a un modelo de línea de investigación.
El conocimiento que necesitas es privado en lugar de web pública — construye una canalización RAG específica de dominio.
El despliegue requiere operación on-premises — ver /usecases/local.

Alternativas que vale la pena comparar

Mini-search cuando el costo por consulta importa más que la calidad de síntesis. Los modelos de línea de investigación cuando la tarea cruza de "responder con citas" a "producir un informe investigado". Modelos de chat estándar sin búsqueda cuando la frescura no es realmente requerida. El estudio más amplio de modelos de recuperación en /usecases/content cubre cargas de trabajo de generación de contenido donde la fundamentación en búsqueda ayuda.

Notas de despliegue

API estándar de Chat Completions. La herramienta de búsqueda se invoca automáticamente según el prompt — no hay definición de herramienta del lado del cliente que pasar en la solicitud. Los metadatos de citación se devuelven en un campo estructurado junto con la salida de texto del modelo.

La facturación de tokens divide texto de entrada, texto de salida y tarifas por llamada de búsqueda. La tarifa por llamada de búsqueda es la nueva partida significativa versus los modelos de chat estándar. Los modelos de búsqueda de nivel completo desencadenan búsquedas más reflexivamente que mini-search en promedio, lo que puede traducirse en menos llamadas de búsqueda por respuesta en prompts equivalentes — pero las tasas de texto por token son más altas, por lo que la economía total por respuesta depende de la mezcla de consultas.

La lectura pragmática. La búsqueda de nivel completo es el modelo correcto cuando la síntesis sobre contenido recuperado impulsa el producto, y el modelo equivocado cuando la economía de alto volumen o la profundidad de investigación autónoma es el requisito real. Pruébalo contra tu mezcla de consultas real en /live-test.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

Última prueba automática

26 jul 2026 · 05:33 UTC · Benchmark

Latencia P50

2032 ms

Latencia P95

—

Errores

0 / 6 ejecuciones

Última revisión por Equipo Tokonomix·26 de mayo de 2026