¿Puede distinguir fuentes fiables de no fiables?

El modelo puede evaluar la credibilidad de fuentes, pero siempre se recomienda verificación humana de información crítica.

¿Cómo afecta la búsqueda a la latencia?

La búsqueda añade entre 1-3 segundos al tiempo de respuesta típico; es el costo del acceso a información actualizada.

¿Se puede desactivar la búsqueda web?

Depende de la configuración de la API; consulta la documentación de OpenAI para parámetros de control de búsqueda.

Tier C — Especialista

Se ejecuta en:USCreado en:United States

OpenAI

gpt-5-search-api

Tier C — Especialista

Equipo editorial Tokonomix·Revisado por Mes Kalkan·Publicado 22 de mayo de 2026·Última revisión 26 de mayo de 2026

GPT-5-Search-API es un modelo de lenguaje desarrollado por OpenAI que integra capacidades estándar de generación de texto con funcionalidad de búsqueda. Este modelo representa una evolución en el enfoque de OpenAI hacia la recuperación y síntesis de información, diseñado para combinar las habilidades de razonamiento de los grandes modelos de lenguaje con el acceso a información actualizada mediante mecanismos de búsqueda integrados. El modelo está orientado a tareas que requieren tanto comprensión del lenguaje como la capacidad de consultar o recuperar información externa. Las especificaciones técnicas de GPT-5-Search-API incluyen capacidades estándar de generación de texto, aunque OpenAI no ha divulgado públicamente parámetros detallados como el tamaño del modelo y la composición de los datos de entrenamiento. La longitud de la ventana de contexto no se especifica en la documentación disponible. La característica distintiva del modelo es su integración de búsqueda, lo que lo diferencia de los modelos puros de generación de texto al habilitar flujos de trabajo de recuperación de información dentro del proceso de generación. Dentro de la gama de modelos de OpenAI, GPT-5-Search-API ocupa un nicho especializado centrado en tareas de generación aumentada con búsqueda. Se sitúa junto a otras variantes de GPT-5 que pueden ofrecer distintos perfiles de capacidades u objetivos de optimización. El modelo es adecuado para aplicaciones que requieren recuperación de información factual, asistencia en investigación, respuesta a preguntas con datos actuales y otros casos de uso en los que combinar generación de lenguaje con funcionalidad de búsqueda aporta valor. Se dirige a desarrolladores y organizaciones que construyen aplicaciones que se benefician de modelos capaces tanto de generar texto coherente como de acceder a información más allá de sus datos de entrenamiento.

GPT-5 Search API combina las capacidades de razonamiento avanzado de GPT-5 con acceso a búsqueda web, ofreciendo respuestas informadas con datos actuales.
— Resumen de benchmark Tokonomix

Sección 01

Puntuaciones de calidad

Resultados de evaluación de modelos juez en diversas categorías de tareas. Las puntuaciones reflejan coherencia, precisión y seguimiento de instrucciones.

Creativo

Factual

100

Multilingüe

Razonamiento

Sección 02

Historial de precios

Tarifas directas del proveedor por millón de tokens, más una estimación del coste de una conversación típica.

💰

Tarifas API — gpt-5-search-api

$1.25 por 1M de tokens de entrada

$10.00 por 1M de tokens de salida

≈ $0.0028 por conversación típica (800 tokens)

Precio entrada vs salida (por 1M de tokens)

por 1M de tokens de entrada$1.25

por 1M de tokens de salida$10.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$1.25

input / 1M

— stable

$10.00

output / 1M

— stable

2026-05-242026-06-212026-07-26

Input

Output

Price change

⟳ synced weekly

Sección 03

Fortalezas & debilidades

Basado en resultados de benchmarks y comentarios agregados de la comunidad sobre casos de uso reales.

Fortalezas

Búsqueda web integrada con GPT-5Razonamiento avanzado sobre resultadosInformación actualizada en tiempo realSíntesis con citas de fuentesAnálisis de información recienteConsultas sobre noticias y eventos actuales

Debilidades

Mayor latencia por búsqueda webContexto no documentadoDependiente de la calidad de fuentes webCosto mayor por incluir búsqueda

Sección 04

Capacidades

toolssource: litellmvisionjson modepdf inputjson schemaparallel toolsprompt cachingmax output tokens: 128000

Sección 05

Preguntas frecuentes

Preguntas sobre eventos posteriores al corte de entrenamiento, información de mercado actualizada y fact-checking en tiempo real.

La combinación de razonamiento GPT-5 con búsqueda en tiempo real representa el estado del arte en asistentes de información actualizados.
— Resumen de benchmark Tokonomix

Sección 06

Disponibilidad

Sin datos todavía

Aún no hemos registrado suficientes llamadas a la API para mostrar estadísticas de disponibilidad de este modelo. Los datos aparecen una vez que el modelo comienza a recibir tráfico en vivo.

Sección 07

Veredictos del benchmark Tokonomix

⚖️

Endorsed by 2 judges

Independent LLM judges evaluated this model on our weekly intelligence tests

cohere/command-a100/100 · 1 runs

1 correct0 partial0 wrong100% accuracy

claude-sonnet-4-596/100 · 111 runs

105 correct3 partial3 wrong95% accuracy

● 2026-07-26

Quality drops sharply as factual performance degrades significantly

GPT-5-search-api experienced a substantial quality regression in this benchmark window, with overall scores declining from 97.7 to 80.3 points. The most dramatic shift occurred in factual accuracy, where the model scored just 25 points, suggesting severe degradation in its core search and retrieval capabilities. This decline is particularly concerning given the model's search-focused positioning. Latency also worsened considerably, increasing 75% from 4067ms to 7127ms at the median, which may impact user experience in time-sensitive applications. Despite these setbacks, the model maintained exceptional performance in several areas. Creative tasks scored 98 points, matching the previous window's performance. Multilingual capabilities improved from 95 to a perfect 100, indicating strengthened language handling. Reasoning tasks also performed well at 98 points, though this represents a new category without historical comparison. The contrast between near-perfect scores in creative, multilingual, and reasoning tasks versus the critical failure in factual performance suggests a significant issue with the model's information retrieval or accuracy systems. Users relying on this model for fact-based search queries should exercise caution and verification until these issues are addressed.

Quality

80.3

Latency p50

7,127 ms

Test runs

✗ Quality dropped 17.4 points✗ Factual accuracy severely degraded✗ Latency increased 75%✓ Multilingual reached perfect score

Sección 08

Perfil completo del modelo

GPT-5 Search API: GPT-5 con grounding web cableado

GPT-5 Search API es la variante con grounding de búsqueda de la línea GPT-5. El modelo recupera información de fuentes web actuales antes de generar una respuesta y, a continuación, sintetiza el contenido recuperado en una respuesta. El argumento de venta es el evidente: en lugar de inventar acerca de eventos posteriores al corte de entrenamiento, el modelo los consulta. Los compromisos también son evidentes, y son los que determinan dónde encaja realmente este endpoint en un stack de producción.

Qué resuelve y qué no resuelve la capa de búsqueda

El problema de alucinación en la línea base de GPT-5 se concentra en dos puntos: temas de nicho donde los datos de entrenamiento son escasos, y eventos actuales posteriores al corte de entrenamiento. El grounding de búsqueda aborda el segundo más que el primero. Cuando el modelo recupera un artículo actual sobre un evento reciente antes de generar, la respuesta queda anclada en texto real en lugar de en una fabricación confiada.

Lo que la capa no resuelve es la brecha entre recuperación y síntesis. El modelo todavía tiene que elegir qué recuperar, juzgar qué fuentes son fiables y sintetizar entre fuentes a veces contradictorias. Cada uno de esos pasos puede fallar. Consultas de recuperación deficientes devuelven fuentes irrelevantes. El ranking de fuentes puede promocionar páginas poco fiables. La síntesis puede mezclar hechos correctos de una fuente con contexto alucinado que los enlaza entre sí.

El efecto práctico es que Search API cambia una clase de error (alucinación por corte de entrenamiento) por otra clase distinta (fallos de recuperación y síntesis). Si ese intercambio es bueno depende de la carga de trabajo. Para consultas sobre eventos actuales la respuesta suele ser que sí. Para consultas sobre conocimiento estático la respuesta es a menudo que no: es mejor consultar al modelo base y aceptar el corte que introducir los modos de fallo de la recuperación.

Dónde encaja realmente Search API

Los casos claros son consultas donde la respuesta depende de información reciente. Preguntas relacionadas con noticias. Precios y disponibilidad actuales. Lanzamientos de software recientes. Cambios regulatorios recientes. Cualquier cosa donde la respuesta correcta no fuera conocible en el momento del entrenamiento.

El segundo caso son consultas donde la respuesta requiere citar fuentes. Algunas aplicaciones aguas abajo necesitan mostrar al usuario de dónde proviene la información: flujos de trabajo de verificación de hechos, herramientas periodísticas, asistentes de investigación. Search API puede devolver citas junto con la respuesta sintetizada, algo que la línea base de GPT-5 no puede.

El tercer caso son consultas que se benefician del grounding incluso cuando el conocimiento subyacente está en los datos de entrenamiento. Pedir al modelo que "busque" la respuesta en lugar de recordarla puede reducir la alucinación en temas de nicho, porque el modelo se ve obligado a reconciliar su generación con texto recuperado en lugar de apoyarse únicamente en la memoria paramétrica.

Bajo el capó

GPT-5 Search API es el decoder transformer de GPT-5 emparejado con una capa de búsqueda y recuperación. El sistema de recuperación consulta la web, clasifica los resultados y suministra las principales fuentes como contexto al modelo junto con la consulta del usuario. El modelo genera entonces una respuesta que integra el contenido recuperado.

El modelo en sí es la generación GPT-5, con la tokenización BPE estándar de GPT-5. La ventana de contexto incluye tanto el prompt del usuario como el contenido recuperado, lo que significa que las fuentes recuperadas consumen parte del presupuesto disponible: para consultas que recuperan muchas fuentes, el margen del modelo para razonar es proporcionalmente menor.

OpenAI no ha publicado el pipeline de recuperación exacto, el algoritmo de ranking ni los criterios de selección de fuentes. El sistema de recuperación forma parte de la infraestructura de OpenAI y no es configurable por separado.

Dónde se sitúa hoy

Para consultas sobre eventos actuales y flujos de trabajo que requieren citas, la oferta Search API produce respuestas significativamente mejores que la línea base de GPT-5. La recuperación ancla la generación en fuentes reales.

Para consultas sobre conocimiento estático el valor añadido es menor y, en ocasiones, negativo. El modelo GPT-5 base ya conoce la mayor parte de lo que está en fuentes bien documentadas, y el paso de recuperación puede introducir errores procedentes de fuentes pobres o de decisiones de ranking deficientes.

El intelligence leaderboard realiza el seguimiento de la posición comparativa; Search API se encuentra en una categoría aparte porque el perfil de la carga de trabajo difiere significativamente de la generación sin grounding.

Dónde están los límites

La calidad de la recuperación es el cuello de botella. El sistema recupera lo que recupera; tú no controlas qué fuentes son clasificadas en lo alto del ranking. Páginas con puntuaciones SEO altas pueden situarse por encima de fuentes más autorizadas. Contenido reciente optimizado para SEO y generado por IA a veces desplaza al reportaje original.

La fiabilidad de las fuentes no siempre se gestiona bien. El modelo trata el contenido recuperado como entrada, lo que significa que la desinformación bien formateada puede ser citada con la misma autoridad que el contenido preciso bien formateado. El modelo no siempre señala las preocupaciones sobre la fiabilidad de las fuentes.

La latencia es mayor que la del modelo base sin grounding. Cada consulta implica recuperación más generación, y el viaje de ida y vuelta de la recuperación añade un tiempo perceptible. Para cargas de trabajo interactivas esto importa.

El coste es mayor que el de la base sin grounding. Estás pagando por la infraestructura de recuperación más la ventana de contexto ampliada que incluye las fuentes recuperadas.

El corte de recuperación no elimina la alucinación. El modelo todavía puede inventar dentro del paso de síntesis, especialmente cuando las fuentes recuperadas son escasas o contradictorias.

Cuándo recurrir a ella

Usa Search API para consultas sobre eventos actuales donde la respuesta correcta depende de información reciente que no está en los datos de entrenamiento.

Úsala para flujos de trabajo que necesitan citar fuentes junto con las respuestas: investigación, periodismo, verificación de hechos.

Úsala para consultas sobre temas de nicho donde las respuestas ancladas por recuperación tienden a ser más fiables que el recuerdo paramétrico, incluso cuando el tema estaba cubierto en los datos de entrenamiento.

Para flujos de contenido que implican resumir noticias actuales o desarrollos recientes, el grounding es una ventaja real. Para extracción de datos donde los documentos fuente son las propias entradas del usuario en lugar de contenido web recuperado, utiliza en su lugar la línea base de GPT-5.

Cuándo la base es la elección correcta

Sáltate Search API para consultas sobre conocimiento estático donde los datos de entrenamiento son suficientes y el paso de recuperación añade latencia, coste y superficie de error sin aportar valor.

Sáltatela para flujos de trabajo donde tú controlas los documentos fuente: sistemas RAG internos con tu propia base de conocimiento. Construye tú mismo el pipeline de recuperación contra el modelo base y obtendrás un mejor control sobre la selección de fuentes.

Sáltatela para aplicaciones interactivas sensibles a la latencia donde el viaje de ida y vuelta de la recuperación es inaceptable.

Alternativas

Para cargas de trabajo que necesitan generación anclada por búsqueda con más control sobre la capa de recuperación, construir tu propio pipeline RAG contra la línea base de GPT-5 te da un mejor control sobre la selección y el ranking de fuentes. El compromiso es la sobrecarga operativa.

Para cargas de trabajo donde la generación anclada por citas importa y deseas un proveedor distinto, existen ofertas similares con grounding de búsqueda de otros proveedores frontera con calidades de recuperación variables. Pruébalas sobre tu distribución específica de consultas.

Para cargas de trabajo que pueden tolerar el límite del corte de entrenamiento en el conocimiento, la línea base de GPT-5 en la generación relevante suele ser más barata, más rápida y más predecible.

Última revisión técnica: 2026-05-22 — Tokonomix.ai

Última prueba automática

26 jul 2026 · 05:37 UTC · Benchmark

Latencia P50

3713 ms

Latencia P95

—

Errores

0 / 6 ejecuciones

Última revisión por Equipo Tokonomix·26 de mayo de 2026