Aller au contenu
Tier C — Spécialiste
Fonctionne en :USCréé en :United States
OpenAI

gpt-4o-search-preview

Tier C — Spécialiste

Équipe éditoriale Tokonomix·Relu par Mes Kalkan··

GPT-4o-search-preview est un modèle de langage développé par OpenAI qui intègre des capacités de recherche web à la génération de texte standard. Ce modèle représente une variante expérimentale de la famille GPT-4o, conçue pour améliorer la précision factuelle et fournir des informations plus actuelles en accédant à des données web en temps réel durant l'inférence. Il est particulièrement adapté aux tâches nécessitant des connaissances à jour, la vérification de faits, ou des références à des événements récents qui se situent au-delà de la date limite des données d'entraînement du modèle. Le modèle conserve l'architecture centrale de GPT-4o tout en intégrant une fonctionnalité de recherche qui lui permet de récupérer et de synthétiser des informations depuis Internet lors de la génération de réponses. Cette capacité le distingue du GPT-4o standard, qui s'appuie uniquement sur des connaissances pré-entraînées. Les spécifications de la fenêtre de contexte n'ont pas été divulguées publiquement, bien qu'il soit attendu qu'il prenne en charge des longueurs d'entrée substantielles comparables à d'autres modèles de la série GPT-4o. Comme d'autres variantes GPT-4o, il gère des tâches de compréhension et de génération multimodales, bien que son amélioration principale réside dans la génération de texte augmentée par la recherche. Au sein de la gamme de modèles OpenAI, gpt-4o-search-preview occupe une position spécialisée en tant que version préliminaire destinée à l'évaluation et aux retours. Il complète l'offre GPT-4o standard en répondant aux cas d'usage où la fraîcheur de l'information est critique, tels que l'assistance à la recherche, la synthèse d'actualités, et les requêtes sur des événements actuels. En tant que modèle en préversion, il permet aux développeurs et chercheurs d'explorer le potentiel des modèles de langage intégrant la recherche avant un déploiement plus large.

GPT-4o-search-preview enrichit GPT-4o avec l accès à des informations web en temps réel pour des réponses factuelles actualisées.

Synthèse benchmark Tokonomix
Section 01

Scores de qualité

Résultats d'évaluation issus des notations du modèle juge sur diverses catégories de tâches. Les scores reflètent la cohérence, la précision et le suivi des instructions.

100
Génération de code
97
Multilingue
100
Raisonnement
Section 02

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰
Tarifs API — gpt-4o-search-preview
$2.50 par 1M de tokens d'entrée
$10.00 par 1M de tokens de sortie
≈ $0.0035 par conversation typique (800 tokens)
Prix entrée vs sortie (par 1M de tokens)
par 1M de tokens d'entrée$2.50
par 1M de tokens de sortie$10.00

Pricing over time

Input & output per 1M tokens · step-line = price changes

$2.50

input / 1M

— stable

$10.00

output / 1M

— stable

2026-05-242026-06-142026-06-14
Input
Output
Price change
⟳ synced weekly
Section 03

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Accès web en temps réelInformations actualiséesVérification factuelle amélioréeSynthèse de sources multiplesRaisonnement GPT-4o combiné à la recherche

Faiblesses

Statut preview, disponibilité limitéeFenêtre de contexte non documentéeLatence accrue par la recherche webFonctionnalités susceptibles d évoluer
Section 04

Capacités

toolssource: litellmvisionjson modepdf inputjson schemaparallel toolsprompt cachingmax output tokens: 16384
Section 05

Questions fréquentes

GPT-4o-search est une implémentation API permettant aux développeurs d intégrer les capacités de recherche web dans leurs applications.

Une fusion prometteuse entre LLM et moteur de recherche pour des réponses combinant raisonnement et actualité.

Synthèse benchmark Tokonomix
Section 06

Disponibilité

Disponibilité

Pas encore de données

Nous n'avons pas encore enregistré suffisamment d'appels API pour afficher les statistiques de disponibilité de ce modèle. Les données apparaîtront dès que le modèle reçoit du trafic en direct.

Section 07

Verdicts benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-594/100 · 75 runs
68 correct6 partial1 wrong91% accuracy
2026-06-14

Quality rises to 97.3 with major capability expansion and latency reduction

GPT-4o Search Preview demonstrates measurable improvements across core metrics while adding significant new capabilities. Quality increased from 96.7 to 97.3, continuing an upward trend in performance consistency. Latency improved substantially, dropping from 4.93 seconds to 3.76 seconds, representing a 24% reduction that brings median response time well under 4 seconds. This makes the model considerably more responsive for interactive applications. The most notable development is the addition of seven new capabilities: tools, vision, JSON mode, PDF input, JSON schema, parallel tools, and prompt caching. These additions transform the model from a text-only interface into a multimodal system with structured output support and external tool integration. Vision and PDF input enable document and image analysis workflows, while the various JSON capabilities provide developers with reliable structured data extraction. Prompt caching should reduce costs for repeated operations. The capability expansion positions this model as a more versatile option for production applications requiring multimodal understanding, structured outputs, or tool integration. The simultaneous improvements in both quality and speed suggest successful optimization work alongside feature additions.

Quality

Latency p50

Test runs

0

Quality improved to 97.3 Latency reduced 24% to 3.76s Seven new capabilities added Vision and PDF support enabled
Section 08

Profil complet du modèle

gpt-4o-search-preview — illustration 1
gpt-4o-search-preview : chat augmenté par recherche de niveau complet

gpt-4o-search-preview est le modèle de chat augmenté par recherche de niveau complet d'OpenAI. Même architecture d'outil de récupération que gpt-4o-mini-search-preview, reposant sur le noyau de raisonnement GPT-4o plus large. Le contenu web est récupéré en direct dans le cadre de la réponse, les citations sont retournées en ligne, et le modèle décide quand effectuer une recherche en fonction de l'invite.

Il s'agit de l'option fondée sur la recherche lorsque la qualité de synthèse du contenu récupéré importe davantage que l'économie par requête qui pousse les équipes vers mini-search.

Ce que vous apporte la recherche de niveau complet

La différence entre mini-search et full-search ne réside pas dans la récupération. Les deux appellent le même backend de recherche, les deux ingèrent le même contenu web, les deux retournent le même format de métadonnées de citation. La différence réside dans ce que le modèle fait du contenu récupéré.

Où la recherche de niveau complet prend l'avantage :

  • Qualité de synthèse sur des sources techniques longues. Le modèle peut lire un article de plusieurs pages et produire un résumé propre qui intègre le raisonnement de la source plutôt que d'extraire des passages.
  • Raisonnement à travers plusieurs sources. Lorsque la recherche retourne des informations contradictoires provenant de différentes sources, le modèle de niveau complet est plus fiable pour les peser et produire une réponse cohérente qui reconnaît le conflit.
  • Stratégie de requête. Le modèle décide quand rechercher, comment formuler la requête, et s'il faut émettre des requêtes de suivi en fonction de ce que la première recherche a retourné. Le jugement de niveau complet est plus fiable sur les cas limites.
  • Récupération après de mauvais résultats de recherche. Lorsque la première recherche retourne des sources faibles, le niveau complet est plus susceptible de reformuler la requête plutôt que de synthétiser à partir d'une entrée inadéquate.

Pour les charges de travail où le contenu recherché constitue la substance de la réponse plutôt qu'une vérification de fraîcheur par-dessus la connaissance de pré-entraînement, le niveau complet est le bon choix.

Où il excelle

Charges de travail qui lui conviennent.

Questions-réponses adjacentes à la recherche où les utilisateurs s'attendent à des réponses substantielles fondées sur des sources actuelles plutôt qu'à des recherches rapides. Outils de connaissance internes qui combinent la recherche sur le web public avec RAG privé et nécessitent une synthèse minutieuse des deux. Assistants experts de domaine dans des domaines où l'information publique actuelle compte — politique, réglementation, mouvements de marché, surveillance du paysage technologique.

Tâches de synthèse longue où le modèle doit ingérer plusieurs sources récupérées et produire une réponse cohérente de plusieurs paragraphes. Le niveau complet maintient la qualité à travers la synthèse d'une manière que la variante mini ne fait pas.

Requêtes à volume plus faible et à valeur plus élevée où le coût par requête n'est pas la contrainte dominante et où la qualité de la réponse est le différenciateur.

Où il échoue

Charges de travail de recherche intensive. Pour la synthèse longue à travers de nombreuses sources avec recherche de suivi autonome, les modèles de la ligne recherche d'OpenAI et des fournisseurs concurrents sont conçus spécifiquement et méritent d'être comparés — voir /benchmarks/methodology pour la cartographie du domaine.

Connaissance privée du domaine. L'outil de recherche indexe le web public. Les documents privés nécessitent votre propre pipeline RAG.

Questions-réponses à volume élevé à l'échelle grand public. Mini-search est le bon niveau de coût pour cette charge de travail, en acceptant le compromis de qualité de synthèse.

Utilisation interactive critique en latence. La recherche ajoute des allers-retours. Même les réponses augmentées par recherche de niveau complet sont plus lentes que les réponses purement générées. Pour les interfaces où la vitesse de frappe compte, pesez le coût de latence contre le bénéfice de fraîcheur.

Stabilité de contrat de qualité production. Étiqueté preview. Épinglez l'instantané daté pour la prévisibilité comportementale.

Quand l'utiliser

Choisissez gpt-4o-search-preview lorsque :

  • Vous avez besoin de réponses fondées sur la recherche et la qualité de synthèse du contenu récupéré est le différenciateur pour votre produit.
  • Le mélange de requêtes est à volume modéré, à valeur plus élevée, où le coût par requête n'est pas la contrainte dominante.
  • Le comportement de citation et la qualité de sélection des sources comptent comme caractéristiques visibles du produit.

Évitez-le lorsque :

  • Les questions-réponses à volume élevé et à marge plus faible constituent la charge de travail — mini-search est le bon niveau de coût.
  • La recherche autonome longue est la tâche — escaladez vers un modèle de ligne recherche.
  • La connaissance dont vous avez besoin est privée plutôt que sur le web public — construisez un pipeline RAG spécifique au domaine.
  • Le déploiement nécessite une opération sur site — voir /usecases/local.

Alternatives dignes de comparaison

Mini-search lorsque le coût par requête importe davantage que la qualité de synthèse. Les modèles de ligne recherche lorsque la tâche passe de « répondre avec citations » à « produire un rapport recherché ». Les modèles de chat standard sans recherche lorsque la fraîcheur n'est pas réellement requise. L'enquête plus large sur les modèles de récupération sur /usecases/content couvre les charges de travail de génération de contenu où le fondement de recherche aide.

Notes de déploiement

API Chat Completions standard. L'outil de recherche est invoqué automatiquement en fonction de l'invite — il n'y a pas de définition d'outil côté client à passer dans la requête. Les métadonnées de citation sont retournées dans un champ structuré à côté de la sortie texte du modèle.

La facturation par jeton divise texte en entrée, texte en sortie, et frais par appel de recherche. Les frais par appel de recherche constituent le nouveau poste budgétaire significatif par rapport aux modèles de chat standard. Les modèles de recherche de niveau complet déclenchent des recherches de manière plus réfléchie que mini-search en moyenne, ce qui peut se traduire par moins d'appels de recherche par réponse sur des invites équivalentes — mais les tarifs par jeton de texte sont plus élevés, donc l'économie totale par réponse dépend du mélange de requêtes.

La lecture pragmatique. La recherche de niveau complet est le bon modèle lorsque la synthèse du contenu récupéré pilote le produit, et le mauvais modèle lorsque l'économie à volume élevé ou la profondeur de recherche autonome est l'exigence réelle. Essayez-le avec votre mélange de requêtes réel sur /live-test.

Dernière revue technique : 2026-05-22 — Tokonomix.ai

gpt-4o-search-preview — illustration 2
Dernier test automatisé
14 juin 2026 · 05:00 UTC · Benchmark
Latence P50
2930 ms
Latence P95
Erreurs
0 / 6 exécutions
Dernière revue par Équipe Tokonomix·26 mai 2026