Aller au contenu
Fonctionne en :USCréé en :United States
OpenAI

gpt-4o-mini-search-preview-2025-03-11

Équipe éditoriale Tokonomix·Relu par Mes Kalkan··

gpt-4o-mini-search-preview-2025-03-11 est une variante du modèle GPT-4o mini d'OpenAI, représentant une option économique dans la gamme de modèles de langage de l'entreprise. Faisant partie de la famille GPT-4o, il s'appuie sur l'architecture multimodale d'OpenAI tout en étant optimisé pour les scénarios où une latence réduite et une charge computationnelle moindre sont prioritaires. Cette version preview inclut une fonctionnalité de recherche, suggérant une intégration avec des capacités de récupération d'informations externes pour enrichir les réponses avec des données actuelles ou factuelles au-delà de la date limite d'entraînement du modèle. Le modèle est conçu pour les tâches standard de génération de texte, prenant en charge des applications telles que les agents conversationnels, la création de contenu, la synthèse et les réponses aux questions générales. La désignation search preview indique que cette variante est en phase de test ou d'accès anticipé, permettant aux développeurs d'expérimenter avec des modèles de génération augmentée par recherche. Bien que la taille exacte de la fenêtre de contexte n'ait pas été spécifiée publiquement, les modèles de la famille GPT-4o mini offrent généralement une capacité de contexte suffisante pour la plupart des cas d'usage courants tout en maintenant des temps de réponse plus rapides comparés aux modèles plus volumineux de la série GPT-4. Dans la hiérarchie des modèles d'OpenAI, gpt-4o-mini-search-preview-2025-03-11 se situe en dessous des modèles GPT-4o complet et GPT-4 en termes de capacité et d'échelle, mais offre des avantages en termes de vitesse et d'efficacité. Il sert les utilisateurs qui ont besoin d'une compréhension et génération linguistique fiables sans nécessiter les capacités de raisonnement les plus avancées des modèles phares, particulièrement dans les applications où l'accès à des informations en temps réel via l'intégration de recherche apporte une valeur significative.

GPT-4o-mini-search-preview intègre la recherche web dans le format compact mini pour des réponses facttuelles actualisées.

Synthèse benchmark Tokonomix
Section 01

Scores de qualité

Résultats d'évaluation issus des notations du modèle juge sur diverses catégories de tâches. Les scores reflètent la cohérence, la précision et le suivi des instructions.

100
Génération de code
90
Multilingue
100
Raisonnement
Section 02

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰
Tarifs API — gpt-4o-mini-search-preview-2025-03-11
$0.1500 par 1M de tokens d'entrée
$0.6000 par 1M de tokens de sortie
≈ $0.0002 par conversation typique (800 tokens)
Prix entrée vs sortie (par 1M de tokens)
par 1M de tokens d'entrée$0.1500
par 1M de tokens de sortie$0.6000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1500

input / 1M

— stable

$0.6000

output / 1M

— stable

2026-05-242026-06-142026-06-14
Input
Output
Price change
⟳ synced weekly
Section 03

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Accès web temps réelFormat mini efficaceInformations actualiséesCoût inférieur au search completIntégration pipeline aisée

Faiblesses

Statut previewLatence accrue par recherche webRaisonnement mini plus limitéFonctionnalités en évolution
Section 04

Capacités

toolssource: litellmvisionjson modepdf inputjson schemaparallel toolsprompt cachingmax output tokens: 16384
Section 05

Questions fréquentes

Oui, combiner la légèreté mini et l accès web en fait une solution efficace pour des systèmes de FAQ nécessitant des données récentes.

L accès aux informations web actualisées dans un modèle efficient pour les développeurs soucieux des ressources.

Synthèse benchmark Tokonomix
Section 06

Disponibilité

Disponibilité

Pas encore de données

Nous n'avons pas encore enregistré suffisamment d'appels API pour afficher les statistiques de disponibilité de ce modèle. Les données apparaîtront dès que le modèle reçoit du trafic en direct.

Section 07

Verdicts benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-592/100 · 75 runs
61 correct13 partial1 wrong81% accuracy
2026-06-14

Major capability expansion with tools and vision support added

This model version represents a significant evolution with the addition of multiple new capabilities including tools, vision, JSON mode, PDF input, JSON schema, parallel tools, and prompt caching. These additions transform the model from a text-only system into a multimodal platform with enhanced integration options. The expanded capability set enables developers to build more sophisticated applications with structured outputs, visual understanding, and efficient caching mechanisms. The introduction of tool calling and parallel tool execution particularly extends the model's utility for agentic workflows and complex task orchestration. Vision support adds multimodal understanding that was previously unavailable. JSON schema and JSON mode provide better control over structured outputs, while PDF input expands document processing capabilities. Prompt caching offers potential performance and cost optimizations for repeated queries. However, without performance metrics from the current benchmark window, it's unclear how these new features impact baseline text generation quality, latency, or accuracy. Users should evaluate whether the expanded capabilities meet their specific use cases while monitoring for any trade-offs in core text generation performance that may accompany this broader feature set.

Quality

Latency p50

Test runs

0

Tools and parallel execution added Vision capability now supported JSON schema and mode available Prompt caching enabled
Section 08

Profil complet du modèle

gpt-4o-mini-search-preview-2025-03-11 — illustration 1
gpt-4o-mini-search-preview-2025-03-11 : l'épinglage mini-search de mars

gpt-4o-mini-search-preview-2025-03-11 est l'instantané daté de mars 2025 du petit modèle de chat à recherche augmentée d'OpenAI. Même architecture d'outil de récupération que l'alias glissant, figée à ce point de publication afin que les déploiements en production puissent s'épingler sur un comportement connu.

Les réponses ancrées dans la recherche sont particulièrement sensibles à la dérive de version du modèle. Épingler un instantané, c'est ce qui maintient prévisibles le comportement de citation, les stratégies de requêtes et le style de synthèse, pendant qu'OpenAI continue d'itérer sur la ligne preview.

Ce que représente cet instantané

En mars 2025, la preview mini-search avait :

  • Stabilisé le format des métadonnées de citation que l'alias glissant utilise toujours.
  • Fixé la structure de facturation par appel de recherche.
  • Résolu les régressions de construction de requêtes les plus perturbatrices des premières publications de la preview.

Ce qu'il n'a pas, par rapport aux instantanés ultérieurs :

  • La réécriture de requêtes améliorée arrivée mi-2025 et qui a réduit le nombre d'appels de recherche par réponse.
  • Les raffinements du classement des citations qui ont promu plus agressivement les sources faisant autorité.
  • Les améliorations de latence issues des changements d'infrastructure backend au cours du T2 2025.

Pour les déploiements validés au printemps 2025, c'est très probablement l'instantané contre lequel la validation a été passée.

Pourquoi l'épinglage daté importe davantage pour les modèles de recherche

Le chat à recherche augmentée comporte plusieurs dimensions comportementales qui peuvent se déplacer entre instantanés, chacune visible dans le produit :

  • Le nombre d'appels de recherche par réponse — modifie le profil de latence et le coût par requête.
  • Le choix des sources à citer — affecte l'autorité perçue de la réponse.
  • Le style de synthèse pour combiner le contenu récupéré et les connaissances préentraînées — affecte la lecture de la réponse.
  • Le seuil à partir duquel le modèle décide de lancer une recherche plutôt que de répondre depuis son préentraînement — affecte la couverture de fraîcheur.

Un épinglage d'instantané fige tout cela en place. Rouler avec l'alias, c'est accepter que n'importe lequel de ces aspects puisse se déplacer le jour où OpenAI livre une nouvelle révision.

La question de la migration

Même forme que pour tout épinglage d'instantané daté.

  • Tenez l'épinglage de mars en production pendant l'évaluation.
  • Rejouez un ensemble représentatif de requêtes contre l'instantané candidat plus récent.
  • Comparez sur la qualité des citations, l'efficience des appels de recherche, la latence et le style de synthèse, en parallèle de l'exactitude brute des réponses.
  • Migrez lorsque le nouvel instantané l'emporte de manière démontrable sur les dimensions qui comptent pour votre produit.

L'argument pour quitter un épinglage stable est rarement « le nouveau est meilleur en moyenne ». L'argument, c'est « le nouveau est meilleur sur les choses spécifiques autour desquelles mon produit est construit ». Soyez honnête sur le cas dans lequel vous vous trouvez réellement.

Là où il décroche

Raisonnement lourd sur du contenu récupéré. Mini est le petit modèle. La preview de recherche complète est la bonne escalade lorsque la synthèse devient le goulot d'étranglement.

Connaissance privée à un domaine. L'outil de recherche indexe le contenu web public. La documentation interne nécessite un pipeline RAG distinct.

Usage interactif critique en latence. La recherche ajoute des allers-retours. Mini-search est plus rapide que la preview de recherche complète mais reste plus lent que des réponses purement générées.

Déploiement auto-hébergé. L'outil de recherche requiert l'infrastructure backend d'OpenAI. Le panorama /usecases/local couvre ce qui est disponible lorsque les contraintes on-premise s'imposent.

Quand épingler exactement cet instantané

Choisissez gpt-4o-mini-search-preview-2025-03-11 quand :

  • Vous avez livré une fonctionnalité ancrée dans la recherche sur le comportement mini-search de mars 2025 et devez la garder stable.
  • Le comportement de citation et la sélection des sources faisaient partie de ce qui a passé votre évaluation du printemps 2025.
  • Un test A/B ou un protocole de recherche a besoin d'une référence de modèle de recherche fixe sur plusieurs mois.

Passez votre chemin quand :

  • Vous démarrez à neuf — épinglez plutôt l'instantané le plus récent.
  • Les améliorations de réécriture de requêtes ou de latence des instantanés ultérieurs l'ont emporté dans votre évaluation.
  • La version stable définitive de la ligne à recherche augmentée est disponible — c'est la bonne cible pour les nouveaux projets.

Notes de déploiement

API Chat Completions standard. L'outil de recherche est invoqué automatiquement par le modèle en fonction du prompt ; la surface de l'API est inchangée par rapport aux modèles sans recherche, avec en plus des métadonnées de citation structurées dans la réponse.

La facturation par tokens distingue le texte en entrée, le texte en sortie et les frais par appel de recherche. Les frais par appel de recherche n'ont pas changé entre les instantanés mini-search jusqu'à présent, bien que la fréquence à laquelle le modèle déclenche des recherches puisse varier d'un instantané à l'autre, et donc le coût effectif par conversation également.

Le format des métadonnées de citation est stable entre cet instantané et les instantanés ultérieurs de 2025, ce qui permet de réutiliser le code de rendu d'interface utilisateur d'une migration à l'autre.

La lecture pragmatique. C'est le gel de mars 2025 de mini-search. Épinglez-le quand votre produit a été validé contre lui. Migrez quand votre propre évaluation dit que le nouvel instantané est le bon mouvement sur les dimensions qui comptent. Effectuez des comparaisons au niveau requête sur /live-test avant de vous engager.

Dernière revue technique : 2026-05-22 — Tokonomix.ai

gpt-4o-mini-search-preview-2025-03-11 — illustration 2
Dernier test automatisé
14 juin 2026 · 04:58 UTC · Benchmark
Latence P50
4627 ms
Latence P95
Erreurs
0 / 6 exécutions
Dernière revue par Équipe Tokonomix·26 mai 2026