Aller au contenu
Tier C — Spécialiste
Fonctionne en :USCréé en :United States
OpenAI

gpt-4o-mini-search-preview

Tier C — Spécialiste

Équipe éditoriale Tokonomix·Relu par Mes Kalkan··

GPT-4o Mini Search Preview est un modèle de langage compact développé par OpenAI qui combine des capacités standard de génération de texte avec des fonctionnalités expérimentales améliorées par la recherche. Ce modèle représente une variante de la série GPT-4o Mini d'OpenAI, conçue pour explorer l'intégration entre la compréhension du langage et les fonctionnalités de recherche d'information. Il traite des entrées en langage naturel et génère des sorties textuelles tout en testant des mécanismes permettant d'ancrer les réponses dans des sources d'information externes. Le modèle conserve les caractéristiques architecturales fondamentales de la famille GPT-4o Mini, offrant la génération de texte pour diverses tâches incluant la conversation, la création de contenu, la synthèse et les réponses aux questions. En tant que version « preview », il sert de terrain d'essai pour les approches de génération augmentée par la recherche, permettant aux développeurs d'expérimenter avec des modèles pouvant potentiellement référencer et incorporer des informations en temps réel ou externes. La taille de la fenêtre de contexte n'a pas été spécifiée publiquement, bien qu'elle s'aligne probablement sur les configurations standard des modèles compacts d'OpenAI. Au sein de la gamme de modèles d'OpenAI, GPT-4o Mini Search Preview occupe une position de variante expérimentale du modèle de base GPT-4o Mini. Il se situe en dessous des modèles complets GPT-4o et GPT-4 en termes de ressources de calcul et d'étendue des capacités, tout en offrant une option plus accessible pour les applications où une latence réduite et des besoins en ressources moindres sont prioritaires. La désignation « preview » indique qu'il s'agit d'une version de développement destinée aux tests précoces plutôt qu'au déploiement en production à grande échelle.

GPT-4o Mini Search Preview se positionne comme un terrain d'expérimentation où OpenAI teste l'intégration de capacités de recherche augmentée dans un modèle compact, offrant un aperçu des futures architectures hybrides.

Analyse Tokonomix des modèles expérimentaux
Section 01

Scores de qualité

Résultats d'évaluation issus des notations du modèle juge sur diverses catégories de tâches. Les scores reflètent la cohérence, la précision et le suivi des instructions.

100
Génération de code
99
Multilingue
100
Raisonnement
Section 02

Historique des tarifs

Tarifs directs du fournisseur par million de tokens, plus une estimation du coût d'une conversation typique.

💰
Tarifs API — gpt-4o-mini-search-preview
$0.1500 par 1M de tokens d'entrée
$0.6000 par 1M de tokens de sortie
≈ $0.0002 par conversation typique (800 tokens)
Prix entrée vs sortie (par 1M de tokens)
par 1M de tokens d'entrée$0.1500
par 1M de tokens de sortie$0.6000

Pricing over time

Input & output per 1M tokens · step-line = price changes

$0.1500

input / 1M

— stable

$0.6000

output / 1M

— stable

2026-05-242026-06-072026-06-14
Input
Output
Price change
⟳ synced weekly
Section 03

Forces & faiblesses

Basé sur les résultats de benchmarks et les retours communautaires agrégés sur des cas d'usage réels.

Forces

Recherche augmentée expérimentale intégréeLatence réduite typique MiniAccès anticipé aux fonctionnalités futuresCoût maîtrisé format compactAncrage potentiel informations externesGénération texte polyvalente conservéeExpérimentation sans engagement productionÉquilibre accessibilité et innovation

Faiblesses

Statut preview sans garanties stabilitéFenêtre contextuelle non spécifiéeDocumentation limitée fonctionnalités rechercheCapacités inférieures aux GPT-4 complets
Section 04

Capacités

toolssource: litellmvisionjson modepdf inputjson schemaparallel toolsprompt cachingmax output tokens: 16384
Section 05

Questions fréquentes

GPT-4o Mini Search Preview intègre des mécanismes expérimentaux de recherche augmentée permettant potentiellement d'ancrer les réponses dans des sources externes, contrairement au modèle standard qui se limite à ses données d'entraînement. Le statut preview signifie que ces fonctionnalités sont encore en test et peuvent évoluer.

Pour les équipes cherchant à explorer la génération augmentée par recherche sans l'engagement d'un déploiement production, ce modèle preview offre un point d'entrée pragmatique, malgré les incertitudes inhérentes à son statut expérimental.

Évaluation Tokonomix
Section 06

Disponibilité

Disponibilité

Pas encore de données

Nous n'avons pas encore enregistré suffisamment d'appels API pour afficher les statistiques de disponibilité de ce modèle. Les données apparaîtront dès que le modèle reçoit du trafic en direct.

Section 07

Verdicts benchmark Tokonomix

⚖️
Endorsed by 1 judge
Independent LLM judges evaluated this model on our weekly intelligence tests
claude-sonnet-4-591/100 · 76 runs
64 correct9 partial3 wrong84% accuracy
2026-06-14

Search-focused variant adds multimodal inputs, awaits benchmarks

The gpt-4o-mini-search-preview represents a specialized variant of GPT-4o Mini, introducing significant capability expansions while benchmark performance data remains unavailable. This release adds comprehensive tool support including function calling with both single and parallel execution modes, vision capabilities for image processing, PDF input handling, and structured output options through JSON mode and JSON schema compliance. The model also implements prompt caching for efficiency gains in repetitive queries. These additions position the model as a multimodal solution rather than text-only, with the search designation suggesting optimization for information retrieval tasks. However, without current benchmark window results across standard evaluation metrics, users cannot yet assess how these new capabilities impact core performance dimensions like reasoning accuracy, response quality, or latency characteristics. The gap between capability announcement and performance validation means early adopters should conduct domain-specific testing. Organizations considering this model should weigh the value of expanded input modalities and structured output options against the uncertainty in benchmark-validated performance, particularly if migrating from models with established metrics.

Quality

Latency p50

Test runs

0

Vision and PDF support added Tool calling with parallel execution Structured JSON output modes No benchmark data available
Section 08

Profil complet du modèle

gpt-4o-mini-search-preview — illustration 1
gpt-4o-mini-search-preview : chat augmenté par recherche, gamme small

gpt-4o-mini-search-preview est le modèle de chat augmenté par recherche d'OpenAI dans la gamme small. Le modèle a accès à un outil de recherche backend qui récupère du contenu web frais, intègre des citations et renvoie des réponses ancrées dans les sources retrouvées plutôt que dans la seule connaissance de pré-entraînement. La taille mini maintient le coût par requête suffisamment bas pour placer des réponses ancrées dans la recherche derrière des fonctionnalités à fort volume.

C'est encore étiqueté preview. La ligne dans son ensemble reste mouvante. Épinglez la variante datée pour stabiliser le comportement.

Ce que résout le chat augmenté par recherche

La limite de connaissance pré-entraînée d'un LLM standard constitue un mur infranchissable pour beaucoup de cas d'usage pratiques. Le modèle ne connaît pas les événements postérieurs à sa coupure d'entraînement. Le modèle ne connaît pas le récent communiqué de presse de votre client. Le modèle ne connaît pas la modification réglementaire publiée la semaine dernière.

Le chat augmenté par recherche place un outil de retrieval à l'intérieur de la boucle de raisonnement du modèle. Le modèle décide quand chercher, exécute la requête, ingère le contenu retrouvé et l'incorpore dans la réponse avec des citations en ligne. Du point de vue de l'appelant, il s'agit d'un seul appel API ; en coulisses, le modèle effectue du retrieval en direct dans le cadre de la réponse.

Ce que cela vous apporte, quand cela fonctionne :

  • Des réponses ancrées dans l'information actuelle plutôt que dans les coupures de pré-entraînement.
  • Des citations qui permettent à l'utilisateur de vérifier ce que le modèle affirme.
  • Un chemin de retrieval qui ne vous oblige pas à construire et maintenir votre propre infrastructure RAG pour du contenu web généraliste.

Mini-search est la variante adaptée au palier de coût pour les applications à fort volume. Le gpt-4o-search-preview complet est le bon choix lorsque le raisonnement sur le contenu retrouvé compte davantage que le coût par requête.

Là où mini-search se positionne bien

Les charges de travail qui lui conviennent.

Les interfaces conversationnelles qui nécessitent des vérifications de fraîcheur occasionnelles plutôt qu'une recherche continue. Les assistants de support client qui doivent consulter les informations produit actuelles. Les outils de connaissance internes qui complètent un RAG privé par du contexte web public.

Les surfaces de Q&R à fort volume où le coût d'exécution de chaque requête via un modèle complet ancré dans la recherche ne survivrait pas à l'économie unitaire. Le profil de coût de mini est ce qui rend faisables des réponses ancrées dans la recherche à l'échelle.

Les applications où les citations sont une fonctionnalité plutôt qu'un agrément. Mini-search renvoie des métadonnées de citation structurées qui permettent d'afficher des liens sources dans l'UI sans scraping séparé.

Là où il échoue

Le raisonnement lourd sur le contenu retrouvé. Mini est le petit modèle. Si la tâche consiste à synthétiser de longs documents techniques en une analyse multi-paragraphes, le search preview complet prend l'avantage. Si la tâche s'aventure encore plus loin dans le territoire de la recherche, les modèles de la ligne research sur /benchmarks/methodology sont la bonne étape suivante.

La connaissance privée d'un domaine. L'outil de recherche indexe le web public. Mini-search ne trouvera pas vos documents internes, les données CRM de votre client, ni votre base de connaissances privée. Pour ce travail, vous avez toujours besoin de votre propre pipeline RAG.

Les usages interactifs sensibles à la latence. La recherche ajoute des allers-retours. Même avec le palier mini, les réponses augmentées par recherche sont plus lentes que les réponses purement générées. Pour les UI où la vitesse de saisie compte, mettez en balance le coût de latence contre le bénéfice de fraîcheur.

Les contrats stables. Étiqueté preview. Épinglez le snapshot daté si votre produit ne tolère pas la dérive comportementale.

Quand le choisir

Choisissez gpt-4o-mini-search-preview quand :

  • Vous avez besoin de réponses ancrées dans la recherche à fort volume et que le profil de coût du search preview complet ne convient pas.
  • La charge de raisonnement sur le contenu retrouvé est modérée — résumé, extraction de faits, intégration conversationnelle d'informations fraîches.
  • Les citations en ligne sont une exigence produit plutôt qu'une fonctionnalité supplémentaire.

Évitez-le quand :

  • La synthèse lourde sur des documents retrouvés est la véritable tâche — passez au search preview complet ou à un modèle de la ligne research.
  • La connaissance dont vous avez besoin est privée — construisez plutôt un pipeline RAG spécifique au domaine.
  • La latence compte davantage que la fraîcheur — utilisez un modèle sans recherche et acceptez la péremption.
  • Le déploiement exige une exploitation auto-hébergée ou air-gapped — voir /usecases/local.

Alternatives à considérer

Le gpt-4o-search-preview complet lorsque le raisonnement sur le contenu retrouvé est le facteur différenciant. Les modèles de chat standards sans recherche lorsque la fraîcheur n'est pas réellement requise. Les modèles de la ligne research d'OpenAI et de fournisseurs concurrents pour les tâches de synthèse longue. Le tour d'horizon plus large des modèles de retrieval sur /usecases/data-extraction couvre les charges de travail d'extraction structurée pour lesquelles mini-search n'est pas la bonne forme.

Notes de déploiement

Surface d'API Chat Completions standard. L'outil de recherche est invoqué automatiquement par le modèle en fonction du prompt ; vous ne le passez pas comme définition d'outil dans la requête. Les métadonnées de citation sont renvoyées dans un champ structuré aux côtés de la sortie texte du modèle.

La facturation des tokens se divise entre texte en entrée, texte en sortie, et un frais par appel de recherche. Le frais par appel est la nouvelle ligne significative par rapport aux modèles de chat standards. La planification de capacité doit tenir compte du multiplicateur que les invocations de recherche ajoutent aux coûts de texte de base.

La lecture pragmatique. Mini-search est le bon modèle quand les réponses ancrées dans la recherche doivent être disponibles à fort volume et à bas coût. C'est le mauvais modèle quand le raisonnement sur le contenu retrouvé est le véritable facteur différenciant, ou quand la connaissance dont vous avez besoin est privée plutôt que sur le web public. Essayez-le sur vos requêtes réelles sur /live-test.

Dernière revue technique : 2026-05-22 — Tokonomix.ai

gpt-4o-mini-search-preview — illustration 2gpt-4o-mini-search-preview — illustration 3
Dernier test automatisé
14 juin 2026 · 05:00 UTC · Benchmark
Latence P50
3388 ms
Latence P95
Erreurs
0 / 6 exécutions
Dernière revue par Équipe Tokonomix·26 mai 2026