
gpt-4o-mini-search-preview est le modèle de chat augmenté par recherche d'OpenAI dans la gamme small. Le modèle a accès à un outil de recherche backend qui récupère du contenu web frais, intègre des citations et renvoie des réponses ancrées dans les sources retrouvées plutôt que dans la seule connaissance de pré-entraînement. La taille mini maintient le coût par requête suffisamment bas pour placer des réponses ancrées dans la recherche derrière des fonctionnalités à fort volume.
C'est encore étiqueté preview. La ligne dans son ensemble reste mouvante. Épinglez la variante datée pour stabiliser le comportement.
Ce que résout le chat augmenté par recherche
La limite de connaissance pré-entraînée d'un LLM standard constitue un mur infranchissable pour beaucoup de cas d'usage pratiques. Le modèle ne connaît pas les événements postérieurs à sa coupure d'entraînement. Le modèle ne connaît pas le récent communiqué de presse de votre client. Le modèle ne connaît pas la modification réglementaire publiée la semaine dernière.
Le chat augmenté par recherche place un outil de retrieval à l'intérieur de la boucle de raisonnement du modèle. Le modèle décide quand chercher, exécute la requête, ingère le contenu retrouvé et l'incorpore dans la réponse avec des citations en ligne. Du point de vue de l'appelant, il s'agit d'un seul appel API ; en coulisses, le modèle effectue du retrieval en direct dans le cadre de la réponse.
Ce que cela vous apporte, quand cela fonctionne :
- Des réponses ancrées dans l'information actuelle plutôt que dans les coupures de pré-entraînement.
- Des citations qui permettent à l'utilisateur de vérifier ce que le modèle affirme.
- Un chemin de retrieval qui ne vous oblige pas à construire et maintenir votre propre infrastructure RAG pour du contenu web généraliste.
Mini-search est la variante adaptée au palier de coût pour les applications à fort volume. Le gpt-4o-search-preview complet est le bon choix lorsque le raisonnement sur le contenu retrouvé compte davantage que le coût par requête.
Là où mini-search se positionne bien
Les charges de travail qui lui conviennent.
Les interfaces conversationnelles qui nécessitent des vérifications de fraîcheur occasionnelles plutôt qu'une recherche continue. Les assistants de support client qui doivent consulter les informations produit actuelles. Les outils de connaissance internes qui complètent un RAG privé par du contexte web public.
Les surfaces de Q&R à fort volume où le coût d'exécution de chaque requête via un modèle complet ancré dans la recherche ne survivrait pas à l'économie unitaire. Le profil de coût de mini est ce qui rend faisables des réponses ancrées dans la recherche à l'échelle.
Les applications où les citations sont une fonctionnalité plutôt qu'un agrément. Mini-search renvoie des métadonnées de citation structurées qui permettent d'afficher des liens sources dans l'UI sans scraping séparé.
Là où il échoue
Le raisonnement lourd sur le contenu retrouvé. Mini est le petit modèle. Si la tâche consiste à synthétiser de longs documents techniques en une analyse multi-paragraphes, le search preview complet prend l'avantage. Si la tâche s'aventure encore plus loin dans le territoire de la recherche, les modèles de la ligne research sur /benchmarks/methodology sont la bonne étape suivante.
La connaissance privée d'un domaine. L'outil de recherche indexe le web public. Mini-search ne trouvera pas vos documents internes, les données CRM de votre client, ni votre base de connaissances privée. Pour ce travail, vous avez toujours besoin de votre propre pipeline RAG.
Les usages interactifs sensibles à la latence. La recherche ajoute des allers-retours. Même avec le palier mini, les réponses augmentées par recherche sont plus lentes que les réponses purement générées. Pour les UI où la vitesse de saisie compte, mettez en balance le coût de latence contre le bénéfice de fraîcheur.
Les contrats stables. Étiqueté preview. Épinglez le snapshot daté si votre produit ne tolère pas la dérive comportementale.
Quand le choisir
Choisissez gpt-4o-mini-search-preview quand :
- Vous avez besoin de réponses ancrées dans la recherche à fort volume et que le profil de coût du search preview complet ne convient pas.
- La charge de raisonnement sur le contenu retrouvé est modérée — résumé, extraction de faits, intégration conversationnelle d'informations fraîches.
- Les citations en ligne sont une exigence produit plutôt qu'une fonctionnalité supplémentaire.
Évitez-le quand :
- La synthèse lourde sur des documents retrouvés est la véritable tâche — passez au search preview complet ou à un modèle de la ligne research.
- La connaissance dont vous avez besoin est privée — construisez plutôt un pipeline RAG spécifique au domaine.
- La latence compte davantage que la fraîcheur — utilisez un modèle sans recherche et acceptez la péremption.
- Le déploiement exige une exploitation auto-hébergée ou air-gapped — voir /usecases/local.
Alternatives à considérer
Le gpt-4o-search-preview complet lorsque le raisonnement sur le contenu retrouvé est le facteur différenciant. Les modèles de chat standards sans recherche lorsque la fraîcheur n'est pas réellement requise. Les modèles de la ligne research d'OpenAI et de fournisseurs concurrents pour les tâches de synthèse longue. Le tour d'horizon plus large des modèles de retrieval sur /usecases/data-extraction couvre les charges de travail d'extraction structurée pour lesquelles mini-search n'est pas la bonne forme.
Notes de déploiement
Surface d'API Chat Completions standard. L'outil de recherche est invoqué automatiquement par le modèle en fonction du prompt ; vous ne le passez pas comme définition d'outil dans la requête. Les métadonnées de citation sont renvoyées dans un champ structuré aux côtés de la sortie texte du modèle.
La facturation des tokens se divise entre texte en entrée, texte en sortie, et un frais par appel de recherche. Le frais par appel est la nouvelle ligne significative par rapport aux modèles de chat standards. La planification de capacité doit tenir compte du multiplicateur que les invocations de recherche ajoutent aux coûts de texte de base.
La lecture pragmatique. Mini-search est le bon modèle quand les réponses ancrées dans la recherche doivent être disponibles à fort volume et à bas coût. C'est le mauvais modèle quand le raisonnement sur le contenu retrouvé est le véritable facteur différenciant, ou quand la connaissance dont vous avez besoin est privée plutôt que sur le web public. Essayez-le sur vos requêtes réelles sur /live-test.
Dernière revue technique : 2026-05-22 — Tokonomix.ai

