Use cases/Extraction de données

Quel modèle IA transforme les documents en données structurées ?

Extraire des données structurées d'un texte non structuré est la tâche immédiatement la plus rentable qu'un modèle de langage puisse accomplir. Le retour sur investissement est concret — un PDF analysé en ligne de tableur est quelque chose que l'entreprise peut mesurer. Les modes d'échec le sont tout autant. Un modèle qui invente un champ sur cent documents corrompt votre base de données sans que personne ne le remarque. Ce guide sélectionne les cinq modèles sur lesquels on construirait aujourd'hui un pipeline d'extraction, et précise les dimensions qui décident lequel va où.

Pipeline de traitement documentaire — image conceptuelle — Le modèle gagnant est celui qui sait quand se taire.

Pourquoi l'extraction est le workload où les modèles échouent le plus discrètement

L'extraction est le workload où les erreurs se cachent le plus longtemps. La sortie ressemble à des données — champs, types, valeurs propres — et les systèmes en aval les consomment comme si un parseur déterministe les avait produites. Quand le modèle remplit un champ manquant avec une estimation plausible, aucun log ne se déclenche. Le chiffre atterrit dans un rapport trimestriel et quelqu'un prend une décision dessus.

Cela change les critères de sélection. La conformité au schéma et le refus d'inventer comptent plus que l'intelligence brute. Un modèle qui retourne un champ vide avec un marqueur null est plus utile qu'un modèle qui retourne une estimation à l'air confiant. Un modèle qui respecte littéralement la structure JSON que vous avez décrite vaut plus qu'un qui y ajoute un préambule sympathique. Certains des modèles frontier les plus capables obtiennent de mauvais scores sur ces axes — ils ont été entraînés à être utiles, et inventer une valeur pour un champ manquant passe pour de l'aide tant qu'on ne le teste pas explicitement.

Ce travail est aussi inhabituellement sensible au prix. Un pipeline traitant un million de factures par mois lit beaucoup et écrit peu. Chaque token superflu dans le prompt système ou la chaîne de raisonnement coûte de l'argent réel. Les modèles qui produisent des sorties structurées concises et propres rentabilisent leur position sur le seul plan du coût.

Cinq contraintes définissent le travail : conformité stricte au schéma, économie du débit en masse, contexte long, robustesse sur des entrées bruitées et couverture multilingue. Le bon modèle pour traiter par lots des reçus en vingt devises est rarement le bon modèle pour analyser un contrat de cinquante pages avec cinq tables imbriquées. Le stack a généralement besoin des deux.

Une contrainte supplémentaire se trouve sous les cinq autres et est facile à oublier à l'étape de conception : l'observabilité. Un pipeline d'extraction qu'on ne peut pas auditer est un pipeline auquel on ne peut pas faire confiance. Chaque sortie doit être traçable jusqu'au segment d'entrée dont elle est issue, chaque score de confiance doit être enregistré, et chaque refus d'extraire doit être consigné afin que l'itération suivante puisse décider si le modèle avait raison de se taire ou tort d'abandonner. Cette télémétrie vaut plus que n'importe quelle mise à jour de modèle.

Flux de schéma d'extraction — image conceptuelle — L'extraction schema-first bat le parsing libre à chaque fois.

Les cinq dimensions qui décident quel modèle l'emporte

Ce sont les axes sur lesquels notre scorecard évalue tout modèle déployé près d'un pipeline d'extraction. La pondération relative varie selon que vous traitez quelques documents de grande valeur ou des millions de faible valeur — mais le plancher sur les cinq est non négociable.

01 — Conformité au schéma
La sortie correspond-elle à la structure que vous avez spécifiée ?
Le meilleur indicateur d'aptitude à l'extraction est la fréquence à laquelle le modèle retourne du JSON valide et conforme au schéma, sans prosa environnante, champs supplémentaires ou clés renommées. Les modes structured-output stricts des fournisseurs qui les proposent résolvent ce problème ; les modèles sans ces modes ont besoin d'une boucle de retry et d'un validateur.
02 — Refus d'inventer
Laisse-t-il un champ vide quand la source ne dit rien ?
Une date de facture manquante qui reçoit une valeur inventée est un bug silencieux qui remonte à l'audit suivant. Testez les candidats explicitement sur des documents où les champs obligatoires sont absents — le bon modèle retourne null, le mauvais retourne sa meilleure estimation sans jamais le signaler.
03 — Contexte long
Peut-il récupérer des données à la page quarante sans perdre la page deux ?
Les contrats, prospectus, dossiers médicaux et actes juridiques dépassent régulièrement cent pages avec des références croisées couvrant tout le document. Le modèle a besoin à la fois de la taille de fenêtre et d'une attention profonde sur l'ensemble de cette fenêtre ; l'un sans l'autre relève du marketing.
04 — Robustesse sur les entrées bruitées
Se remet-il correctement des erreurs OCR et des mises en page cassées ?
L'extraction en conditions réelles ne voit jamais du texte propre. L'entrée est la sortie OCR d'un reçu scanné avec une tache sur la date, ou du HTML d'un site avec trois mises en page de tableau différentes sur la même page. Le modèle doit tolérer ce bruit et produire une sortie propre sans surcorriger.
05 — Couverture multilingue
Extrait-il des factures japonaises aussi bien que des factures anglaises ?
Un modèle d'extraction déployé à grande échelle verra tôt ou tard chaque écriture et convention utilisée par ses clients. Les modèles frontier annoncent une large couverture ; la qualité hors des six langues les plus représentées varie fortement. Les formats de date, séparateurs décimaux et conventions d'adresse nécessitent tous des tests empiriques.

Top 5 Tokonomix pour l'extraction de données aujourd'hui

Voici ce que nous ferions transiter par du vrai trafic de production demain matin. L'extraction à toute échelle significative implique presque toujours un pipeline à deux niveaux — un modèle de masse qui traite les quatre-vingt-dix pour cent bien formés à un coût quasi nul, et un modèle plus lourd auquel le modèle de masse transfère les documents quand sa propre confiance chute. Choisir les deux dans la liste ci-dessous est plus utile que d'en choisir un parfaitement.

#1 · Champion de l'extraction en masseTier A

Gemini 2.5 Flash

via Google Gemini

Le modèle le moins cher crédible pour les travaux d'extraction à fort volume — lignes de facture, champs de formulaire, analyse d'adresse, structuration de logs. Une latence first-token inférieure à la seconde et un contexte d'un million de tokens lui permettent d'ingérer de grands documents en un seul passage sans chunking.

Entrée / 1M tokens: $0.3000
Sortie / 1M tokens: $2.50
Contexte: 1.048576M

Profil benchmark complet →

#2 · Discipline structuréeTier A

Claude Haiku 4.5

via Anthropic

Haiku 4.5 produit un JSON remarquablement propre qui adhère au schéma décrit, avec très peu de champs inventés ou de prosa parasite. Le bon choix quand l'extraction alimente directement un système aval typé et que tout écart de schéma brise le pipeline.

Entrée / 1M tokens: $1.00
Sortie / 1M tokens: $5.00
Contexte: 200K

Profil benchmark complet →

#3 · Mode schéma strictTier C

gpt-4.1-mini

via OpenAI

Le mode OpenAI Structured Outputs contraint le modèle à se conformer à un schéma JSON que vous fournissez, éliminant une classe entière d'erreurs de parsing. GPT-4.1 mini atteint ce mode à un prix suffisamment bas pour le placer sur chaque tâche de remplissage de formulaire, de classification ou d'extraction ne nécessitant pas de raisonnement premium.

Entrée / 1M tokens: $0.4000
Sortie / 1M tokens: $1.60
Contexte: 1.047576M

Profil benchmark complet →

#4 · Spécialiste des documents désordonnésTier A

Claude Sonnet 4.6

via Anthropic

Quand l'entrée est un PDF scanné, un tableur corrompu par OCR ou un contrat avec cinq tables imbriquées, Sonnet 4.6 est le modèle qui comprend ce qui était voulu. Coûte plus par appel que les picks de tier volume ; se rentabilise dès la première fois qu'il parse un document que les modèles moins chers ne pouvaient pas.

Entrée / 1M tokens: $3.00
Sortie / 1M tokens: $15.00
Contexte: 1M

Profil benchmark complet →

#5 · Raisonnement sur données bruitéesTier C

o4-mini

via OpenAI

Un modèle de raisonnement qui bénéficie du temps de réflexion supplémentaire sur les tâches d'extraction ambiguës — désambiguïser lequel des trois entrées "John Smith" correspond, décider si une date non spécifiée doit être inférée du contexte. Plus lent que les modèles de chat ; réservez-le aux étapes qui exigent ce jugement.

Entrée / 1M tokens: $1.10
Sortie / 1M tokens: $4.40
Contexte: —

Profil benchmark complet →

Prix d'entrée par million de tokens

L'extraction est le workload rare où les coûts d'entrée dominent, pas les coûts de sortie — tout le document est lu, la réponse est du JSON compact. Le graphique affiche le prix catalogue actuel en entrée pour chacun des cinq modèles.

Gemini 2.5 Flash$0.3000

Claude Haiku 4.5$1.00

gpt-4.1-mini$0.4000

Claude Sonnet 4.6$3.00

o4-mini$1.10

Prix par 1M tokens en entrée, USD. Source : tarifs fournisseurs en temps réel suivis par Tokonomix.

Dashboard de métriques d'extraction — image conceptuelle — Mesurez la précision et le rappel, pas le succès de parsing.

Guide terrain : quel modèle pour quel travail d'extraction

La correspondance ci-dessous est celle qu'on utiliserait pour conseiller une équipe opérationnelle qui repart de zéro. Traitez-la comme un point de départ, pas comme un verdict — un benchmark sur cent de vos propres documents dépassera toute recommandation générale.

Pattern A

Factures, reçus, formulaires à grande échelle

Gabarits propres, mise en page prévisible, des millions par mois. Gemini 2.5 Flash pour la masse, Haiku 4.5 quand la discipline de schéma devient le goulot d'étranglement. Les deux sont assez bon marché pour rejouer avec vérification.

Pattern B

Contrats, prospectus, documents juridiques

Longs, denses, pleins de références croisées. Sonnet 4.6 pour la lecture lourde, o4-mini pour les étapes nécessitant un raisonnement explicite sur des clauses ambiguës. Produisez toujours une sortie structurée avec des citations vers la page source.

Pattern C

Remplissage de formulaire en temps réel

L'utilisateur colle du texte brut, votre interface remplit le formulaire. La latence domine. GPT-4.1 mini en mode schéma strict est la valeur sûre par défaut ; l'utilisateur voit la réponse en moins d'une seconde et la sortie structurée est garantie valide.

Pattern D

Documents PII-sensibles ou souverains

Dossiers médicaux, déclarations financières, formulaires de données citoyens avec des restrictions transfrontalières. Hébergez vous-même un modèle open-weight sur une infrastructure que vous contrôlez — le guide local & self-hosted détaille les configurations matérielles adaptées.

Configuration d'une équipe opérationnelle — image conceptuelle — Le pipeline ne vaut que ce que valent le schéma, le validateur et les contrôles humains.

Faites votre benchmark sur vos propres documents avant de vous engager

Prenez cinquante documents réels de votre backlog et annotez-les à la main. C'est un travail ingrat ; il se rentabilise dès le premier déploiement en production, quand vous voulez savoir si le modèle est meilleur que la regex qu'il a remplacée. Faites passer chaque candidat sur les mêmes cinquante et mesurez précision et rappel par rapport à votre vérité terrain.

Regardez ensuite les échecs, pas les moyennes. Où chaque modèle a-t-il inventé un champ ? Où en a-t-il laissé un vide qui aurait dû être rempli ? Comment chacun a-t-il géré la page scannée, le document en langue étrangère, le tableau pivotant ? Le modèle qui survit à votre analyse d'échecs est le modèle qui survit à la production. Déployez celui-là, peu importe ce que ce guide recommande.

Ouvrir l'outil de test en direct →