Welk AI-model haalt structuur uit ongestructureerde documenten?
Gestructureerde data uit ongestructureerde tekst halen is het meest direct meetbare dat een taalmodel kan doen. De opbrengst is zichtbaar — een PDF die als rij in een spreadsheet belandt, is iets wat een bedrijf kan afrekenen. De faalpatronen zijn al even concreet. Een model dat bij honderd documenten één veld verzint, beschadigt je database zonder dat iemand het merkt. Deze gids kiest de vijf modellen waarop je vandaag een extractie-pipeline zou bouwen, en beschrijft welke dimensies bepalen waar elk thuishoort.

Waarom extractie het stille faalpatroon van taalmodellen is
Bij extractie blijven fouten het langst verborgen. De output ziet eruit als data — velden, types, nette waarden — en downstream-systemen verwerken die alsof een deterministische parser ze heeft aangeleverd. Als het model een ontbrekend veld opvult met een aannemelijke gok, slaat geen enkele log alarm. Het getal belandt in een kwartaalrapport en iemand neemt er een beslissing op.
Dat verandert de selectiecriteria. Schema-conformiteit en weigeren te verzinnen tellen zwaarder dan ruwe intelligentie. Een model dat een leeg veld retourneert met een null-markering is nuttiger dan een model dat een zelfverzekerd klinkende gok geeft. Een model dat de JSON-structuur die jij hebt beschreven letterlijk volgt, is waardevoller dan een model dat er een vriendelijke inleiding aan toevoegt. De meest capabele frontier-modellen scoren slecht op deze assen — ze zijn afgestemd op behulpzaamheid, en een waarde verzinnen voor een ontbrekend veld telt als behulpzaam, tenzij je er expliciet op test.
Extractiewerk is ook ongewoon prijsgevoelig. Een pipeline die maandelijks een miljoen facturen verwerkt, heeft een model dat veel leest en weinig schrijft. Elke overbodige token in de systeem-prompt of de redeneerketens kost echt geld. Modellen die beknopte, schone gestructureerde output leveren, verdienen hun prijs terug op kosten alleen.
Vijf beperkingen definiëren het werk: strikte schema-conformiteit, bulk-throughput-economie, lange-document-context, robuustheid op rommelige input en meertalige dekking. Het juiste model voor batch-verwerking van bonnen in twintig valuta is zelden het juiste model voor het parsen van één vijftig pagina's tellend contract met vijf overlappende tabellen. De stack heeft doorgaans beide nodig.
Nog één beperking ligt onder de andere vijf en is op het ontwerpmoment makkelijk te vergeten: observeerbaarheid. Een extractie-pipeline die je niet kunt auditen, is een pipeline die je niet kunt vertrouwen. Elke output moet herleidbaar zijn tot de input-span waaruit hij voortkwam, elke confidence-score moet worden gelogd, en elke weigering tot extractie moet worden bijgehouden zodat de volgende iteratie kan bepalen of het model terecht zweeg of ten onrechte opgaf. Die telemetrie is meer waard dan welke modelverbetering dan ook.

De vijf dimensies die bepalen welk model wint
Dit zijn de assen waarop onze scorecard elk model beoordeelt dat in de buurt van een extractie-pipeline komt. De relatieve weging verschuift naargelang je weinig hoogwaardige of miljoenen laagwaardige documenten verwerkt — maar de minimumdrempel op alle vijf is niet-onderhandelbaar.
- 01 — Schema-conformiteit
Klopt de output met de structuur die jij hebt opgegeven?
De beste voorspeller van geschiktheid voor extractie is hoe vaak het model valide, schema-conforme JSON retourneert zonder omringende proza, extra velden of hernoemde sleutels. Strikte structured-output-modi van vendors die dat ondersteunen, lossen dit probleem op. Modellen zonder die modi hebben een retry-loop en een validator nodig.
- 02 — Weigeren te verzinnen
Laat het een veld leeg als de bron zwijgt?
Een ontbrekende factuurdatum die een geraadde waarde krijgt, is een stille bug die pas opduikt bij de volgende audit. Test kandidaten expliciet op documenten waar verplichte velden ontbreken — het goede model geeft null terug, het verkeerde geeft z'n beste gok en vertelt het je nooit.
- 03 — Lange-document-context
Kan het data ophalen van pagina veertig zonder pagina twee te vergeten?
Contracten, prospectussen, medische dossiers en juridische stukken lopen regelmatig over honderd pagina's, vol met verwijzingen die het hele document overspannen. Het model heeft zowel venstergrootte als diepe aandacht nodig over dat venster. Het eerste zonder het tweede is marketingpraat.
- 04 — Robuustheid op rommelige input
Herstelt het gracevol van OCR-fouten en kapotte layout?
Extractie in de praktijk ziet nooit schone tekst. De input is OCR-output van een gescande bon met een vlek op de datum, of HTML van een site met drie verschillende tabelindelingen op dezelfde pagina. Het model moet die ruis verdragen en toch schone output produceren zonder te overcorrigeren.
- 05 — Meertalige dekking
Extraheert het even goed uit Japanse facturen als uit Engelse?
Een extractiemodel dat op schaal wordt ingezet, krijgt uiteindelijk elk schrift en elke conventie te zien die klanten gebruiken. Frontier-modellen adverteren brede dekking; de kwaliteit buiten de zes meest voorkomende talen loopt sterk uiteen. Datumnotaties, decimaaltekens en adresconventies hebben empirisch testen nodig.
Tokonomix top 5 picks voor data-extractie vandaag
Hieronder staat wat we morgenochtend echte productietraffic doorheen zouden sturen. Extractie op enige schaal betekent bijna altijd een tweelaagse pipeline — een bulk-model dat de braaf-gevormde negentig procent voor bijna nul doet, en een zwaarder model waar het bulk-model documenten naar opgooit als het eigen vertrouwen daalt. Beide kiezen uit de lijst hieronder is nuttiger dan één perfect kiezen.
Gemini 2.5 Flash
via Google Gemini
Het goedkoopste geloofwaardige model voor hoogvolume extractiewerk — factuurregelitems, formuliervelden, adresparsing, logstructurering. Sub-seconde first-token latency en een miljoen-token context betekenen dat het grote documenten in één keer kan verwerken zonder te chunken.
- Input / 1M tokens
- $0.3000
- Output / 1M tokens
- $2.50
- Context
- 1.048576M
Claude Haiku 4.5
via Anthropic
Haiku 4.5 produceert opvallend schone JSON die zich houdt aan het schema dat je hebt beschreven, met zeer weinig verzonnen velden of vreemde proza. De juiste keuze wanneer extractie direct naar een getypeerd downstream-systeem gaat en elk afwijkend veld de pipeline breekt.
- Input / 1M tokens
- $1.00
- Output / 1M tokens
- $5.00
- Context
- 200K
gpt-4.1-mini
via OpenAI
OpenAI Structured Outputs-modus dwingt het model een JSON-schema te volgen dat jij aanlevert, waardoor een hele klasse parse-fouten verdwijnt. GPT-4.1 mini haalt die modus bij een prijs die laag genoeg is om het op elk formuliervulling-, classificatie- of extractietaak te zetten die geen premium-redenering vereist.
- Input / 1M tokens
- $0.4000
- Output / 1M tokens
- $1.60
- Context
- 1.047576M
Claude Sonnet 4.6
via Anthropic
Als de input een gescande PDF is, een OCR-beschadigd spreadsheet of een contract met vijf overlappende tabellen, is Sonnet 4.6 het model dat begrijpt wat bedoeld werd. Kost meer per aanroep dan de volume-tier; verdient zichzelf terug de eerste keer dat het een document parst dat de goedkopere modellen niet konden.
- Input / 1M tokens
- $3.00
- Output / 1M tokens
- $15.00
- Context
- 1M
o4-mini
via OpenAI
Een redeneermodel dat baat heeft bij extra denktijd bij extractietaken met ambiguïteit — bepalen welke van drie "John Smith"-vermeldingen klopt, beslissen of een ongespecificeerde datum uit context afgeleid moet worden. Trager dan chat-tier; reserveer voor de stappen die het oordeel vereisen.
- Input / 1M tokens
- $1.10
- Output / 1M tokens
- $4.40
- Context
- —
Input-prijs per miljoen tokens
Extractie is het zeldzame workload waarbij inputkosten domineren, niet outputkosten — het hele document wordt ingelezen, de respons is compacte JSON. De grafiek toont de actuele lijstprijs voor input voor elk van de vijf modellen hierboven.

Veldgids: welk model voor welke extractietaak
De mapping hieronder is wat we zouden gebruiken om een operationeel team bij nul te adviseren. Beschouw het als een vertrekpunt, niet als een vonnis — een benchmark op honderd van je eigen documenten verslaat elke algemene aanbeveling.
Facturen, bonnen, formulieren op schaal
Schone sjablonen, voorspelbare indeling, miljoenen per maand. Gemini 2.5 Flash voor het bulk, Haiku 4.5 wanneer schema-discipline de bottleneck wordt. Beide zijn goedkoop genoeg om opnieuw te proberen met verificatie.
Contracten, prospectussen, juridische documenten
Lang, dicht, vol kruisverwijzingen. Sonnet 4.6 voor het zware leeswerk, o4-mini voor stappen die expliciete redenering over ambigue clausules vereisen. Produceer altijd gestructureerde output met verwijzingen naar de bronpagina.
Realtime formulier invullen
Gebruiker plakt ruwe tekst, jouw UI vult het formulier. Latency domineert. GPT-4.1 mini met strikte schema-modus is de veilige standaard; de gebruiker ziet het antwoord binnen een seconde en de gestructureerde output is gegarandeerd valide.
PII-gevoelige of soevereine documenten
Medische dossiers, financiële aangiftes, burger-dataformulieren met grensoverschrijdende beperkingen. Host een open-weight model zelf op infrastructuur die jij beheert — zie de local & self-hosted gids voor hardwareadvies.

Benchmark op je eigen documenten voor je een keuze maakt
Neem vijftig echte documenten uit je eigen backlog en label ze handmatig. Het is saai werk; het verdient zichzelf terug de eerste keer dat de productie-pipeline uitgerold wordt en je wilt weten of het model beter is dan de regex die het verving. Draai elke kandidaat over dezelfde vijftig en meet precisie en recall ten opzichte van je ground truth.
Kijk daarna naar de fouten, niet de gemiddelden. Waar verzon elk model een veld? Waar liet het er één leeg dat ingevuld had moeten zijn? Hoe ging elk om met de gescande pagina, het anderstalige document, de gedraaide tabel? Het model dat je foutenanalyse overleeft, is het model dat productie overleeft. Stuur dat, ongeacht welke gids welke aanbeveling deed.
Open de live-test tool →