Datenextraktions-Rennen — Ergebnisse
Invoice — Blue Harbor Logistics
$0.0076 total
Anzeigetafel
#1 Claude Opus 4.7Anthropic★ Hat diese Runde bei diesem Dokument gewonnen
94/100
1940 ms · $0.0051
| Feld | Erwartet | Antwort des Modells | |
|---|---|---|---|
| tax | 256 | 256 | exakt |
| total | 3456 | 3456 | exakt |
| vendor | Blue Harbor Logistics | Blue Harbor Logistics | exakt |
| customer | Greenfield Markets | Greenfield Markets | exakt |
| due_date | 2026-06-11 | 06/11/2026 | fast |
| subtotal | 3200 | 3200 | exakt |
| invoice_date | 2026-05-12 | 05/12/2026 | fast |
| account_last4 | 8842 | 8842 | exakt |
| payment_terms | Net 30 | Net 30 | exakt |
| invoice_number | INV-2026-0451 | INV-2026-0451 | exakt |
#2 Claude Sonnet 4.6Anthropic
85/100
2535 ms · $0.0025
| Feld | Erwartet | Antwort des Modells | |
|---|---|---|---|
| tax | 256 | $256.00 | fast |
| total | 3456 | $3,456.00 | fast |
| vendor | Blue Harbor Logistics | Blue Harbor Logistics | exakt |
| customer | Greenfield Markets | Greenfield Markets | exakt |
| due_date | 2026-06-11 | 06/11/2026 | fast |
| subtotal | 3200 | $3,200.00 | fast |
| invoice_date | 2026-05-12 | 05/12/2026 | fast |
| account_last4 | 8842 | 8842 | exakt |
| payment_terms | Net 30 | Net 30 | exakt |
| invoice_number | INV-2026-0451 | INV-2026-0451 | exakt |
Quelldokument
INVOICE #INV-2026-0451 from Blue Harbor Logistics to customer Greenfield Markets. Invoice date: 05/12/2026. Payment due: 06/11/2026. Line items: freight handling, customs clearance, and last-mile delivery. Subtotal: $3,200.00. Tax (8%): $256.00. Total due: $3,456.00. Payment terms are Net 30. Please remit to account ending 8842. Extract the following fields as JSON: invoice_number, vendor, customer, invoice_date, due_date, subtotal, tax, total, payment_terms, account_last4.
So funktioniert die Bewertung
Jedes Modell erhielt exakt dieselbe Aufgabe und Feldliste und antwortete einmal bei Temperatur 0. Wir vergleichen jedes Feld mit dem echten Wert: ein exakter Treffer gibt volle Punkte, derselbe Wert in einem anderen Format gibt Teilpunkte, alles andere gibt keine. Kein Modell bewertet ein anderes — die Punktzahl ist reiner Feldvergleich. Ein Sieg bedeutet, dass dieses Modell bei DIESEM Dokument mit DIESEN Feldern am besten war, nicht dass es generell besser ist.