Zum Inhalt

Datenextraktions-Rennen — Ergebnisse

Invoice — Blue Harbor Logistics

$0.0076 total

Anzeigetafel

#1 Claude Opus 4.7AnthropicHat diese Runde bei diesem Dokument gewonnen
94/100
1940 ms · $0.0051
FeldErwartetAntwort des Modells
tax256256exakt
total34563456exakt
vendorBlue Harbor LogisticsBlue Harbor Logisticsexakt
customerGreenfield MarketsGreenfield Marketsexakt
due_date2026-06-1106/11/2026fast
subtotal32003200exakt
invoice_date2026-05-1205/12/2026fast
account_last488428842exakt
payment_termsNet 30Net 30exakt
invoice_numberINV-2026-0451INV-2026-0451exakt
#2 Claude Sonnet 4.6Anthropic
85/100
2535 ms · $0.0025
FeldErwartetAntwort des Modells
tax256$256.00fast
total3456$3,456.00fast
vendorBlue Harbor LogisticsBlue Harbor Logisticsexakt
customerGreenfield MarketsGreenfield Marketsexakt
due_date2026-06-1106/11/2026fast
subtotal3200$3,200.00fast
invoice_date2026-05-1205/12/2026fast
account_last488428842exakt
payment_termsNet 30Net 30exakt
invoice_numberINV-2026-0451INV-2026-0451exakt

Quelldokument

INVOICE #INV-2026-0451 from Blue Harbor Logistics to customer Greenfield Markets. Invoice date: 05/12/2026. Payment due: 06/11/2026. Line items: freight handling, customs clearance, and last-mile delivery. Subtotal: $3,200.00. Tax (8%): $256.00. Total due: $3,456.00. Payment terms are Net 30. Please remit to account ending 8842. Extract the following fields as JSON: invoice_number, vendor, customer, invoice_date, due_date, subtotal, tax, total, payment_terms, account_last4.

So funktioniert die Bewertung

Jedes Modell erhielt exakt dieselbe Aufgabe und Feldliste und antwortete einmal bei Temperatur 0. Wir vergleichen jedes Feld mit dem echten Wert: ein exakter Treffer gibt volle Punkte, derselbe Wert in einem anderen Format gibt Teilpunkte, alles andere gibt keine. Kein Modell bewertet ein anderes — die Punktzahl ist reiner Feldvergleich. Ein Sieg bedeutet, dass dieses Modell bei DIESEM Dokument mit DIESEN Feldern am besten war, nicht dass es generell besser ist.