Veri Çıkarma Yarışı — sonuçlar
Invoice — Blue Harbor Logistics
$0.0076 total
Skor tablosu
#1 Claude Opus 4.7Anthropic★ Bu belgede bu turu kazandı
94/100
1940 ms · $0.0051
| Alan | Beklenen | Modelin yanıtı | |
|---|---|---|---|
| tax | 256 | 256 | tam |
| total | 3456 | 3456 | tam |
| vendor | Blue Harbor Logistics | Blue Harbor Logistics | tam |
| customer | Greenfield Markets | Greenfield Markets | tam |
| due_date | 2026-06-11 | 06/11/2026 | yakın |
| subtotal | 3200 | 3200 | tam |
| invoice_date | 2026-05-12 | 05/12/2026 | yakın |
| account_last4 | 8842 | 8842 | tam |
| payment_terms | Net 30 | Net 30 | tam |
| invoice_number | INV-2026-0451 | INV-2026-0451 | tam |
#2 Claude Sonnet 4.6Anthropic
85/100
2535 ms · $0.0025
| Alan | Beklenen | Modelin yanıtı | |
|---|---|---|---|
| tax | 256 | $256.00 | yakın |
| total | 3456 | $3,456.00 | yakın |
| vendor | Blue Harbor Logistics | Blue Harbor Logistics | tam |
| customer | Greenfield Markets | Greenfield Markets | tam |
| due_date | 2026-06-11 | 06/11/2026 | yakın |
| subtotal | 3200 | $3,200.00 | yakın |
| invoice_date | 2026-05-12 | 05/12/2026 | yakın |
| account_last4 | 8842 | 8842 | tam |
| payment_terms | Net 30 | Net 30 | tam |
| invoice_number | INV-2026-0451 | INV-2026-0451 | tam |
Kaynak belge
INVOICE #INV-2026-0451 from Blue Harbor Logistics to customer Greenfield Markets. Invoice date: 05/12/2026. Payment due: 06/11/2026. Line items: freight handling, customs clearance, and last-mile delivery. Subtotal: $3,200.00. Tax (8%): $256.00. Total due: $3,456.00. Payment terms are Net 30. Please remit to account ending 8842. Extract the following fields as JSON: invoice_number, vendor, customer, invoice_date, due_date, subtotal, tax, total, payment_terms, account_last4.
Puanlama nasıl çalışır
Her model tam olarak aynı istemi ve alan listesini aldı ve sıcaklık 0’da bir kez yanıt verdi. Her alanı gerçek değerle karşılaştırırız: tam eşleşme tam puan, farklı biçimdeki aynı değer kısmi puan, diğer her şey puan almaz. Hiçbir model bir diğerini yargılamaz — puan saf alan karşılaştırmasıdır. Kazanmak, bu modelin BU belgede BU alanlarla en yüksek puanı aldığı anlamına gelir, genel olarak daha iyi olduğu anlamına gelmez.