Use cases/Veri çıkarımı

Hangi yapay zeka modeli belgeleri yapılandırılmış veriye dönüştürür?

Yapılandırılmamış metinden yapılandırılmış veri çıkarmak, bir dil modelinin yapabileceği en doğrudan kârlı iştir. Yatırım getirisi somuttur: bir PDF'nin elektronik tablodaki bir satıra dönüşmesi, işletmenin ölçebildiği bir şeydir. Hata modları da aynı ölçüde somuttur. Her yüz belgede bir alan uyduran model, veritabanınızı fark ettirmeden bozar. Bu rehber, bugün bir çıkarım pipeline'ı kuracağınız beş modeli seçiyor ve hangi boyutların neyin nereye ait olduğuna karar verdiğini açıklıyor.

Belge işleme pipeline'ı — kavram görseli — Kazanan model, ne zaman sessiz kalması gerektiğini bilen modeldir.

Çıkarım, modellerin en sessiz biçimde başarısız olduğu iş yüküdür

Çıkarım, hataların en uzun süre gizlendiği iş yüküdür. Çıktı veri gibi görünür: alanlar, tipler, düzgün değerler. Aşağı akış sistemleri bunu deterministik bir parser üretmiş gibi tüketir. Model eksik bir alanı makul görünen bir tahminle doldurduğunda hiçbir log uyarı vermez. Sayı bir çeyrek raporuna düşer ve biri üzerinde karar alır.

Bu durum seçim kriterlerini değiştirir. Şema uyumu ve uydurma reddi, ham zekadan daha ağır basar. Boş bir alanı null işaretiyle döndüren model, güvenli görünen bir tahmin döndüren modelden daha yararlıdır. Tanımladığınız JSON yapısına harfiyen uyan model, dostane bir önsöz ekleyen modelden daha değerlidir. En yetenekli frontier modellerin bir kısmı bu eksenlerde kötü puan alır: yardımsever olmak üzere ayarlanmışlardır ve eksik bir alan için değer uydurmak, siz bunu açıkça ölçmediğiniz sürece yardımsever görünür.

İş aynı zamanda olağandışı ölçüde fiyata duyarlıdır. Ayda bir milyon fatura işleyen bir pipeline çok okur, az yazar. Sistem promptundaki veya düşünce zincirlerindeki her gereksiz token gerçek para demektir. Kısa ve temiz yapılandırılmış çıktı üreten modeller, maliyetleri sayesinde zaten konumlarını haklı çıkarır.

Beş kısıt işi tanımlar: katı şema uyumu, toplu işlem ekonomisi, uzun belge bağlamı, gürültülü girişe dayanıklılık ve diller arası kapsam. Yirmi para biriminde makbuz işlemek için doğru model, beş iç içe geçmiş tablo içeren elli sayfalık bir sözleşmeyi ayrıştırmak için nadiren doğru modeldir. Stack'in genellikle her ikisine de ihtiyacı vardır.

Diğer beşin altında yatan ve tasarım aşamasında kolayca unutulan bir kısıt daha var: gözlemlenebilirlik. Denetleyemediğiniz bir çıkarım pipeline'ına güvenemezsiniz. Her çıktı geldiği girdi aralığına izlenebilir olmalı, her güven puanı kaydedilmeli ve çıkarım reddi bir sonraki yinelemenin modelin sessiz kalmakta haklı mı yoksa vazgeçmekte yanlış mı olduğuna karar verebilmesi için günlüğe alınmalıdır. Bu telemetri, herhangi bir model yükseltmesinden daha değerlidir.

Çıkarım şeması akışı — kavram görseli — Şema öncelikli çıkarım, serbest biçimli ayrıştırmayı her zaman geride bırakır.

Kazananı belirleyen beş boyut

Bunlar, puan kartımızın bir çıkarım pipeline'ına yakın konuşlandırılan her modeli değerlendirdiği eksenlerdir. Göreli ağırlık, az sayıda yüksek değerli belge mi yoksa milyonlarca düşük değerli belge mi işlediğinize bağlı olarak kayar; ancak beşinin de tabanı pazarlık konusu değildir.

01 — Şema uyumu
Çıktı belirttiğiniz yapıyla örtüşüyor mu?
Çıkarım yeterliliğinin en güvenilir göstergesi, modelin ne sıklıkta çevreleyen proza, fazla alan veya yeniden adlandırılmış anahtarlar olmaksızın geçerli, şemaya uygun JSON döndürdüğüdür. Bunu destekleyen sağlayıcıların katı yapılandırılmış çıktı modları bu sorunu ortadan kaldırır; bu modları olmayan modeller bir yeniden deneme döngüsü ve doğrulayıcıya ihtiyaç duyar.
02 — Uydurmayı reddetmek
Kaynak sessiz kaldığında bir alanı boş bırakıyor mu?
Tahmin edilen bir değer alan eksik bir fatura tarihi, bir sonraki denetimde ortaya çıkan sessiz bir hatadır. Adayları açıkça zorunlu alanların bulunmadığı belgeler üzerinde test edin: doğru model null döndürür, yanlış olan en iyi tahminini verir ve bunu size hiç söylemez.
03 — Uzun belge bağlamı
İkinci sayfayı kaybetmeden kırkıncı sayfadan veri çekebiliyor mu?
Sözleşmeler, izahnameler, tıbbi kayıtlar ve hukuki belgeler genellikle belgenin tamamına yayılan çapraz referanslarla birlikte yüz sayfayı geçer. Modelin hem pencere boyutuna hem de bu pencere boyunca derin dikkat kapasitesine ihtiyacı vardır; ikincisi olmadan birincisi pazarlama söylemidir.
04 — Gürültülü girişe dayanıklılık
OCR hatalarından ve bozuk düzenden zarifçe kurtulabiliyor mu?
Gerçek dünya çıkarımı hiçbir zaman temiz metin görmez. Girdi, tarihinde leke olan taranmış bir makbuzun OCR çıktısıdır ya da aynı sayfada üç farklı tablo düzeni olan bir sitenin HTML'idir. Model bu gürültüyü tolere etmeli ve aşırı düzeltme yapmadan temiz çıktı üretmelidir.
05 — Diller arası kapsam
Japonca faturalardan İngilizce olanlar kadar iyi çıkarım yapıyor mu?
Ölçekte konuşlandırılan bir çıkarım modeli, eninde sonunda müşterilerinin kullandığı her yazı sistemini ve kuralı görür. Frontier modeller geniş kapsam ilan eder; en yaygın altı dilin dışında kalite keskin biçimde farklılaşır. Tarih biçimleri, ondalık ayraçlar ve adres kurallarının tümü ampirik test gerektirir.

Tokonomix'in bugünkü veri çıkarımı için en iyi 5 seçimi

Aşağıdakiler, yarın sabah gerçek prodüksiyon trafiğini yönlendireceğimiz şeyler. Anlamlı ölçekte çıkarım neredeyse her zaman iki katmanlı bir pipeline anlamına gelir: iyi biçimlendirilmiş yüzde doksanı neredeyse sıfır maliyetle halleden bir toplu model ve toplu modelin kendi güveni düştüğünde belgeleri yönlendirdiği daha ağır bir model. Listeden her ikisini seçmek, birini mükemmel biçimde seçmekten daha kullanışlıdır.

#1 · Toplu çıkarım şampiyonuTier A

Gemini 2.5 Flash

ile Google Gemini

Yüksek hacimli çıkarım işleri için en ucuz güvenilir model: fatura satır kalemleri, form alanları, adres ayrıştırma, log yapılandırma. Saniye altı ilk token gecikmesi ve bir milyonluk token bağlamı, büyük belgeleri parçalamadan tek seferde yutabilmesi anlamına gelir.

Giriş / 1M token: $0.3000
Çıkış / 1M token: $2.50
Bağlam: 1.048576M

Tam benchmark profili →

#2 · Yapılandırılmış disiplinTier A

Claude Haiku 4.5

ile Anthropic

Haiku 4.5, tanımladığınız şemaya bağlı kalan son derece temiz JSON üretir; uydurulmuş alan veya başıboş proza neredeyse yoktur. Çıkarım doğrudan tiplenmiş bir aşağı akış sistemine beslendiğinde ve şemadan herhangi bir sapma pipeline'ı bozduğunda doğru seçimdir.

Giriş / 1M token: $1.00
Çıkış / 1M token: $5.00
Bağlam: 200K

Tam benchmark profili →

#3 · Katı şema moduTier C

gpt-4.1-mini

ile OpenAI

OpenAI Structured Outputs modu, modeli siz sağladığınız bir JSON şemasına uymaya zorlar ve bir hata sınıfını tamamen ortadan kaldırır. GPT-4.1 mini, premium akıl yürütme gerektirmeyen her form doldurma, sınıflandırma veya çıkarım işine konulabilecek kadar düşük bir fiyatla bu moda ulaşır.

Giriş / 1M token: $0.4000
Çıkış / 1M token: $1.60
Bağlam: 1.047576M

Tam benchmark profili →

#4 · Dağınık belge uzmanıTier A

Claude Sonnet 4.6

ile Anthropic

Girdi taranmış bir PDF, OCR tarafından bozulmuş bir elektronik tablo veya beş iç içe geçmiş tablo içeren bir sözleşme olduğunda, Sonnet 4.6 ne kastedildiğini anlayan modeldir. Hacim katmanı seçimlerinden çağrı başına daha pahalıya mal olur; ucuz modellerin çözemediği bir belgeyi ilk çözüşünde kendisini amorti eder.

Giriş / 1M token: $3.00
Çıkış / 1M token: $15.00
Bağlam: 1M

Tam benchmark profili →

#5 · Gürültülü veri üzerinde akıl yürütmeTier C

o4-mini

ile OpenAI

Belirsizlik içeren çıkarım görevlerinde ek düşünme süresinden yararlanan bir akıl yürütme modeli: üç "John Smith" girişinden hangisinin eşleştiğini belirsizleştirmek, belirtilmemiş bir tarihin bağlamdan çıkarılması gerekip gerekmediğine karar vermek. Sohbet katmanından daha yavaştır; yargı gerektiren adımlar için saklayın.

Giriş / 1M token: $1.10
Çıkış / 1M token: $4.40
Bağlam: —

Tam benchmark profili →

Milyon token başına giriş fiyatı

Çıkarım, giriş maliyetlerinin çıkış maliyetlerine değil egemen olduğu nadir iş yüküdür: tüm belge okunur, yanıt kompakt JSON'dur. Grafik, yukarıdaki beş modelin her biri için canlı liste giriş fiyatını göstermektedir.

Gemini 2.5 Flash$0.3000

Claude Haiku 4.5$1.00

gpt-4.1-mini$0.4000

Claude Sonnet 4.6$3.00

o4-mini$1.10

Tokonomix tarafından takip edilen canlı sağlayıcı fiyatlandırması. 1M giriş tokeni başına fiyat, USD.

Çıkarım metrikleri panosu — kavram görseli — Ayrıştırma başarısını değil, hassasiyet ve geri çağırmayı ölçün.

Saha rehberi: hangi iş için hangi model

Aşağıdaki eşleme, sıfırdan başlayan bir operasyon ekibine tavsiye etmek için kullanacağımız eşlemedir. Bir başlangıç noktası olarak, karar olarak değil değerlendirin: kendi belgelerinizden yüzü üzerinde yapılan bir benchmark, genel tavsiyenin önüne geçer.

Pattern A

Faturalar, makbuzlar, ölçekte formlar

Temiz şablonlar, öngörülebilir düzen, ayda milyonlarca belge. Toplu iş için Gemini 2.5 Flash, şema disiplini darboğaz haline geldiğinde Haiku 4.5. İkisi de doğrulamayla yeniden denemek için yeterince ucuzdur.

Pattern B

Sözleşmeler, izahnameler, hukuki belgeler

Uzun, yoğun, çapraz referanslarla dolu. Ağır okuma için Sonnet 4.6, belirsiz maddeler üzerinde açık akıl yürütme gerektiren adımlar için o4-mini. Her zaman kaynak sayfaya atıflarla yapılandırılmış çıktı üretin.

Pattern C

Gerçek zamanlı form doldurma

Kullanıcı ham metin yapıştırır, kullanıcı arayüzünüz formu doldurur. Gecikme baskındır. Katı şema moduyla GPT-4.1 mini güvenli varsayılandır; kullanıcı cevabı bir saniyeden kısa sürede görür ve yapılandırılmış çıktının geçerli olduğu garantilidir.

Pattern D

PII-hassas veya egemen belgeler

Tıbbi kayıtlar, finansal beyanlar, sınır ötesi kısıtlamaları olan vatandaş veri formları. Kontrol ettiğiniz altyapıda açık ağırlıklı bir modeli kendiniz barındırın: donanım uyumları için yerel & barındırılan rehberine bakın.

Operasyon ekibi kurulumu — kavram görseli — Pipeline, yalnızca şema, doğrulayıcı ve insan denetimleri kadar iyidir.

Karar vermeden önce kendi belgelerinizde benchmark yapın

Kendi birikiminizden elli gerçek belge alın ve bunları elle etiketleyin. Görkemli bir iş değildir; prodüksiyon pipeline'ı devreye ilk girdiğinde ve modelin yerini aldığı regex'ten daha iyi olup olmadığını bilmek istediğinizde kendisini amorti eder. Her adayı aynı elli belge üzerinde çalıştırın ve gerçek zemine karşı hassasiyet ile geri çağırmayı ölçün.

Sonra ortalamalara değil başarısızlıklara bakın. Her model nerede alan uydurdu? Her model dolu olması gereken alanı nerede boş bıraktı? Taranmış sayfayla, ikinci dildeki belgeyle, döndürülmüş tabloyla her biri nasıl başa çıktı? Başarısızlık analizinizden sağ kurtulan model, prodüksiyondan sağ kurtulan modeldir. Bu rehberin ne önerdiğine bakılmaksızın onu kullanıma alın.

Canlı test aracını aç →