Günümüzde belgelerdeki metinlerin otomatik olarak tanınması, yani OCR teknolojisi, halen birçok zorlukla karşılaşıyor. Özellikle karmaşık düzenlere sahip belgelerde, tablolar, formüller ve yapısal bilgiler metin tanımanın ötesinde bir hassasiyet ve hız gerektiriyor. Çinli araştırmacılar tarafından geliştirilen GLM-OCR ise tam bu noktada devreye girerek, hem yüksek doğruluk hem de düşük kaynak kullanımıyla dikkat çekiyor.
GLM-OCR, Zhipu AI ve Tsinghua Üniversitesi iş birliğiyle ortaya konan 0.9 milyar parametreli kompakt bir multimodal model olarak tanımlanıyor. Bu model, belge anlayışını optimize etmek amacıyla 0.4 milyar parametreli CogViT görsel kodlayıcı, hafif bir çapraz modal bağlayıcı ve 0.5 milyar parametreli GLM dil çözücüsünden oluşuyor. Amaç, büyük ve hantal modellerin aksine, hem hızlı hem de düşük gecikme süresiyle belge tanıma işlemini gerçekleştirmek.
Geleneksel OCR sistemleri genellikle sadece düz metin tanımada başarılıyken; tablo, formül, mühür, kod blokları veya karmaşık yapısal alanlar gibi öğelerde geri kalıyor. Son yıllarda multimodal büyük dil modelleri bu zorlukları aşmayı denedi ancak bunların kaynak tüketimi yüksek olduğu için geniş çaplı kullanımlarda maliyet ve performans sorunları yaşanıyor. İşte GLM-OCR, bu sorunları aşmak için “çok token tahmini” (Multi-Token Prediction – MTP) gibi yenilikçi yaklaşımlar sunuyor.
MTP yöntemi, modelin her adımda birden fazla token üretmesini sağlıyor. Bu sayede standart bir ortamda tek tek tahmin edilen semboller yerine, çok tokenlı bir yaklaşım uygulanıyor. GLM-OCR ile yapılan testlerde, model her tahmin adımında ortalama 5,2 token üretirken, bu durum işlem hızında yaklaşık %50 artışa yol açıyor. Aynı zamanda belleği daha verimli kullanmak adına parametre paylaşımı gibi optimizasyonlar da hayata geçirilmiş durumda.

Sistemin belki de en önemli teknik adımı ise sayfa okunma yerine “iki aşamalı düzen analizi” anlayışını benimsemesi. İlk aşamada PP-DocLayout-V3 adlı modelle belge üzerindeki anlamlı bölgeler ayrıştırılıyor ve yapısal alanlar tespit ediliyor. Sonrasında, bu alanlarda paralel olarak tanıma işlemi devreye giriyor. Böylece belge, anlamsal bölgeler bazında ayrılarak kodlama ve tanıma yapıyor; bu da karmaşık düzenlerde daha başarılı sonuçlar alınmasını sağlıyor.
GLM-OCR aynı zamanda belge çözümleme ve anahtar bilgi çıkarma (Key Information Extraction – KIE) görevlerini farklı çıktılarla ele alıyor. Belge çözümlemede modeller Markdown ve JSON gibi yapılandırılmış formatlar üretirken, KIE modunda ise tüm belge görüntüsü tek bir istekle modele verilip doğrudan JSON çıktı üretiliyor. Bu ayrım, çok yönlü belge işleme ihtiyacına esnek cevap veriyor.
Araştırma sürecinde model dört aşamalı bir eğitim prosedüründen geçirildi. İlk aşamalarda görsel kodlayıcı temel görüntü ve metin çiftleriyle eğitildi. Sonrasında multimodal ön eğitim ve MTP hedefi eklendi. Özelleştirilmiş son aşamalarda ise yazı tanıma, formül tanımlama, tablo yapısı oluşturma ve anahtar bilgi çıkarma gibi spesifik görevlerde ince ayar yapıldı. En sonunda pekiştirmeli öğrenme ile modelin performansı optimize edildi. Bu karmaşık eğitim dizisi, modelin belge çeşitliliğine ve karmaşıklığına uyum sağlamasında büyük rol oynuyor.
Benchmark testlerinde GLM-OCR, çok sayıda belge tanıma setinde güçlü performanslar sergiliyor. OmniDocBench, OCRBench (Text), UniMERNet ve TEDS_TEST gibi veri kümelerinde yüksek doğruluk ve verimlilik sağlıyor. Ancak en iyi model olduğu tüm testlerde söylenemez; örneğin PubTabNet’de MinerU 2.5 modeli biraz daha önde yer alıyor. Anahtar bilgi çıkarma görevlerinde ise Gemini-3-Pro bazı alanlarda daha üstün sonuç veriyor. Bu durum, GLM-OCR’nin güçlü ama seçici bir başarı gösterdiğine işaret ediyor.
Özellikle hesaplama kaynağı ve hız açısından avantajları nedeniyle GLM-OCR, pratik uygulamalarda geniş yer bulabilir. 0.67 görsel/saniye ve 1.86 PDF sayfa/saniye hızları ile verimlilik sağlarken, düşük maliyetli bir API hizmeti olarak da sunuluyor. Bu da belge yönetimi, otomatik veri çıkarımı ve dijital arşivleme gibi alanlarda kullanıcıların işini kolaylaştırabilir.
Özetle GLM-OCR, geleneksel OCR sınırlarını zorlayan karmaşık belgeleri daha etkili işleyebilen, küçük ve esnek bir multimodal model olarak öne çıkıyor. İki aşamalı düzen analizi, çok token tahmini ve görev odaklı eğitim süreçleri sayesinde hem hız hem de doğrulukta önemli kazanımlar sunuyor. Gelecekte belge tanıma teknolojilerinin üretim ortamlarında daha yaygın kullanılması ve özellikle KIE gibi kritik uygulamalarda tercih edilmesi bekleniyor.
📎 Kaynak: marktechpost.com



