IBM’den Belgelerde Çığır Açan Görüntü-Dil Modeli: Granite 4.0 3B Vision

IBM, belge verilerinin çıkarılması alanında yeni bir dönemi başlatan Granite 4.0 3B Vision modelini duyurdu. Bu model, karmaşık grafiklerin kod veya tabloların HTML biçimine dönüştürülmesinde yüksek hassasiyetle çalışan, özellikle işletmelere yönelik geliştirilmiş bir görsel-dil (vision-language) yapay zeka sistemi olarak öne çıkıyor. Geleneksel çok modlu modellerin genel amaçlı yaklaşımlarından farklı olarak, Granite 4.0 3B Vision, yapılandırılmış veri çıkarımında uzmanlaşmış bir modüler adaptör olarak tasarlandı.

IBM’in bu yeni modeli, 3.5 milyar parametreye sahip olan Granite 4.0 Micro dil modelinin üzerine eklenen yaklaşık 0.5 milyar parametreli LoRA (Düşük Dereceli Uyarlama) adaptöründen oluşuyor. Bu yapı, modelin metin-only işlemleri bağımsız şekilde yönetmesine olanak tanırken, görsel-yazılı içerik işleme gerektiğinde adaptörün devreye girmesini sağlıyor. Böylece kaynakların verimli kullanıldığı, çift modda çalışan yenilikçi bir sistem ortaya çıkıyor.

Görsel bileşeninde google/siglip2-so400m-patch16-384 kod çözücü yer alıyor. Bu teknoloji, belge içindeki çeşitli yerleşimleri yüksek çözünürlükte işlemek için görüntüyü 384×384 piksellik küçük parçalara ayırıyor ve aynı zamanda tüm görüntünün düşük çözünürlüklü bir genel görünümünü eş zamanlı işliyor. Bu yöntem, özellikle formüllerdeki küçük alt simgeler ya da grafiklerdeki ince veri noktaları gibi detayların kaybolmadan modelin işlem hattına ulaşmasını sağlıyor.

IBM, görsel ve dil modlarını birbirine entegre etmek için DeepStack mimarisinin özel bir versiyonunu kullanıyor. Görsel veriler sekiz farklı noktadan dil modeline “enjekte” edilerek, içerik (anlam) ve konum (uzamsal düzen) unsurları arasındaki bağ çok sıkı bir şekilde kuruluyor. Bu yaklaşım, dokümanların yapısal ayrıştırmasında doğruluğu önemli ölçüde artırıyor. Özellikle tablo ve grafiklerin doğru tanımlanması ve kodlanması adına bu teknoloji kritik rol oynuyor.

Eğitim sürecinde IBM, Granite 4.0 3B Vision’u özellikle karmaşık belge yapıları üzerinde yoğunlaştırdı. Model, milyonlarca örnek içeren ChartNet veri setiyle grafik okuma yeteneklerini geliştirdi. Ayrıca “kod rehberli” bir eğitim yöntemi benimsendi; bu yaklaşımla grafiklerin oluşturulma kodları, görsel çıktılar ve veri tabloları arasındaki bağlantılar öğretilerek, modelin görsel verilerin arkasındaki mantığı kavraması sağlandı. Model, tablo yapılarındaki anahtar-değer çiftlerinin çıkarılması ve görsel grafiklerin makine okunabilir formata dönüştürülmesi üzerine de ayrıcalıklı olarak ince ayar gördü.

Performans açısından Granite 4.0 3B Vision, belgenin anlaşılması ve çıkarılması alanında önemli benchmark testlerinde ön sıralarda yer alıyor. VAREX, ChartNet ve OmniDocBench gibi endüstri standartlarındaki değerlendirmelerde yüksek doğruluk oranları sergileyerek, aynı parametre büyüklüğündeki diğer modeller arasında üçüncü sıraya yükseldi. Bu da modelin, küçük boyutuna rağmen görev odaklı yapısal çıkarımda ne denli etkin olduğunu gösteriyor.

IBM’in bu atılımı, doküman işleme teknolojilerinde doğruluk ve verimliliği artırma potansiyeli taşıyor. Granite 4.0 3B Vision, özellikle finansal raporlar, teknik dokümanlar ve karmaşık grafik analizleri için kullanıldığında, insanların manuel veri işleme gereksinimini azaltabilir. Aynı zamanda, yapay zekanın özel iş akışlarına entegre edilmesiyle işletmeler için iş süreçlerinde büyük tasarruf ve hız artışı mümkün hale gelebilir.

Sonuç olarak, IBM’in yeni modelinin modüler yapısı, yüksek çözünürlüklü görsel işleme teknikleri ve kod rehberli eğitim yöntemi, yapay zeka destekli belge analizi alanında yeni bir standart oluşturuyor. Apache 2.0 lisansı ile geliştiricilere açılan bu teknoloji, ilerleyen yıllarda yapay zeka destekli belgelerin otomatik analizinde devrim yaratabilir ve endüstriyel uygulamalarda geniş çapta kullanılabilir hale gelebilir.

📎 Kaynak: marktechpost.com