Microsoft’tan 15 Milyar Parametreli Yeni Görüntü ve Metin Yapay Zekası

Microsoft, yapay zeka dünyasında yeni bir dönemi başlatabilecek 15 milyar parametreli Phi-4-reasoning-vision-15B modelini duyurdu. Görüntü ve metin üzerinde algılama ve seçici akıl yürütme yeteneklerini bir arada sunan bu model, özellikle bilimsel ve matematiksel problemlerde, aynı zamanda kullanıcı arayüzlerini anlamada öne çıkıyor. Şirket, bu kompakt modelle yüksek performansı, işlem verimliliği ve eğitim veri gereksinimleri arasında güçlü bir denge sağlamayı hedefliyor.

Phi-4-reasoning-vision-15B, dil işleme ve görüntü algısı alanlarındaki gelişmiş teknolojilerin birleştirilmesiyle ortaya çıktı. Model, Phi-4-Reasoning isimli güçlü bir dil tabanını, SigLIP-2 görsel kodlayıcısıyla bir araya getiren “orta seviyeli füzyon” mimarisi kullanıyor. Bu yaklaşımda, görsel kodlayıcı önce görüntüyü işleyerek görsel parçacıklar oluşturuyor, ardından bu parçacıklar dil modeli evrenine aktarılıyor ve burada detaylı analiz ediliyor. Böylece daha karmaşık çözümler generate etmek için güçlü çoklu modal (görüntü ve metin) akıl yürütme sağlanırken, eğitim ve çalışma maliyetleri makul düzeyde tutuluyor.

Microsoft, günümüzde bazı multimodal modellerin milyarlarca parametre ve trilyonlarca veri token’i kullanarak geliştirilmesine karşın, daha küçük ama etkili bir alternatif sunmanın avantajlarını vurguluyor. Phi-4-reasoning-vision-15B, yaklaşık 200 milyar multimodal token ve önceki Phi-4 serisinin 400 milyar token eğitim temeli üzerine inşa edildi. Bu, bazı popüler modellerin kullandığı 1 trilyondan fazla token sayısına kıyasla daha az veri gereksinimi ve daha düşük işlem yükü anlamına geliyor. Bu strateji, modelin çalışma hızını artırırken yaygın kullanım alanlarında güçlü sonuçlar vermesini sağlıyor.

Modelin en dikkat çekici teknik özelliklerinden biri, yüksek çözünürlüklü görsel algılama yeteneği. Araştırmacılar, multimodal akıl yürütmede başarısızlıkların çoğunlukla algılama aşamasındaki yetersizliklerden kaynaklandığını belirtiyor. Özellikle, ekran görüntüleri, belgeler ve küçük detaylar içeren kullanıcı arayüzlerinde modelin dikkatli ve doğru görsel detaylar çıkarabilmesi kritik önemde. Bu nedenle Phi-4-reasoning-vision-15B, dinamik çözünürlükte çalışan ve 3.600 görsel parça işleyebilen bir kodlayıcı kullanıyor. Bu sayede, detaylı görsel analiz gereken görevlerde belirgin kazanımlar elde ediyor, doğru algılamanın kaliteli akıl yürütmenin olmazsa olmazı olduğunu ortaya koyuyor.

Microsoft’un modelde benimsediği bir diğer önemli yenilik, karma akıl yürütme ve doğrudan algılamayı harmanlayan eğitim stratejisi. Model, tüm görevlerde zorunlu olarak derin akıl yürütme yapmaya zorlanmıyor; bunun yerine, işaretlenen modlarla farklı yaklaşım sergiliyor. Akıl yürütme gereken durumlarda … şeklinde, sadece algılama odaklı işlerde ise etiketiyle işlem yapıyor. Böylece, örneğin matematik veya bilimsel problem çözmede karmaşık düşünce süreçleri işletilirken, basit görsel tanımlama veya belge okuma gibi görevlerde hız ve doğruluk ön planda tutuluyor. Bu değişken mod kullanımı, modelin farklı görevler arasında verimli ve esnek çalışmasını destekliyor.

Phi-4-reasoning-vision-15B, özellikle iki alanda etkisini gösteriyor. Birincisi, el yazısı denklemler, diyagramlar, grafikler ve tablolar gibi karmaşık görsel materyaller üzerinde bilimsel ve matematiksel akıl yürütme. İkincisi ise bilgisayar kullanımına yönelik uygulamalar; model ekran içeriklerini yorumlayabiliyor, grafik arayüz elemanlarını tespit edip konumlandırabiliyor ve masaüstü, web ile mobil ortamlarla etkileşimlerde destek sağlıyor.

Yapılan testlere göre model, matematiksel ve görsel anlama alanlarında dikkat çekici performans sergiliyor. AI2DTEST’te 84.8, ChartQATEST’te 83.3, MathVistaMINI’de 75.2 puan alması; OCR ve ekran görüntü tanıma testlerinde de yüksek başarı göstermesi, modelin çok yönlü kullanım potansiyelini ortaya koyuyor. Microsoft, bu sonuçları kesin bir liderlik iddiası olmadan, karşılaştırmalı başarı olarak sunuyor.

Bu gelişme, yapay zekanın karmaşık görsel-veri ve metin sorunlarını daha pratik ve ekonomik şekilde çözmesinde önemli bir adım olarak görülüyor. Geliştirilen model, büyük ölçekli altyapı ihtiyacını azaltarak erişilebilirliği artırıyor ve gerçek dünyadaki problemlere çok daha uygun çözümler sunuyor. Özellikle eğitim, bilim, teknoloji ve kullanıcı arayüzü otomasyonu gibi alanlarda büyük yeniliklere kapı aralayabilir.

Gelecekte, bu tür kompakt ama güçlü multimodal modeller, yapay zekanın hem akademik araştırmalarda hem de pratik uygulamalarda etkin biçimde kullanılması için anahtar rol oynayacak. Microsoft’un sunumu, farklı görevlerde esneklik sağlayan hibrit akıl yürütme yaklaşımı ve yüksek çözünürlüklü görme yeteneği, yapay zeka ve insan etkileşimini yeni bir seviyeye taşıma potansiyeli taşıyor. Bu teknoloji, özellikle karmaşık görsel-veri setleriyle çalışan bilim insanları ve geliştiriciler için yeni ufuklar açabilir.

Kaynak: https://www.marktechpost.com/2026/03/06/microsoft-releases-phi-4-reasoning-vision-15b-a-compact-multimodal-model-for-math-science-and-gui-understanding/