Meta AI’den 100M Altı Parametreli EUPE: Akıllı Telefonlarda Güçlü Görüntü İşleme

Yapay zekâ teknolojileri hızla ilerlerken, güçlü yapay zekâ modellerini akıllı telefonlarda çalıştırmak hâlâ büyük bir zorluk olarak karşımıza çıkıyor. Sorunun yalnızca donanımda değil, aynı zamanda model mimarisinde yattığını ortaya koyan Meta AI, bu alanda çığır açacak yeni bir çözüm geliştirdi. Geliştirilen EUPE adlı kompakt görsel kodlayıcı ailesi, 100 milyon parametrenin altında kalarak, yüksek performanslı uzman modellerin yeteneklerini geride bırakmayı başarıyor.

Görsel kodlayıcılar, yapay zekâ sistemlerinin “gözleri” olarak tanımlanabilir. Ham görüntü verilerini işleyip, anlamlı ve kullanışlı özelliklere dönüştürürler. Ancak mevcut uzman kodlayıcılar genellikle tek bir göreve odaklı olduğundan, örneğin sadece görüntü sınıflandırma ya da segmentasyon konularında başarılı olurlar. Akıllı telefonlar gibi sınır cihazlarında, bu modellerin birkaçı aynı anda çalıştırılmak zorunda kalırsa performans ve enerji tüketimi sorunları kaçınılmaz hale gelir.

Meta AI’ın yeni önerisi, birden fazla karmaşık uzman modeli aynı anda kullanmak yerine, tüm bu görevleri tek başına yapabilen daha küçük ve pratik bir model geliştirmek oldu. EUPE olarak adlandırılan bu sistem, farklı uzman modellerin güçlü yönlerini önce büyük bir “proxy öğretmen” modelde topluyor, ardından bu bilgiyi daha küçük ve verimli öğrenci modellere aktararak tüm görevlerde yüksek başarım elde ediyor.

EUPE’nin temelinde “önce büyüt, sonra küçült” stratejisi yatıyor. Bu yöntemde, üç aşamalı bir eğitim süreci izleniyor. İlk aşamada büyük modellerin bilgisi proxy modelde birleştiriliyor, ikinci aşamada bu proxy model, küçük modelleri eğitiyor ve son aşamada da küçük model farklı görüntü çözünürlüklerinde ince ayar yapıyor. Böylece model hem görüntü sınıflandırma, hem görüntü tabanlı yoğun tahmin, hem de görsel-dil (VLM) görevlerinde üstün yetenekler sergiliyor. Bu çok yönlülük, akıllı telefon veya artırılmış gerçeklik cihazlarında çoklu görevlerin aksamadan yürütülmesini mümkün kılıyor.

Araştırmanın önemli noktalarından biri ise, farklı öğretmen modellerin birlikte kullanılmasının her zaman avantaj sağlamaması. Örneğin, aynı tipte iki görsel-dil modeli kullanmanın performansı olumsuz etkilediği, ancak farklı uzmanlıklara sahip modellerin uyum içinde çalıştığı gözlemlendi. Bu da multi-öğretmen distilasyon süreçlerinde öğretmen seçiminin çok kritik olduğunu ortaya koyuyor.

Performans sonuçları ise oldukça dikkat çekici. EUPE, 86 milyon parametreli bir model olarak ImageNet veri setinde uzman modelleri geride bırakarak %84,1 doğruluk oranına ulaştı. Aynı şekilde yoğun tahmin ve görsel-dil görevlerinde önceki en iyi modellerle karşılaştırıldığında önemli başarı farkları yakaladı. Üstelik bu modeller, iPhone 15 Pro gibi güncel cihazlarda milisaniyeler seviyesinde çalışarak gerçek zamanlı kullanım imkanı sunuyor.

Bu yenilik, yapay zekâ uygulamalarının sınır cihazlarına kadar yayılmasında önemli bir dönüm noktası olabilir. Özel olarak donanımı güçlü olmadan yapay zekâyı etkin şekilde kullanan mobil uygulamalarda, akıllı kamera sistemlerinde ve artırılmış gerçeklik teknolojilerinde devrim yaratma potansiyeline sahip. Ayrıca araştırma, büyük veri kalitesinin nicelikten daha önemli olduğunu da vurguluyor; daha az ama kaliteli veri ile daha başarılı modeller geliştirilebileceğini ortaya koyuyor.

Gelecekte, EUPE ve benzeri kompakt modeller sayesinde yapay zekâ destekli görüntü işlemeye dayalı yeni nesil uygulamalar daha fazla cihaza entegre edilebilecek. Bu da yapay zekânın günlük hayatımıza daha derinlemesine nüfuz etmesine olanak tanıyacak. Ayrıca, araştırmanın açık kaynak olarak paylaşılması geliştiricilerin ve şirketlerin kendi çözümlerini kolayca geliştirmesine zemin hazırlıyor. Meta AI’ın bu yeniliği, yapay zekâ alanında sınır cihazlarında yepyeni bir güç dengesi oluşturacak gibi görünüyor.

📎 Kaynak: marktechpost.com