Falcon Perception ile Görsel Algılamada Yeni Dönem Başlıyor

Bilgisayar görüşü alanında devrim yaratabilecek yeni bir teknoloji, yapay zekânın görsel ve dilsel verileri aynı anda işlemesini mümkün kılıyor. Technology Innovation Institute (TII) araştırma ekibinin geliştirdiği Falcon Perception, geleneksel modüler yapıları geride bırakarak hem görüntü hem de metni tek bir modelde birleştiren 600 milyon parametreli yoğun bir Transformer mimarisi sunuyor. Bu yenilik, yapay zekanın görsel algılama ve görev modelleme süreçlerini daha önce olmadığı kadar verimli hale getiriyor.

Günümüzde yaygın olarak kullanılan bilgisayar görüsü sistemleri, önceden eğitilmiş bir görsel kodlayıcı ile ayrı bir görev tahmin edici kod çözücüyü bir arada kullanıyor. Ancak bu modüler yapı, dil ve görsel veriler arasındaki etkileşimi sınırlıyor ve ölçeklendirmeyi zorlaştırıyor. Falcon Perception, bu soruna köklü bir çözüm getirmek amacıyla tasarlandı. Araştırmacılar, görsel-dilsel birleşimi en başından itibaren ortak bir parametre uzayında işleyerek “erken füzyon” (early-fusion) yaklaşımını kullanıyorlar. Böylece hem görüntü hem de metin makinaya aynı anda büyük bir bütünlükle sunuluyor.

Falcon Perception’in temelinde, tek bir Transformer’ın hem görsel temsil oluşturma hem de görev özelinde çıktı üretme becerisi yatıyor. Model, standart dil modellerinden farklı olarak hibrit bir dikkat mekanizması kullanıyor. Görsel parçalar (image patches) birbirleri üzerinde çift yönlü (bidirectional) dikkat kurarken, metin ve görevle ilgili tokenlar önceki bilgilere dayalı otomatik üretim için tek yönlü (causal) dikkat mekanizması kullanıyor. Bu sayede model hem görsel bağlamı hem de dilsel dizilimi aynı anda işleyebiliyor.

Görsellerin iki boyutlu mekânsal yapısını koruyabilmek için Falcon Perception, 3D Rotary Positional Embeddings dediğimiz gelişmiş konum bilgisi kodlamasını kullanıyor. Bu yöntem, modelin görsel ögelerin konumunu ve yönelimini daha sağlam anlayabilmesini sağlıyor. GGROPE adı verilen teknik ise modelin mekânsal dikkatini açı ve boyut gibi değişkenlere karşı esnek kılıyor. Bu özellikler, modelin farklı görüntü türlerinde döndürme veya ölçek değişikliklerinden etkilenmeden doğru tahminler yapmasına olanak veriyor.

TII ekibi, büyük ölçekli GPU kaynaklarını verimli kullanmak için Falcon Perception’a özel mühendislik optimizasyonları da ekledi. Muon optimizasyon yöntemi, koordinat ve segmentasyon gibi görev özelindeki başlıkların öğrenmesini hızlandırırken, FlexAttention adındaki yenilik grafikteki kendi kendine dikkat hesaplamalarını yerel tutarak gereksiz hesap yükünü azaltıyor. Ayrıca model, çoklu nesne tespiti sırasında koordinatları raster sırasıyla (üstten alta, soldan sağa) tahmin ederek öğrenme sürecini hızlandırıyor.

Eğitim süreci ise tam anlamıyla kapsamlı bir reçete izliyor. Falcon Perception, hem görsel hem de dil özelliklerini barındıran çok sayıda veri üzerinde üç aşamalı bir eğitimden geçiyor. Öncelikle sahnedeki nesneleri listeleme yeteneği kazanıyor, sonra sorgu temelli bağımsız görevlerle eğitilerek nesneleri doğru şekilde yerleştirmeyi öğreniyor ve son aşamada da yüksek karmaşıklıktaki yoğun maskelerle ince ayar yapılıyor. Bu zengin eğitim süreci modelin ayrıntılı ve karmaşık görevlerde üstün performans göstermesini sağlıyor.

Performans testlerinde Falcon Perception, özellikle semantik karmaşıklığın yüksek olduğu görevlerde mevcut lider modelleri açık ara geride bırakmayı başardı. Yeni geliştirilen PBench kıyaslama testi, görüntülerin detaylarını, ilişkilerini ve konumsal özelliklerini analiz eden beş seviyeye ayrılmış karmaşık görevler içeriyor. Burada Falcon Perception, örneğin konumsal anlama bölümünde rakibine göre neredeyse yüzde 22 puan daha iyi sonuçlar elde etti. Bu da modelin gerçek dünya uygulamalarında niteliği artırabileceğine işaret ediyor.

Ayrıca TII araştırmacıları, bu mimariyi ölçeklendirilmiş hale getirip 300 milyon parametreli FalconOCR modelini sunarak, belge tanıma alanında yüksek başarı elde etti. FalconOCR, daha büyük ve modüler sistemlerle karşılaştırıldığında hem doğruluk hem de hız bakımından rekabetçi çıktı sağlıyor. Bu da geniş çapta belge işleme ve metin tanıma uygulamalarında yeni kapılar açıyor.

Falcon Perception’ın getirdiği tek modelde görsel ve dil verilerinin birleşimi, yapay zekâ sistemlerinin daha akıllı, hızlı ve esnek hale gelmesi anlamına geliyor. Özellikle otomatik segmentasyon, nesne tanıma ve karmaşık sahne analizi gibi uygulamalarda çığır açması beklenen bu teknoloji, gelecekte görsel veri işleme alanında standartları yeniden tanımlayabilir. Araştırmanın ilerleyen aşamalarında, mimarinin farklı sektörlere ve uygulamalara uyarlanması, yapay zekanın günlük hayatımızdaki etkisini daha da büyütecektir.

TII araştırma ekibinin Falcon Perception çalışması, bilgisayarlı görme ve yapay zekâ alanında önemli bir gelişme olarak ön plana çıkıyor. Erken füzyonlu Transformer mimarisi, hem akademik araştırmalarda hem de endüstriyel uygulamalarda yeni yöntemlerin önünü açacak güçlü potansiyele sahip. Bu yenilik, hem makine öğrenim modellerinin hızını ve doğruluğunu artıracak hem de görsel ve metin verilerini daha anlamlı şekilde birleştirerek yapay zekânın çok yönlülüğünü artıracak.

📎 Kaynak: marktechpost.com