Liquid AI’nin Yeni Modeli LFM2.5-VL-450M Kenar Cihazlarda Görsel Anlamayı Güçlendiriyor

Yapay zeka dünyasında sınırları zorlayan yeni gelişmeler hız kesmeden devam ediyor. Liquid AI, küçültülmüş parametre sayısına rağmen yüksek performans vaat eden yeni vizyon-dil modeli LFM2.5-VL-450M’yi tanıttı. Bu model, doğrudan kenar cihazlarda çalışacak şekilde optimize edilerek akıllı gözlüklerden endüstriyel robotlara kadar birçok alanda önemli yenilikler sunmayı hedefliyor. Özellikle bounding box (nesne konumlandırma) tahmini ve çoklu dil desteği gibi özellikler, modeli sınıfının dikkat çeken örneklerinden biri haline getiriyor.

Vision-language model (VLM) yani görsel ve dil bilgilerinin birlikte işlendiği modeller, yapay zekada son yılların en heyecan verici gelişmelerinden biri oldu. Görüntüye dair sorulara doğal dil kullanarak yanıt verebilen bu sistemler genellikle güçlü donanım ve bulut altyapısı gerektiriyor. Ancak Liquid AI’nin yeni modeli LFM2.5-VL-450M, bu güçlü fonksiyonları küçük boyuta sıkıştırarak, sınırda (edge) çalışan cihazlarda gerçek zamanlı kullanım imkanı sunuyor. Bu, depolama ve maliyet problemlerini minimize ederken, gecikmeyi de önemli ölçüde azaltıyor.

LFM2.5-VL-450M, Liquid AI’nin önceki modeli LFM2-VL-450M’nin güncellenmiş versiyonu olarak kabul edilebilir. Model, 450 milyon parametreye sahip olup, dil işleme omurgasında LFM2.5-350M ve görsel kodlayıcı olarak da SigLIP2 NaFlex 86M teknolojilerini kullanıyor. Görüntüleri doğal çözünürlükte işleyebilmesi ve orantı bozulmalarına izin vermemesi sayesinde çeşitli endüstriyel ve ticari uygulamalara uyum sağlıyor. Ayrıca 32.768 tokenlık uzun bağlam desteği ve 65.536 kelimelik geniş sözlüğü, karmaşık metin ve görsel kombinasyonlarını başarıyla yönetmesine olanak veriyor.

Geliştirilmiş en dikkat çekici özelliklerden biri, modelin artık görüntüdeki nesnelerin tam konumlarını belirtebilmesi. Daha önce bu alanda sınırlı kalan model, RefCOCO-M benchmark testinde 81.28 puan alarak nesnelerin koordinatlarını kesin bir şekilde tanımlayabiliyor. Bu, sadece görsel nesneleri tanımakla kalmayıp, onları tam olarak nerede bulduğunu da bildirebilen, bu nedenle robotik ve otomatik kontrol sistemlerinde daha işlevsel olmasını sağlayan bir yenilik. Ayrıca çok dilli anlayışında da kayda değer artışlar yaşandı. Arapça, Çince, Fransızca, Almanca, Japonca, Korece, Portekizce ve İspanyolca gibi dillerde modelin performansı önemli ölçüde iyileşti, böylece küresel ve çok dilli uygulamalarda kullanımı kolaylaştı.

LFM2.5-VL-450M yalnızca görsel değil, aynı zamanda talimatları takip etme konusunda da önemli gelişmeler gösteriyor. Model, kullanıcının verdiği yönergelere daha hassas yanıtlar verebiliyor ve belirli formatlarda çıktı üretmek gibi talepleri yüksek doğrulukla yerine getirebiliyor. Ayrıca, yeni işlev çağırma (function calling) özelliği sayesinde dış sistemlerle entegre çalışabilirliği artırıldı. Örneğin, hava durumu sorgulama veya başka API’lerle etkileşim bu sayede mümkün hale geliyor. Bu, modelin sadece “gör ve anlat” sistemi olmaktan çıkıp, karmaşık görevlerde aktif rol oynayabilen bir araç olmasına katkı sağlıyor.

Modelin gerçek zamanlı işlemedeki başarısı da dikkat çekici. NVIDIA Jetson Orin gibi gömülü sistemlerde 512×512 piksel çözünürlükte bir görüntüyü 242 milisaniyede işleyerek 4 kare/saniye hızla tam vizyon-dil analizini gerçekleştirebiliyor. Bu süreler, cihazların internete bağlanmaksızın düşük gecikmeyle çalışmasını mümkün kılıyor. Ayrıca Samsung S25 Ultra ve AMD Ryzen AI Max+ 395 gibi farklı donanımlarda da yüksek performans göstererek geniş bir cihaz yelpazesinde esnek kullanım avantajı sunuyor.

Pratikte, bu model endüstriyel otomasyon, perakende görüntü analizi, akıllı gözlükler ve gözetim sistemleri gibi alanlarda önemli avantajlar sağlayabilir. Özellikle gizlilik kaygılarının ön planda olduğu durumlarda, bulut bağlantısına gerek kalmadan cihaz üzerinde çalışan bu sistemler, veri güvenliğini arttırırken tepki süresini de iyileştiriyor. Raf düzenlemeden işçi hareket takibine kadar farklı uygulamalarda nesne tanıma ve anlamaya dayalı süreçler hız kazanacak.

Liquid AI’nin LFM2.5-VL-450M modeli, yapay zekanın küçük ve taşınabilir donanımlarda da yüksek verimle çalışabileceğini gösteriyor. Önümüzdeki yıllarda bu tür kompakt vizyon-dil modellerinin, robotik ve mobil uygulamalarda standart hale gelmesi bekleniyor. Araştırmanın kapsamının genişlemesi ve yeni işlevlerin eklenmesiyle, daha kompleks ve kullanıcı dostu yapay zeka sistemlerinin hayatımıza girmesi uzak değil.

📎 Kaynak: marktechpost.com