Google DeepMind, robotların gerçek dünyadaki görevlerde daha akıllı ve etkili çalışmasını sağlayacak önemli bir gelişmeyi duyurdu. Gemini Robotics-ER 1.6 adı verilen yeni nesil model, robotların ortamı daha iyi anlaması, plan yapması ve görevlerin başarıyla tamamlandığını algılamasında çıtayı yukarı taşıyor. Bu teknoloji, özellikle endüstriyel uygulamalarda büyük potansiyel taşıyor ve robotların iş gücünde sınırları yeniden belirleyebilir.
Gemini Robotics-ER 1.6, robotların “bilişsel beyni” olarak tanımlanabilecek bir model. Robotların dünyayı görsel ve mekânsal olarak kavramasına, karmaşık görevleri planlamasına ve gerçekleştirilen işin başarılı olup olmadığını anlamasına odaklanıyor. DeepMind, robotik yapay zekâsında çift model yaklaşımını benimseviyor: Bir model, Gemini Robotics 1.5, görsel bilgiyi doğrudan motor hareketlerine dönüştürürken; Gemini Robotics-ER 1.6 ise stratejik seviyede, ne yapılması gerektiğini belirleyip karar veriyor. Yani bu yeni model, stratejist olarak görev yapıyor ve kontrollere direkt müdahale etmiyor.

Gemini Robotics-ER 1.6, önceki sürümlere kıyasla özellikle mekânsal ve fiziksel muhakeme alanında büyük ilerlemeler sundu. Özellikle dikkat çeken yenilik, “enstrüman okuma” yeteneği. Bu özellik, analog göstergeler, basınç sayaçları, sıvı seviye göstergeleri ve dijital ekranların okunması gibi endüstriyel sensörlerin robotlar tarafından doğru şekilde yorumlanmasına olanak tanıyor. Bu, Boston Dynamics’in Spot robotu gibi saha robotlarıyla beraber kullanıldığında, tesislerde inspection (denetim) süreçlerine bambaşka bir boyut kazandırıyor.
Modelin en önemli yeteneklerinden biri “işaret etme” fonksiyonu. Görüntü üzerindeki belirli piksellere hassas şekilde işaret edebilme, robotun çevresindeki nesneleri tanımlamasını ve saymasını sağlıyor. Bu sayede robot, sadece nesneleri görmekle kalmıyor; aynı zamanda en küçüğü tespit etmek, nesneler arası konum ilişkilerini anlamak ve hareket yollarını planlamak gibi karmaşık görevleri de yapabiliyor. Örneğin, “X nesnesini Y konumuna taşı” gibi çok adımlı talepler için gereken mantığı burada devreye giriyor.

Gemini Robotics-ER 1.6’nın gelişimi, gerçek dünyada karşılaşılan zorlukları da gözetiyor. Robotların bir görevi tamamlayıp tamamlamadığını anlaması için “başarı tespiti” oldukça kritik. Bu model, birçok kameradan gelen farklı açılardaki görüntüleri bir araya getirerek, dinamik ortamlarda bile görev bitişini doğru şekilde değerlendirebiliyor. Böylece robot, başarısız olursa tekrar denemek veya yeni aşamaya geçmek gibi kararları kendi başına alabiliyor.
En dikkat çekici yeniliklerden biri olan enstrüman okuma yeteneği, robotların fabrika ve tesislerdeki ölçüm cihazlarını güvenilir şekilde analiz edebilmesini sağlıyor. İğnelerin konumu, sıvı seviyeleri, işaretlendirme birimleri gibi karmaşık detaylar bu model sayesinde yüksek doğrulukla okunuyor. DeepMind tarafından geliştirilen “agentic vision” teknolojisi ile model, önce küçük detaylara zoom yapıp doğru veriyi topluyor, ardından kodlama yoluyla verileri işleyip anlamlandırıyor. Bu süreç, modelin okuma başarısını önceki sürümlere göre büyük oranda artırdı.

Önceki modellere kıyasla Gemini Robotics-ER 1.6, instrument okuma görevinde yüzde 93 doğruluk oranına ulaştı. Bu oran, Gemini Robotics-ER 1.5 sürümünün sadece yüzde 23 başarı sağlayabilmesiyle karşılaştırıldığında devasa bir gelişmeydi. Bu da gösteriyor ki, modelin mimarisindeki yenilikler ve agentic vision entegrasyonu robotların endüstriyel alanda daha karmaşık ve güvenilir görevleri üstlenebilmesini mümkün kılıyor.
Robotik alandaki bu ilerleme, gelecekte otomasyonun daha karmaşık, hassas ve bağımsız işlemleri gerçekleştirmesine zemin hazırlayacak. Özellikle üretim, lojistik ve tesis bakımı gibi alanlarda robotların insan müdahalesine gerek duymadan kritik kararlar alabilmesi, iş süreçlerinde verimlilik ve güvenliği artıracak. Ayrıca, geliştirilen modelin temelinde yatan stratejik muhakeme yetenekleri, robotik sistemlerin esnek ve adaptif davranış sergilemesini de kolaylaştıracak.
Google DeepMind’ın bu teknolojisi, robotik alanında yeni bir dönemi müjdeliyor. Gemini Robotics-ER 1.6 ile robotlar çevrelerini daha iyi anlıyor, karmaşık görevleri planlayıp başarıyla tamamlıyor. Bu gelişme, iş hayatından günlük yaşama kadar robotların hayatımızdaki rolünü güçlendirecek önemli bir adım olarak görülüyor.
📎 Kaynak: marktechpost.com



