Yapay zeka alanında çığır açan bir gelişme olarak, Allen Institute for AI (Ai2) tarafından geliştirilen MolmoWeb, web üzerinde ekran görüntüleri üzerinden doğrudan etkileşim kurabilen açık kaynaklı bir yapay zeka ajanı olarak tanıtıldı. HTML veya DOM yapılarını kullanmadan, sadece görsel verilerle web sitelerini anlayıp görevleri yerine getirebilen bu teknoloji, web otomasyonunda devrim yaratmayı hedefliyor. MolmoWeb, tarayıcı işlemlerini adım adım planlayıp gerçekleştirebilen yenilikçi bir yaklaşım sunuyor.
Araştırmanın temelinde, MolmoWeb-4B modeli yer alıyor. Bu model, Colab ortamında 4-bit quantizasyon yöntemiyle verimli bir şekilde çalıştırılabiliyor. Model, aldığı metinsel komutlar ile ekran görüntülerini bir arada işleyerek, karmaşık web görevlerine yönelik düşünce ve eylem adımları oluşturuyor. Böylece, “Bir web sayfasını ziyaret et, orada belirli bir arama yap ve sonucu kullanıcıya bildir” gibi birçok interaktif işlemi mümkün kılıyor.
MolmoWeb, çalışma prensip olarak ekran görüntüsünü analiz edip “ne yapılmalı?” sorusuna cevap arıyor. Öncelikle yapması gereken sonraki adımı düşünüyor, ardından bu eylemi komut olarak tanımlıyor (örneğin tıklama koordinatları, URL’ye gitme veya metin yazma gibi). Model, sosyal medya üzerinden alınmış gerçek insan eylem dizileri ve sentetik data kullanılarak eğitildi. Bu, onun çok adımlı gezinme ve bilgi toplama süreçlerindeki başarı oranını önemli ölçüde artırıyor.
Bu teknolojinin önemini arttıran en kritik nokta, web sitelerinin farklı altyapılarının veya değişen HTML yapılarının modelin işleyişini etkilememesi. MolmoWeb, yalnızca görsel veriye dayanarak karar verdiği için, web sayfalarının tasarım değişikliklerinden minimum düzeyde etkileniyor. Bu, manuel kodlama ve geleneksel otomasyon yaklaşımlarındaki esneklik sorunlarını aşmayı sağlıyor. Ayrıca, görsel odaklı yapay zeka ajanlarının gelecekte web tarama, veri toplama ve kullanıcı destek sistemleri gibi alanlarda yeni standartlar getireceğine işaret ediyor.
MolmoWeb’un çalışmasında kullanılan bazı teknik terimler basitçe şöyle açıklanabilir: Quantizasyon, modelin daha küçük boyutlarda çalışmasını sağlayan veri sıkıştırma tekniğidir. Bu, özellikle sınırlı hafıza ve işlem gücü olan cihazlarda büyük modellerin çalışmasını mümkün kılar. Ayrıca, modelin “düşündüğü” ve “eylemlediği” adımları metin biçiminde belirlenip parse edilerek insan diline dönüştürülür, bu da kullanıcıların modelin kararlarını takip etmesine olanak tanır.
Gelecekte MolmoWeb ve benzeri ekran görüntüsüne dayalı yapay zeka ajanlarının, internet kullanımı şeklimizi değiştirmesi bekleniyor. Otomatik web gezinme, kişiselleştirilmiş içerik yönetimi ve hatta karmaşık görevlerin tamamen otonom şekilde tamamlanması gibi birçok alanda uygulama potansiyeli taşıyor. Ai2’nin açık kaynak olarak sunduğu bu teknoloji, araştırmacılar ve geliştiriciler için yeni kapılar aralarken, yapay zeka destekli web hizmetlerinin yaygınlaşmasına da zemin hazırlıyor.
📎 Kaynak: marktechpost.com



