Google DeepMind’dan Gemma 4 İçin Hafıza Tasarrufu Sağlayan QAT Teknolojisi

Google DeepMind, yapay zekâ modellerinin yerel cihazlarda daha verimli çalışabilmesi için önemli bir adım attı. Şirket, Gemma 4 ailesi için Quantization-Aware Training (QAT) kontrol noktalarını yayımladı. Bu yenilik, özellikle mobil cihazlar ve tüketici sınıfı grafik işlemciler (GPU) üzerinde derin öğrenme modellerinin hafıza kullanımını ciddi oranda azaltmayı hedefliyor. Yapılan çalışmaların detayları ise yapay zekânın geleceğinde yeni ufukların açılabileceğini gösteriyor.

Gemma 4 modeli, geçtiğimiz aylarda tanıtılmış ve ardından 12 milyar parametreli bir versiyonu ile gündeme gelmişti. Bu yeni QAT teknolojisi ise modelin boyutunu küçültürken, performanstan ödün vermemek için geliştirildi. QAT, model ağırlıklarının hassasiyetini düşürerek yapılabilen standart kuantizasyondan farklı şekilde çalışıyor. Buradaki temel avantaj, modelin eğitim aşamasında kuantizasyonun etkilerini deneyimleyip, bu sınırlamalara göre optimize edilmesi.

Klasik Post-Training Quantization (PTQ) yönteminde, model eğitimi tamamlandıktan sonra sıkıştırma uygulanıyor ve bu genellikle kalite kaybına yol açıyor. Oysa QAT, kuantizasyonu eğitim sırasında simüle ederek, modelin bu duruma uyum sağlamasını mümkün kılıyor. Google’ın açıklamasına göre, QAT yöntemleri PTQ’ye kıyasla daha yüksek kalite sunuyor. Önceki jenerasyonda QAT, belirgin bir iyileşme gösterirken, Gemma 4 için açık benchmark sonuçları henüz paylaşılmadı.

Google DeepMind tarafından paylaşılan bilgilere göre, Gemma 4 modelleri üç farklı formatta değerlendirildi: BF16 (16-bit floating point), Q4_0 QAT (4-bit kuantizasyonlu) ve yeni geliştirilen mobil QAT formatı. Bellek kullanımı açısından karşılaştırıldığında, BF16 formatı en yüksek hafıza ihtiyacına sahipti; E2B modeli 9.6 GB, daha büyük E4B modeli ise 15 GB tutuyordu. Q4_0 QAT ile bu değerler sırasıyla 3.2 GB ve 5 GB’a kadar düştü. Üstelik bu boyutlar, PTQ ile aynı seviyedeydi ancak kalite açısından üstünlük QAT’teydi. Yeni mobil QAT formatı ise E2B için yaklaşık 1 GB gibi çok düşük bir belleğe indi ve text-only (sadece metin) versiyon ise 1 GB’ın altına indirilebiliyor.

Mobil QAT’nin başarısı, dört temel teknik üzerine kurulu. Bunlar statik aktivasyonlar, kanal bazlı kuantizasyon, amaçlı 2-bit kompresyon ve embedding ile KV cache optimizasyonu olarak sıralanabilir. Statik aktivasyonlar, eğitim sırasında ölçeklendirme oranlarını önceden hesaplayarak cihaz üzerindeki işlemi azaltıyor. Kanal bazlı kuantizasyon, mobil hızlandırıcıların çalışma prensiplerine uygun olarak tasarlandı. Token üretim katmanlarını 2-bit’e indirgemek ise modelin önemli yerlerinde yüksek hassasiyeti korurken, diğer kısımlarda depolama ihtiyacını azaltıyor. Böylece mobilde yüksek performansla düşük hafıza kullanımı birlikte sağlanıyor.

Bu gelişme, yapay zekâ modellerinin mobil cihazlarda daha önce mümkün olmayan şekillerde çalışmasına olanak tanıyor. Yüksek kapasiteli sunuculara bağımlılığı azaltarak, çevrimdışı çalışma ve gizlilik gibi kritik alanlarda ciddi avantajlar sağlıyor. Örneğin, telefonunuzdaki yapay zekâ destekli uygulamalar artık çok daha hızlı ve az enerji harcayarak çalışabilir hale geliyor. Ayrıca, Raspberry Pi gibi düşük güçlü cihazlar üzerinde bile yüksek performans elde etmek mümkün oluyor.

Google, QAT sayesinde gemma 4 modellerinin kalite ve hız dengesinde önemli iyileşmeler elde ettiğini belirtiyor. Bu teknoloji, sadece belleği küçültmekle kalmıyor, aynı zamanda modelin işlem süresini azaltarak kullanıcı deneyimini iyileştiriyor. On-device (cihaz üzerinde) erişilebilirlik açısından da yeni mobil format, telefonlar için öncelikli tercih durumunda. Dizüstü bilgisayar ve tüketici GPU’ları için ise Q4_0 QAT formatı ideal çözüm olarak öne çıkıyor.

Gelecekte, kuantizasyon farkındalığıyla optimize edilen modeller, yapay zekânın sınırlarını taşırken farklı sektörlerde de yaygınlaşacak. Sağlık, otomotiv, akıllı şehirler gibi alanlarda cihaz üstü yapay zekâ çözümleri yeni uygulama senaryolarını mümkün kılacak. Ayrıca, enerji tüketiminde sağlanan tasarruf ve gecikme sürelerinde azalma, çevrimdışı yapay zekâ deneyimlerinin kapısını aralayacak.

Sonuç olarak, Google DeepMind’ın Gemma 4 için geliştirdiği QAT teknolojisi, yapay zekâ model optimizasyonunda dikkate değer bir dönüm noktası olarak değerlendiriliyor. Özellikle mobil ve kenar cihazlarda verimli çalışma imkânı sunması, yapay zekâ uygulamalarının erişilebilirliğini ve kullanılabilirliğini artıracak. Önümüzdeki dönemlerde bu teknolojinin farklı modeller ve alanlara yayılması bekleniyor.

📎 Kaynak: marktechpost.com