Derin öğrenme modellerinin eğitiminde karşılaşılan en büyük sorunlardan biri, giderek artan bellek ihtiyacıdır. Tokyo Üniversitesi ve Sakana AI iş birliğiyle geliştirilen yeni bir yöntem olan DiffusionBlocks, bu soruna yenilikçi bir çözüm getiriyor. Transformer tabanlı ağların eğitim süreçlerini bloklar halinde ayrı ayrı gerçekleştirerek bellek kullanımını önemli ölçüde azaltan bu teknik, aynı zamanda performanstan da ödün vermiyor.
Geleneksel yapay sinir ağı eğitiminde tüm katmanların ara verilerini saklamak gerekir. Ağlar derinleştikçe bu işlem ciddi bir bellek yükü yaratır ve eğitim sürecini sınırlar. Bazı yöntemler, ara verileri gerektiğinde yeniden hesaplayarak belleği optimize etmeye çalışsa da, parametrelerin, gradyanların ve optimizasyon duruşlarının kapladığı alanı küçültmez. Adam optimizasyon algoritmasıyla her katman, kendi parametrelerinin dört katı büyüklüğünde belleğe ihtiyaç duyuyor. DiffusionBlocks ise ağı B blok halinde parçalara ayırıp her bloğu ayrı eğiterek toplam bellek ihtiyacını yaklaşık B kat azaltıyor.
Bu başarının arkasında, ağlardaki residual (kalıntı) bağlantıların Euler adımları olarak modellenmesi yatıyor. Residual ağlarda her bir katmanın çıktısı, bir önceki katmanın çıkışına o katmanda öğrenilen fonksiyonun eklenmesiyle bulunur ki bu yöntem diferansiyel denklemlerin Euler ayrıklaştırmasına benziyor. Araştırmacılar, bu yapının skora dayalı difüzyon modellerindeki ters difüzyon sürecine karşılık geldiğini keşfettiler. Bu yaklaşım, her bloğun kendi lokal hedefiyle bağımsız olarak eğitilebilmesini mümkün kılıyor. Böylece, bloklar eğitim sırasında birbirleriyle iletişim kurmadan ayrı çalışıyor ve bellek kullanımı minimuma iniyor.
DiffusionBlocks’un uygulanabilmesi için standart residual mimariler üç aşamada dönüştürülüyor. İlk olarak, model katmanlar halinde bloklara ayrılıyor. İkinci adımda, her bloğa farklı bir “gürültü seviyesi” aralığı atanıyor. Burada gürültü, öğrenilen hedefin bozulan (noisy) bir versiyonu üzerinden işlem yapmayı sağlıyor ve adaptif katman normalizasyonu (AdaLN) ile gürültü seviyesi bilgisinin bloğa verilmesi sağlanıyor. Üçüncü aşamada ise eğitim sırasında her iterasyonda yalnızca bir blok hesaplanıyor; böylece bellek kullanımı tüm ağ yerine tek bir bloğa indirgeniyor.

Ayrıca, gürültü aralıklarının eşit olasılık bazında bölünmesi (equi-probability partitioning), performans açısından önemli bir avantaj sağlıyor. Gürültünün modellenme olasılığı yüksek olan orta seviyelerine daha fazla blok ayrılarak ağın öğrenme kalitesi artırılıyor. CIFAR-10 gibi popüler veri setlerinde bu yöntemin klasik eşit aralıklı bölünmeye kıyasla çok daha düşük hata oranları ve daha yüksek kalite gösterdiği gözlemlendi.
Yapılan deneylerde DiffusionBlocks, farklı mimari ve görevlerde end-to-end eğitimlere yakın sonuçlar sergiledi. Örneğin, 12 katmanlı ViT (Vision Transformer) üzerinde bellek kullanımı üçte birine düşürülürken doğruluk %60’tan %59,3’e hafifçe indi. Benzer şekilde, büyük ölçekte görüntü işleyen DiT-L/2 mimarisi ve doğal dil işleme için kullanılan Huginn modellerinde de performans korunarak bellek ve işlem maliyetlerinde gözle görülür azalma sağlandı.
Bu yöntemin getirdiği en önemli avantajlardan biri, özellikle derin öğrenme modellerinin eğitim süresini ve donanım gereksinimlerini düşürerek araştırmacılar ve endüstri için erişilebilirliği artırması. Özellikle dil modelleri ve görüntü işleme alanındaki büyük ölçekli transformer modelleri düşünüldüğünde, DiffusionBlocks ciddi oranda zamandan ve hesapsal kaynaklardan tasarruf sunabilir. Huginn modelinde örneğin, daha önce 32 iterasyon gerektiren hesaplamalar tek bir ileri besleme adımına indirgenerek eğitimde on katı bir tasarruf elde edildi.
Bununla birlikte, DiffusionBlocks hâlihazırda sadece sıfırdan eğitilen modellerde test edildi ve önceden eğitilmiş modellerin fine-tuning süreçlerinde kullanımının etkinliği henüz doğrulanmadı. Ayrıca ağlar arasında input ve output boyutlarının uyumlu olması gerektiğinden, özellikle U-Net tarzı mimarilere şu an için uygulanamıyor. Gelecekte bu engellerin aşılması ve farklı mimarilere genişletilmesi hedefleniyor.
Sonuç olarak, DiffusionBlocks, yapay zekâ eğitiminde karşılaşılan önemli bir engel olan bellek ihtiyacını azaltırken, performanstan büyük ölçüde ödün vermeyen, yenilikçi bir blok bazlı eğitim yaklaşımı sunuyor. Blok bazlı eğitim yaklaşımlarının öncüsü olarak kabul edilen bu yöntem, derin öğrenme topluluğunda yeni araştırma ve uygulama fırsatları yaratmaya aday görünüyor.
📎 Kaynak: marktechpost.com



