ReLU Aktivasyonu Derin Öğrenmede Sigmoid’i Nasıl Geride Bırakıyor?

Derin öğrenme alanında yapay sinir ağları, karmaşık verileri anlamlandırmak için katmanlar arasında bilgi akışını yönetir. Ancak, bu sürecin başarısı büyük ölçüde katmanların verinin uzaydaki yapısını ne ölçüde koruyabildiğine bağlıdır. Son yapılan araştırmalar, yaygın iki aktivasyon fonksiyonu Sigmoid ve ReLU’nun, derin ağların bilgi işleyişinde tamamen farklı performans sergilediğini ortaya koydu. ReLU’nun, Sigmoid’in sıkıştırıcı etkisine göre derin ağlarda çok daha etkili olduğu kanıtlandı.

Araştırmanın temelinde, yapay sinir ağlarının giriş verisini katman katman dönüştürerek karmaşık karar sınırları oluşturması bulunuyor. Bu süreçte, her katmanın verinin karar sınırlarına olan uzaklık gibi geometrik özellikleri koruması gerekiyor. Çünkü bu uzaklık bilgisi, daha derin katmanların daha karmaşık ve doğrusal olmayan temsiller oluşturabilmesini sağlıyor. Ancak Sigmoid aktivasyon fonksiyonu, tüm girdileri 0 ile 1 arasına sıkıştırarak bu mesafe bilgisini kaybettiriyor ve ağın derinliği arttıkça temsil gücünü kısıtlıyor.

Araştırmada, Sigmoid ve ReLU’nun bilgi iletimindeki farklılıklarını incelemek için “two-moons” olarak adlandırılan yapay ve doğrusal olmayan bir veri kümesi kullanıldı. Bu dataset, iki farklı sınıfın ayırt edilmesinin lineer sınırlarla mümkün olmadığı karmaşık bir yapıya sahip. Veri, modelin sağlıklı eğitilmesi için gürültü eklenip standartlaştırıldıktan sonra eğitim ve test için bölündü. Böylece her iki aktivasyon fonksiyonu da aynı veride ve eşit koşullarda karşılaştırıldı.

Kurulan yapay sinir ağı ise 3 katmanlı, basit bir yapıdaydı; iki gizli katman ve bir çıktı katmanı şeklinde tasarlandı. Sigmoid ve ReLU aktivasyonlarının etkisi ayrıntılı şekilde analiz edilebilmesi için, model ağırlıkları başlangıçta farklı stratejilerle (Xavier ve He başlangıcı) belirlendi. Eğitim süreci boyunca, katmanlar arasındaki sinyalin büyüklüğü ve dağılımı dikkatlice izlendi. Böylece signal propagation (sinyal yayılımı) açısından iki fonksiyonun performansı değerlendirildi.

Eğitim sonuçları iki yaklaşım arasındaki uçurumu net gösterdi. Sigmoid tabanlı model, eğitim esnasında belli bir noktadan sonra gelişmesini durdurdu ve doğruluk oranı %79 civarında bir sınırda takıldı. Bunun temel sebebi, Sigmoid’in kompakt aralığına sıkışan ve derin katmanlara yeterince bilgi aktaramayan sinyal oldu. ReLU ise, tüm pozitif değerlerin büyüklüğünü koruyarak sinyalin katmanlar arasında bozulmadan ilerlemesini sağladı. Bu da modelin karmaşık karar sınırlarını öğrenmesini kolaylaştırarak %96 gibi yüksek bir doğruluk oranına ulaşmasını mümkün kıldı.

Modelin karar sınırlıklarına bakıldığında da bu fark gözle görünür hale geliyor. Sigmoid kullanan model, iki “ay” şeklindeki veri kümelerini ayırt etmekte zorlanıyor ve sınrları neredeyse çizgisel bir hale indirgiyor. Buna karşın ReLU uygulayan model, güçlü sinyal sayesinde katmanlar boyunca veri uzayını eğip bükerek gerçek veriye çok daha uygun ve karmaşık karar sınırları çıkarıyor. Bu da sınıflandırmadaki başarısını artırıyor.

Ayrıca, katman katman sinyal analizleri Sigmoid’in sinyali ilk katmanda bile %85 oranında küçülttüğünü, derinlere inildikçe bu etkinin artarak bilgiyi yok ettiğini gösterdi. ReLU ağında ise sinyal başlangıçtan son katmana kadar büyüyerek bilgi kaybını önledi. Bu durum, derin ağlarda daha verimli öğrenmenin ve daha karmaşık görevlerin başarılabilmesinin ön koşulu olarak öne çıktı.

Araştırmanın en önemli katkısı, derin öğrenmedeki aktivasyon fonksiyonlarının sadece basit matematiksel dönüşümler olmadığını, aynı zamanda sinir ağlarının temsil gücünü ve öğrenme potansiyelini doğrudan şekillendirdiklerini göstermesidir. ReLU’nun korunmuş sinyal büyüklüğü sayesinde derin modeller daha az parametreyle daha yüksek başarı sergileyebilirken, Sigmoid kullananlar aynı derinlikte sıkışıp kalıyor.

Önümüzdeki dönemde, ReLU’nun bu üstünlüğü yeni mimari tasarımlar ve aktivasyon fonksiyonu geliştirme çalışmalarına ilham verebilir. Ayrıca, geometrik bakış açısını dikkate alan farklı aktivasyon fonksiyonlarının keşfi, derin öğrenmenin sınırlarını genişletebilir. Bu sayede hem yapay zekanın çeşitli alanlarda uygulanabilirliği artacak hem de daha verimli ve hesaplama dostu modeller mümkün hale gelecektir.