NVIDIA, 4-bit NVFP4 ile 12 Milyar Parametreli Modelde Yeni Eğitim Rekoru Kırdı

Yapay zeka dünyasında büyük dil modellerinin eğitimi hız ve verimlilik açısından sürekli gelişiyor. NVIDIA, 4-bit (dört bit) doğrulukta çalışan NVFP4 adlı yeni bir mikroskalalama formatıyla bu alanda önemli bir başarıya imza attı. Şirketin geliştirdiği yöntem sayesinde, 12 milyar parametreli bir Mamba-Transformer modeli tam 10 trilyon token üzerinde eğitilerek şimdiye kadar belgelenmiş en uzun 4-bit ön eğitim süreci gerçekleştirildi. Bu gelişme, yapay zeka eğitiminde hız ve enerji verimliliğini artırma hedeflerine önemli bir adım olarak görülüyor.

NVIDIA’nın araştırması, geleneksel olarak yaygın kullanılan FP8 (8-bit kayan nokta) eğitim formatından 4-bit formatına geçişte karşılaşılan zorlukları ele alıyor. Daha düşük bit derinlikleri, modelin dinamik aralığını sıkıştırırken, uzun dizinlerde miktarlaştırma (quantization) hatalarını artırabiliyor. NVFP4 formatı ise, bu sorunları aşmak için tasarlanmış, 16 öğelik bloklar halinde verileri E4M3 adlı bir ölçeklendirme ile birlikte, ek bir FP32 ölçeği kullanarak hassasiyeti artıran yenilikçi bir çözüm sunuyor. Böylece 4-bit formatta bile FP8 ile neredeyse aynı doğruluk ve kararlılık sağlanabiliyor.

NVFP4 formatının en önemli özelliği, her blok içindeki değerlerin daha ince bir ölçekle temsil edilmesi. Normalde 32 öğeden oluşan bloklar 16’ya indiriliyor, bu da her bloğun kapsaması gereken değer aralığını daraltıyor. Ayrıca, bloklara ait ölçek faktörleri daha hassas bir biçimde kodlanıyor; bu da 4-bit aralığında önemli ölçüde daha iyi temsil sağlıyor. Sonuç olarak, yapılan eğitim testlerinde model, FP8 eğitimle karşılaştırıldığında MMLU-Pro benchmark’ında yüzde 62.58 doğrulukla sadece çok küçük bir farkla geride kaldı.

Araştırmanın bir diğer yeniliği ise eğitim sürecini stabil hale getiren dört ana teknik. Bunlar arasında, modelin yaklaşık %16’sındaki bazı katmanların hala daha geniş doğrulukta yani BF16 formatında eğitim görmesi, ağırlıkların dağılımını daha düzgün hale getiren rastgele Hadamard dönüşümleri, ağırlıkların 2D blok ölçeklendirmesi ve gradyanlarda sistematik hataları önleyen stokastik yuvarlama yer alıyor. Bu bileşenler bir arada kullanıldığında eğitim istikrarı sağlanıyor ve model hızlı biçimde yüksek doğruluğa ulaşabiliyor.

Bu gelişmeler, yapay zeka modellerinin eğitim hızını ve enerji verimliliğini büyük ölçüde iyileştirme potansiyeli taşıyor. NVIDIA’nın Blackwell mimarisi üzerinde optimize edilen NVFP4 destekli GEMM işlemleri, önceki FP8 tekniklerine göre iki ila üç kat daha hızlı çalışabiliyor, aynı zamanda bellekte kullanım alanını neredeyse yarıya indiriyor. Böylece çok daha büyük modeller daha kısa sürelerde ve daha düşük maliyetle eğitilebilecek.

Daha da önemlisi, NVFP4 özellikle çok büyük token dizinleri üzerinde çalışan modeller için ideal. Çünkü geleneksel 4-bit yöntemlerin aksine, daha büyük ve karmaşık modellerde eğitim kararlılığını kaybetmeden ilerleyebiliyor. Aynı zamanda bu teknik, yalnızca lineer katmanlardaki temel matris çarpımlarında kullanılıyor; karmaşık dikkat mekanizmaları ve diğer kritik komponentler hâlâ daha yüksek doğruluk formatlarında çalışıyor, böylece modelin genel hassasiyeti korunuyor.

Gelecekte, NVFP4 formatının genişletilmesi ve dikkat mekanizmaları gibi diğer model bileşenlerine uyarlanması üzerine çalışmalar devam edecek. Ayrıca farklı model boyutları ve eğitim uzunlukları için bu yaklaşımların performansını değerlendiren yeni araştırmalar yapılacak. Bu yenilikler, yapay zeka alanında büyük ölçekli eğitimlerde hem hız hem de verimlilik açısından yeni standartlar belirleyebilir.

NVIDIA’nın öncülüğündeki bu teknoloji, yapay zeka mühendisleri ve araştırmacıları için güçlü bir araç haline gelerek önümüzdeki yıllarda geliştirme süreçlerini önemli ölçüde değiştirebilir. Çok daha düşük kaynak kullanımıyla yüksek doğruluk elde etmek, yapay zeka uygulamalarını daha erişilebilir ve sürdürülebilir kılacak. NVFP4 destekli eğitim yöntemleri yaygınlaştıkça, yapay zekanın sınırları daha da genişleyecek gibi görünüyor.

📎 Kaynak: marktechpost.com