Büyük Dil Modellerinde Yeni Dönem: Moonshot AI’den Çığır Açan PrfaaS Mimarisi

Yapay zekâ ve büyük dil modelleri (LLM) alanında önemli bir kırılma noktası yaşanıyor. Moonshot AI ve Tsinghua Üniversitesi araştırmacıları, uzun süredir aynı veri merkezi içinde yürütülen LLM ön işleme ve çözümleme aşamalarını, farklı veri merkezleri arasında dağıtmayı mümkün kılan yeni bir mimari geliştirdi. Bu yenilik, yapay zekâ servislerinin ölçeklenebilirliğini ve verimliliğini önemli ölçüde artırma potansiyeli taşıyor ve sektörde çığır açabilir.

LLM servislerinde iki ana aşama vardır: Ön işleme (prefill) ve çözümleme (decode). Ön işleme, modelin girdileri işleyip “KVCache” adlı büyük bir veri önbelleği oluşturduğu hesaplama yoğun bir süreçtir. Çözümleme ise bu KVCache’i kullanarak çıktı üreten, yüksek bant genişliği gerektiren bir aşamadır. Bugüne kadar bu iki aşamanın ayrılması, verinin yüksek hızlı ağlar içinde aynı veri merkezinde hızlıca taşınması zorunluluğu nedeniyle sınırlandırılmıştı. Araştırmacıların önerdiği PrfaaS (Prefill-as-a-Service) mimarisi, ön işleme bölümünü hesaplama açısından yoğun, veri merkezi dışı kümelere kaydırarak bu sınırı aşmayı hedefliyor.

PrfaaS, uzun bağlamlı girdiler için ön işlemi ayrı bir “yüksek hesaplama kapasiteli” kısımda gerçekleştiriyor. Burada oluşturulan KVCache, sıradan Ethernet ağları üzerinden daha küçük ve yerel çözümleme kümelerine aktarılıyor. Bu, önceki sistemlere göre %54 daha yüksek işlem verimliliği sağlıyor ve bant genişliğini çok daha verimli kullanıyor. Özellikle hibrit dikkat modelleri (hybrid attention) sayesinde, KVCache boyutları önceki nesillere göre onlarca kat küçülüyor; böylece veri transferi için gereken kaynaklar makul seviyelerde kalıyor.

Araştırmanın temelinde, modellerin kullandığı dikkat mekanizmalarında yaşanan dönüşüm yatıyor. Geleneksel modellerde KVCache boyutu dizge uzunluğuna lineer artarken, hibrit modeller sadece kritik katmanlarda büyüklük artırıyor. Kimi Delta Attention, Multi-head Latent Attention gibi yeni teknikler KVCache’yi küçültürken, sistemin verimliliğini artırıyor. Böylece, farklı veri merkezlerindeki donanımlar arasında KVCache transferi ekonomik ve pratik hale geliyor.

PrfaaS-PD mimarisi ayrıca akıllı bir yönlendirme sistemi kullanıyor. İşlem süresi uzun istekler otomatik olarak ön işleme kümesine gönderilirken, kısa istekler yerel kümelerde kalıyor. Bu sayede ağ trafiği dengelenirken, sistem genelinde gecikmeler ve darboğazlar minimize ediliyor. Çoklu bağlantılar ve gelişmiş aktarım protokolleri sayesinde, Ethernet üzerinden güvenilir KVCache aktarımı sağlanıyor. Ayrıca, yük dengeleme ve önbellek yönetimi gibi yazılım tabanlı optimizasyonlarla performans bir üst seviyeye taşınıyor.

Yapılan testlerde, PrfaaS ile çalışan sistemler ortalama ilk çıktı süresini %50, P90 seviyesinde ise %64 oranında iyileştirdi. Ayrıca, aynı donanım maliyetiyle %15 daha fazla verimlilik elde edildi. Bu gelişmeler, büyük dil modellerinin bulut ortamlarında daha verimli çalışmasına olanak tanıyacak ve yapay zekâ tabanlı uygulamaların kullanımını hızlandıracak. Uzmanlar, özellikle bağlam pencerelerinin giderek büyüdüğü ve modellerin karmaşıklaştığı dönemde bu yaklaşımın kritik bir öneme sahip olduğunu belirtiyor.

Bu yenilik sadece mevcut teknoloji için değil, geleceğin yapay zekâ altyapıları için de bir yol haritası çiziyor. PrfaaS gibi mimarilerin yaygınlaşması, farklı hız ve kapasitedeki donanımların daha esnek bir şekilde kullanılmasını kolaylaştıracak. NVIDIA Rubin CPX ve benzeri özel donanımların da sisteme entegre olmasıyla, inter-datacenter büyük dil modeli servislerinin performans ve ölçeklenebilirliği çok daha ileri bir seviyeye taşınacak. Bu da, yapay zekâ destekli ürün ve hizmetlerin daha geniş bir kullanıcı kitlesine ulaşmasını sağlayacak.

Sonuç olarak, Moonshot AI ve Tsinghua Üniversitesi’nin önerdiği PrfaaS mimarisi, büyük dil modellerinin veri merkezleri sınırlarını aşarak daha verimli ve esnek hizmet sunmasını mümkün kılıyor. Geliştirilen sistem, hem yapay zekâ araştırmacıları hem de sektörde hizmet veren teknoloji şirketleri için yeni fırsatlar yaratıyor. Önümüzdeki yıllarda bu teknolojinin, yapay zekâ uygulamalarının hızını ve erişilebilirliğini önemli derecede artırması bekleniyor.

📎 Kaynak: marktechpost.com