MIT, NVIDIA ve Zhejiang Üniversitesi’nden TriAttention ile Yapay Zeka Verimliliğinde Dev Adım

Yapay zeka modellerinde karmaşık hesaplamalar, özellikle uzun zincirli akıl yürütme işlemleri büyük donanım yükü yaratıyor. Modern büyük dil modelleri, örneğin DeepSeek-R1 veya Qwen3 gibi, zorlu matematik sorularını çözerken on binlerce token üretmek zorunda kalıyor. Bu tokenlar, modelin üreteceği sonraki çıktıyı oluşturmak için saklandığı KV önbelleğinde depolanıyor. Ancak her yeni tokenla bu önbellek sürekli büyüyor ve özellikle tüketici seviyesi GPU’larda hafıza sınırlarına ulaşılması riski doğuyor. İşte tam bu noktada MIT, NVIDIA ve Zhejiang Üniversitesi’nin ortak çalışması TriAttention devreye giriyor ve bu sorunları başarıyla çözüyor.

TriAttention, uzun zincirli akıl yürütme sürecinde kullanılan KV önbelleğini sıkıştırarak hem hafıza kullanımını azaltıyor hem de işlem hızını artırıyor. Araştırmacılar, matematiksel akıl yürütme testlerinde TriAttention’ın, klasik tam dikkat (Full Attention) yöntemiyle aynı doğrulukta sonuç verdiğini, ancak 2.5 kat daha fazla veri işleyebildiğini ortaya koyuyor. Ayrıca KV önbelleğinde 10 katın üzerinde bellek tasarrufu sağlamak da yöntemin önemli başarıları arasında yer alıyor. Bu performans, mevcut diğer sıkıştırma tekniklerinin yarı doğruluk seviyesinde kalmasına rağmen TriAttention’ın nasıl bir sıçrama gerçekleştirdiğini gösteriyor.

TriAttention’ın sırrı, yapay zeka modellerinde kullanılan Rotary Position Embedding (RoPE) yöntemiyle konum kodlamalarının öncesinde (pre-RoPE) gerçekleşen “Q/K konsantrasyonu”nda yatıyor. Araştırma ekibi, modelin sorgu (Query) ve anahtar (Key) vektörlerinin bu aşamada sıkı ve sabit merkezler etrafında toplandığını keşfediyor. Bu sabit merkezler, pozisyona bağlı rotasyonun henüz uygulanmadığı, dolayısıyla konum bilgilerinin karışmadığı hali temsil ediyor ve hemen hemen tüm dikkat katmanlarında benzer şekilde gözlemleniyor. Geleneksel sıkıştırma yöntemleri ise bu pre-RoPE öncesi bilgiyi kullanmadığı için sınırlı bir tarihsel pencereye bağlı kalıyor ve önemli tokenları erken evict ederek performans kaybına neden oluyor.

Matematiksel olarak, Q/K konsantrasyonunun varlığı sayesinde dikkat skorları, kelime pozisyonları arasındaki mesafeye dayalı dirençli bir trigonometrik seri formunda ifade edilebiliyor. Bu, gelecekteki sorguların hangi anahtarlara daha çok dikkat edeceğinin önceden tahmin edilmesini sağlıyor. TriAttention, önceden hesaplanan bu trigonometrik seriyi ve vektör normlarına dayalı skorları kullanarak KV önbelleğindeki anahtarları puanlıyor ve belirli aralıklarla yalnızca en önemlileri tutuluyor. Böylece hem bellek kullanımı azalıyor hem de bilgi akışında kritik kopukluklar önleniyor.

Bu gelişme sadece matematiksel sorunlar için değil, doğal dil işleme ve bilgi alma görevlerinde de büyük avantajlar getiriyor. TriAttention, yalnızca matematik benchmarkları değil, uzun bağlamlı sohbetler, metin özetleme, sınıflandırma ve kodlama gibi farklı görevlerde de üstün performans sergiliyor. Bu sayede büyük dil modelleri, daha düşük donanım gereksinimleriyle daha hızlı ve daha doğru sonuçlar üretebiliyor. Örneğin, tek bir 24 GB kapasiteli RTX 4090 ekran kartında, TriAttention kullanılarak 32 milyar parametreli bir modelin çalıştırılması mümkün hale geliyor.

TriAttention’ın önemi, yapay zeka sistemlerinin geniş kapsamlı ve karmaşık görevlerde daha verimli çalışmasını sağlamasıdır. Özellikle artan veri miktarı ve daha karmaşık model yapıları göz önüne alındığında, modeli destekleyen bellek ve işlem kaynaklarını optimize etmek kritik hale geliyor. Bu yöntem, gelecekte yapay zeka uygulamalarında donanım maliyetlerini düşürürken, hız ve doğruluk sınırlarını zorlayacak yeniliklere kapı aralıyor.

Sonuç olarak, MIT, NVIDIA ve Zhejiang Üniversitesi’nin birlikte geliştirdiği TriAttention, büyük dil modellerinde dikkate değer bir performans sıçraması yaratıyor. Hem akademik hem de endüstriyel alanda geniş yankı uyandıracak bu buluş, daha hızlı, daha hafif ve daha doğru yapay zeka sistemlerinin geliştirilmesine öncülük edecek gibi görünüyor. Yapay zekanın geleceği için kritik olan bellek yönetimi ve model verimliliği problemlerine yenilikçi bir çözüm sunan TriAttention, çağımızın en önemli teknoloji gelişmelerinden biri olma yolunda ilerliyor.

📎 Kaynak: marktechpost.com