Sakana AI’den KAME: Gerçek Zamanlı Konuşma Yapay Zekasında Devrim

Yapay zeka destekli sesli asistanların hızla ve akıcı biçimde yanıt vermesi, kullanıcı deneyimini artırmakta kritik bir rol oynuyor. Ancak, hızlı yanıt ile derin bilgi arasında hep bir denge kurmak gerekiyordu. Tokyo merkezli Sakana AI laboratuvarı, bu ikilemde çığır açan KAME adını verdikleri yeni bir tandem mimari geliştirdi. Bu sistem, gerçek zamanlı olarak büyük dil modellerinin (LLM) bilgilerini konuşma-yaklaşımı yapay zekaya entegre ederken, yanıt verme süresinde gecikme yaşanmasına izin vermiyor.

Konuşma bazlı yapay zeka modellerinde genellikle iki farklı yaklaşım kullanılır. İlk model olan doğrudan konuşma-konuşma (S2S) sistemleri, kullanıcının sesini hızla işleyip hemen yanıt verebiliyor. Ancak bu modeller, duygusal tonlama ve ritim gibi sesin yapısal özelliklerine yoğunlaşmak zorunda kaldıklarından, derin ve doğru bilgi sunmakta sınırlı kalırlar. Öte yandan, kademeli sistemler önce sesi metne dönüştürür, ardından güçlü büyük dil modelleriyle (LLM) işleyerek daha kapsamlı yanıtlar üretir ancak bu süreç, ortalama 2 saniyelik gecikmeye yol açar. Bu da doğal diyalog akışını bozar ve yapaylık hissi yaratır.

KAME, iki farklı sistemin avantajlarını bir araya getirerek, konuşma ve düşünmeyi eş zamanlı kılmayı hedefliyor. Ön uçta Moshi mimarisine dayanan gerçek zamanlı bir S2S modülü bulunuyor ve bu modül her 80 milisaniyede bir ses birimini işleyecek şekilde tasarlanmış. Aynı zamanda arka uçta, sürekli güncellenen ve kullanıcının konuşmasına paralel olarak geliştirdiği metin tabanlı tahminleri sunan bir LLM yer alıyor. Bu LLM, kullanıcının cümlesi tamamlanmadan önce parçalı transcriptler (kısmi metinler) oluşturarak, ön uç modüle “kehanet” tarzında öneriler gönderiyor. Ön uç modül, bu anlık önerileri kendi konuşma üretimiyle harmanlayarak hem erken hem de zengin içerikli yanıtlar vermeyi başarıyor.

Sakana AI araştırmacıları, gerçek zamanlı “oracle” yani kehanet sinyallerinin kullanılabilmesi için özel bir eğitim yöntemi geliştirdi. Bu yöntem, “Simulated Oracle Augmentation” olarak adlandırılıyor ve yapay olarak oluşturulan kısmi cevap dizilerini kullanarak sistemi besliyor. Böylece KAME, tamamlanmamış konuşmalardan bile en doğru yanıtları hızla oluşturacak şekilde eğitim alıyor.

Sistem üzerinde yapılan testler oldukça etkileyici sonuçlar doğurdu. MT-Bench adlı çoklu soru-cevap testi platformunda Moshi modeli ortalama 2.05 puan alırken, KAME’den beslenen modeller 6.2 ile 6.4 arasında puanlara yükseldi. Üstelik bu skor artışı, geleneksel kademeli sistemleri yakalarken, yanıt gecikmesi neredeyse sıfır seviyesinde kaldı. Gecikme fiyatı ödemeden hem hızlı hem de akıllı konuşma deneyimi mümkün oldu. Dahası, KAME’nin arka planda kullandığı LLM modeli değiştirildiğinde ön uç modülde herhangi bir yeniden eğitime gerek kalmadan sistem çalışmaya devam ediyor. Bu da farklı görevler için uygun LLM modelinin esnek kullanımı anlamına geliyor.

Bu yenilik, konuşma tabanlı yapay zeka alanında hem kullanıcı deneyimini hem de teknoloji verimliliğini önemli ölçüde artırabilir. Bilginin anında ve doğru şekilde aktarılması, dijital asistanların günlük hayatta daha etkili yardımcılara dönüşmesini sağlayabilir. Ayrıca, yapay zekanın farklı uygulamalardaki adaptasyon hızını artırarak, iletişim teknolojilerinde yeni kapılar aralayabilir.

Önümüzdeki dönemde KAME gibi sistemlerin daha fazla geliştirilerek hayatımıza entegre edilmesi bekleniyor. Sesli asistanlar, müşteri hizmetleri, eğitim ve sağlık gibi alanlarda, kesintisiz ve bilgi yoğun konuşma deneyimleri sunarak yapay zekanın sınırlarını yeniden belirleyecekler. Sakana AI’nin yaptığı bu çalışma, yapay zeka destekli gerçek zamanlı konuşma teknolojilerinde önemli bir dönüm noktası olarak kayda geçiyor.

📎 Kaynak: marktechpost.com