Sesli yapay zeka asistanlarında kullanıcı deneyimini doğrudan etkileyen en kritik faktörlerden biri, yanıt süresidir. Konuşma tabanlı sistemlerin doğal ve akıcı bir diyalog sürdürebilmesi için, yanıtların 200 milisaniyeden kısa sürede verilmesi gerekir. Salesforce’un yapay zeka araştırma ekibi, bu süreyi dramatik şekilde kısaltan yeni bir sistem geliştirdi. VoiceAgentRAG adlı bu yenilikçi mimari, sesli RAG (Retrieval-Augmented Generation) modellerinde yaşanan gecikme problemini 316 kat azaltıyor.
Retrieval-Augmented Generation, yani bilgi tabanından veri çekerek yapay zekanın yanıt üretmesini sağlayan yöntemler, genellikle metin tabanlı sistemlerde saniyeler düzeyinde düşünme süresi kullanabilir. Ancak sesli asistanlarda, gecikme süresi çok daha kritik bir sınırdadır. Standart vektör tabanlı veritabanı sorguları genellikle 50 ile 300 milisaniye arasında ağ gecikmesine neden olur. Bu durum, asistanın yanıt üretimine başlamadan önce birincil zaman bütçesinin tamamının tüketilmesine yol açar. Salesforce, bu darboğazı aşmak için VoiceAgentRAG isimli çift ajanlı bir mimari tasarladı; böylece bellekten veri çekme ve yanıt oluşturma işlemlerini birbirinden ayrıştırarak gecikmeyi minimuma indirdi.
VoiceAgentRAG, iki paralel çalışan ajandan oluşan bir “hafıza yönlendirici” olarak tasarlandı. İlk ajan, “Fast Talker” (Hızlı Konuşucu), ön planda kullanıcı sorgusunu karşılamaya odaklanır ve kritik zaman yolunda çalışır. Bu ajan, öncelikle yerel ve bellek içi bir semantik önbelleği kontrol eder. Eğer gerekli bilgi önbellekte bulunursa, arama yalnızca 0.35 milisaniye sürer. Önbellekte olmayan içeriği ise uzak vektör veri tabanından çeker ve gelecekte kullanılmak üzere hızla önbelleğe alır. İkinci ajan ise “Slow Thinker” (Yavaş Düşünen) olarak görev yapar ve arka planda çalışır. Bu ajan, son altı konuşma dönüşünü analiz ederek olası takip konularını tahmin eder ve bu konularla ilgili belgeleri önceden indirir.
Bu çift ajanlı yapı, hem anlık kullanıcı taleplerinde hızlı yanıt vermeyi sağlar hem de sohbetin gidişatına göre önceden içerik hazırlığı yapar. Böylece, sesli asistanlar 200 milisaniyelik katı yanıt süresi bütçesine rahatça uyum sağlar. Sistem, FAISS adlı etkili bir semantik önbellekleme altyapısı kullanıyor ve sorgular yerine belgelerin kendi anlamsal temsilini önbelleğe alıyor. Bu yöntem, farklı kelime yapıları kullanan kullanıcı sorularında bile sonuçların isabetli bulunmasını sağlıyor.
Araştırmanın kapsamlı performans testleri, bu çözümün gerçek kullanım senaryolarında çok başarılı olduğunu ortaya koydu. Standart uzak veritabanı sorgularına kıyasla, önbellekten veri çekme işlemi 316 kat hızlandı. Ayrıca, tek bir sohbet oturumu içinde ortalama %75 önbellek isabet oranı yakalandı. Tutarlı ve konuyla alakalı konuşma senaryolarında bu oran %95’e kadar çıktı. Daha karışık ve hızlı konular arası geçişlerde bile sistem, verimliliğini koruyabiliyor. Bu sonuçlar, sesli asistanların kullanımını çok daha akıcı ve memnun edici hale getirme potansiyelini gösteriyor.
Sesli yapay zeka asistanlarında hızlı yanıt vermek, sadece kullanıcı deneyimini değil, aynı zamanda iş süreçlerini de etkiler. Müşteri hizmetleri, eğitim uygulamaları ve akıllı ev cihazları gibi alanlarda, gecikmelerin azalması etkileşimin kalitesini yükseltecektir. VoiceAgentRAG’ın getirdiği bu teknik yenilik, sesli yapay zeka dünyasında önemli bir dönüşümün işaretçisi oldu. Sesli Asistanların yanı sıra diğer doğal dil işleme teknolojilerinde de bu yaklaşım benimsendiğinde, birçok uygulamada performans artışı sağlanacaktır.
Gelecekte, Salesforce’un geliştirdiği bu çift ajanlı mimarinin daha da optimize edilmesi ve farklı platformlarla entegre edilmesi planlanıyor. Ayrıca, bu teknolojinin açık kaynaklı olarak sunulması, geniş bir geliştirici topluluğunun katkı sağlamasına olanak tanıyor. Mühendisler ve bilim insanları, VoiceAgentRAG’ın temel prensiplerini kullanarak sesli yapay zeka alanında yeni uygulamalar ve çözümler geliştirebilir. Bu gelişmeler, sesli yapay zekanın günlük hayatımızdaki yerini ve etkinliğini daha da artıracak.
📎 Kaynak: marktechpost.com



