Inworld AI, Konuşmaları Gerçek Zamanlı Anlayan Yeni Ses Modelini Tanıttı

Sesli yapay zekâ teknolojilerinde yeni bir döneme giriliyor. Inworld AI, yapay zeka ile sesli iletişimde devrim niteliğinde bir gelişme sunan Realtime TTS-2 modelini araştırma önizlemesi olarak kullanıma sundu. Bu yenilikçi sistem, kullanıcıların yalnızca söylediği kelimeleri değil, aynı zamanda ses tonlarını, duygularını ve konuşma hızlarını da analiz ederek çok daha doğal ve etkili bir diyalog deneyimi hedefliyor.

Geleneksel metin-temelli ses üretimi modelleri, sadece verilen metni sese çevirmekle sınırlı kalıyordu. Ancak bu yaklaşımlar, gerçek zamanlı ve duygusal etkileşim gerektiren destek hizmetlerinde yetersiz kalabiliyor. Inworld AI tarafından geliştirilen TTS-2, bu noktada fark yaratıyor ve sesli iletişimde kullanıcı deneyimini bir üst seviyeye taşıyor. Model, önceki diyaloğun tüm sesli içeriğini dikkate alarak, karşı tarafın ruh halini ve ifadesini gerçek zamanlı olarak algılayabiliyor.

Bu teknoloji, klasik sistemlerden farklı olarak kapalı döngülü bir yapıya sahip. Yani, model sadece metin transkriptine değil, önceki konuşmanın gerçek sesine dayalı analiz yapıyor. Bu sayede, “tamam, anladım” gibi basit ifadelerin farklı duygu durumlarıyla nasıl değiştiğini anlayabiliyor. Konuşmanın bağlamı, tonlaması ve hızındaki ince farkları yakalayarak cevabını buna göre şekillendiriyor. Böylelikle özellikle müşteri hizmetleri gibi karmaşık ve duygu yoğun etkileşimlerde yapay zeka çok daha gerçekçi ve insani tepkiler verebiliyor.

TTS-2 modeli dört temel yeteneği bir arada sunuyor. İlk olarak, geliştiriciler sesli ifadelerin nasıl sunulacağını doğrudan metin içinde açıklama yoluyla yönlendirebiliyor. Örneğin, “[üzgünce konuş]” gibi detaylı talimatlar vererek modelin istenen duygusal tonu yakalaması sağlanıyor. İkinci olarak, model önceki konuşmanın ses kaydını dinleyerek bağlama hakim oluyor ve tepkisini buradan güç alarak üretiyor. Üçüncü önemli özellik, modelin 100’den fazla dil ve lehçe arasında geçiş yaparken ses kalitesini ve karakterini koruyabilmesi. Bu da farklı dillerde kesintisiz ve tutarlı sesli diyalogları mümkün kılıyor. Dördüncü özellik ise, tek bir yazılı betimleme ile yeni ve özel sesler yaratıp bu sesleri daha sonra program içinde tekrar kullanabilmek.

Inworld AI, TTS-2 modelinde ayrıca insan konuşmasındaki doğal aksaklıkları ve duraksamaları da taklit ediyor. “Ýmm” ve “ah” gibi doğal sesler, küçücük tereddütler ya da cümle içinde kendini toparlama gibi özellikler yapay zekanın sohbeti samimi ve gerçekçi kılmasını sağlıyor. Model, farklı konuşmacı profilindeki bu dolgu seslerini konuşmanın ritmine göre ayarlayabiliyor. Ayrıca ses klonlama teknolojisi sayesinde birkaç saniyelik referans kaydı yüklenip benzersiz bir ses tanımlayıp kullanmak mümkün hale geliyor.

Realtime TTS-2, Inworld’un Realtime API sistemi içerisinde bir katman olarak görev yapıyor. Genel yapı, kullanıcının sesi, yaşı, aksanı, duygusal tonu ve konuşma stilini anında analiz eden Realtime STT ve 200’den fazla farklı modeli otomatik olarak seçip yöneten Realtime Router’dan oluşuyor. TTS-2 katmanı, bu altyapıdan aldığı bilgileri kullanarak yanıtları 200 milisaniyeden kısa bir sürede seslendirebiliyor. Bu, telefon görevlisi ya da dijital asistan gibi uygulamalarda gerçek zamanlı ve akıcı diyaloglar kurulmasını sağlıyor.

Piyasadaki saygın değerlendiricilerde Realtime TTS 1.5 modeli, Google ve ElevenLabs gibi devleri geride bırakarak lider konumdaydı. TTS-2’nin tanıtımı ise Inworld’un artık sadece ses kalitesi ile değil, bağlanabilirlik ve kullanıcı duyarlılığı konularında da rekabet ettiğini gösteriyor. Bu gelişme, kullanıcı memnuniyetini artırma ve yapay zeka destekli iletişim deneyimini kişiselleştirme açısından büyük bir adım.

Geleceğe bakıldığında, bu tür gelişmeler dijital asistanların, müşteri hizmetlerinin ve eğlence sektöründe içerik üretiminin daha etkileyici ve insan odaklı hale gelmesini mümkün kılacak. Ayrıca çok dilli ve çok kültürlü ortamlarda sahici ve doğal sesli iletişimin önü açılacak. Inworld AI’nin TTS-2 gibi yenilikçi modelleri, yapay zekanın insanla iletişimde daha sıcak ve etkili bir yardımcı haline gelmesini sağlayarak teknolojinin sınırlarını yeniden tanımlıyor.

📎 Kaynak: marktechpost.com