Yapay Zeka

Google’dan 24 Afrika Dilini Kapsayan Yeni Çok Dilli Konuşma Verisi Seti

Konuşma teknolojileri alanı, özellikle az kaynaklı diller için hâlâ büyük veri sıkıntısı yaşıyor. Otomatik Konuşma Tanıma (ASR) ve Metinden Konuşmaya (TTS) sistemleri, İngilizce ve benzeri yaygın dillerde hızla gelişirken, Afrika dilleri çoğu zaman yeterince temsil edilmediği için geride kalıyor. Google ve iş birliği yaptığı araştırmacılar, bu sorunu çözmek üzere WAXAL adını verdikleri, 24 Afrika dilini kapsayan, açık ve çok dilli yeni bir konuşma veri seti geliştirdi.

WAXAL, ASR ve TTS sistemleri için ayrı ayrı optimize edilmiş iki bileşenden oluşuyor. ASR tarafı, doğal ve spontane konuşmaların yer aldığı gerçek ortam kayıtlarından oluşurken; TTS bileşeni, yüksek kaliteli stüdyo koşullarında tek bir konuşmacıdan alınan sesleri temel alıyor. Bu yaklaşım, konuşma verisi ihtiyaçlarının teknolojilere göre farklılık gösterdiği gerçeğini dikkate alarak geliştirildi. Örneğin, gerçek dünya koşullarında çalışan ASR sistemleri, çeşitli konuşmacılar ve ortam gürültüsü ile başa çıkabilirken, TTS modellerinde ses kalitesi ve tutarlılık çok daha kritik.

ASR tarafındaki veriler, araştırmacıların farklı Afrika dillerini konuşan kişilere gösterdikleri resimleri anlatmaları istenerek toplandı. Resimlere dayanan bu konuşmalar, daha doğal ve akıcı ifadeleri yansıtıyor, sadece metin okuma yerine gerçek konuşma çeşitliliği sağlıyor. Her konuşmacının sesi kendi doğal ortamında kayıt altına alındı ve kayıtlar en az 15 saniye uzunluğunda oldu. Veri toplarken konuşmacının yaşı, cinsiyeti, kullanılan dil ve ortam gibi detaylar da kaydedildi. Toplanan bu ses kayıtlarının yaklaşık yalnızca yüzde 10’u yerel dil uzmanları tarafından dikkatlice yazıya döküldü. Bu yöntem, çok dilli ASR sistemleri oluşturmak isteyenler için önemli bir referans niteliğinde.

WAXAL’ın TTS bileşeninde ise tamamen farklı bir yöntem izlenmiş. Burada amaç, yüksek kalitede, tek sesli yapay konuşma modelleri üretmek. Her dil için yaklaşık 108 bin kelimelik fonetik açıdan dengeli metinler hazırlandı. Seslendirmenler profesyonel stüdyo ortamlarında kayıt altına alındı ve bu süreçte hem erkek hem kadın seslerinden oluşan 72 kişi görev aldı. Her ses için yaklaşık 16 saatlik temiz ve düzenlenmiş ses kaydı üretilerek, yapay ses sentezi için ideal şartlar oluşturuldu. TTS sistemlerinin doğru ve tutarlı telaffuzu, yüksek ses kalitesini ve stabil kayıt ortamını gerektirmesi, bu tasarımı zorunlu kıldı.

Bu yenilikçi veri setinin önemi, çok dilli ve az kaynaklı Afrika dillerinin teknoloji dünyasında daha görünür hale gelmesini sağlamasıdır. Birçok Afrika dili, dijital çağda yeterince temsil edilmediği için mevcut ASR ve TTS sistemlerinden yeterince faydalanamıyordu. WAXAL, bu açığı kapatmakla kalmayıp farklı ve doğal dil örneklerini sunmasıyla da daha gerçekçi ve etkili konuşma teknolojilerinin geliştirilmesine olanak tanıyor. Ayrıca, bu tür veri setleri dillerin dijitalleşme sürecini hızlandırarak kültürel çeşitliliğin korunmasına da destek veriyor.

Teknik açıdan, WAXAL konuşma verisinin birden fazla teknolojik ihtiyacı barındıran karma yapısının başarılı bir örneği. ASR için doğal ve çeşitli seslerle zenginleştirilmiş veri, gerçek hayat kullanım senaryolarına dayanırken, TTS için yüksek kaliteli, stüdyo ortamında toplanmış tek sesli kayıtlar modellerin başarısını artırıyor. Ayrıca, veri setindeki transkripsiyon süreci, yerel dil uzmanlarının ve farklı alfabelerin kullanımıyla, düşük kaynaklı dillerin işlenmesi ve kapsamının artırılmasına yeni bir perspektif kazandırıyor.

Gelecekte, WAXAL gibi açık kaynaklı ve çok dilli veri setleri sayesinde Afrika dillerine özel konuşma teknolojileri hızla gelişebilir. Bu da bölgede daha fazla dijital içerik üretimi, eğitim ve iletişim imkanlarının artmasını tetikleyebilir. Google ve ortaklarının bu girişimi, Kıta’daki dijital uçurumu küçültmek ve konuşma teknolojilerinde çeşitliliği artırmak için önemli bir adım olarak görülüyor. Önümüzdeki yıllarda bu tür projelerin yaygınlaşması, dünya genelinde çok dilli ve kapsayıcı yapay zeka sistemlerinin ortaya çıkmasına ön ayak olacak gibi görünüyor.


📎 Kaynak: marktechpost.com

Elif

79 makale yayınladı.

Subscribe
Bildir
guest

0 Yorum
Eskiler
En Yeniler Beğenilenler
Inline Feedbacks
View all comments