IBM'den Çok Dilli Konuşma Tanıma ve Çeviri Modelinde Büyük Adım

IBM, çok dilli otomatik konuşma tanıma (ASR) ve çift yönlü otomatik konuşma çevirisi (AST) için geliştirdiği kompakt model Granite 4.0 1B Speech’i duyurdu. Bu yeni sürüm, daha az bellek kullanımı, düşük gecikme ve yüksek hesaplama verimliliği sunarak, özellikle işletmeler ve uç cihazlarda konuşma teknolojilerinin yaygınlaşmasını hedefliyor. Böylece güçlü performans ile pratik kullanım ihtiyaçları arasında bir denge yakalanmış oluyor.

Granite 4.0 1B Speech, temelinde model boyutuna yönelik basit ama etkili bir strateji izliyor: modern çok dilli konuşma sistemlerinde beklenen temel özelliklerden ödün vermeden model parametre sayısını yarı yarıya düşürmek. Önceki sürüm granite-speech-3.3-2b ile kıyaslandığında, hem Japonca otomatik konuşma tanıma yeteneği eklenmiş hem de anahtar kelime bazlı algılama ile İngilizce yazım doğruluğu artırılmış durumda. Üstelik eğitim aşamasındaki iyileştirmeler sonucu model daha hızlı yanıt verme kapasitesi kazanıyor.

Modelin eğitimi geniş bir veri karışımıyla gerçekleştirilmiş. Burada kamuya açık otomatik konuşma tanıma ve konuşma çevirisi veri setlerinin yanı sıra, Japonca otomatik konuşma tanıma ve anahtar kelime odaklı algılama gibi özellikleri destekleyen sentetik veriler de kullanılmış. Bu sayede IBM, sıfırdan kapalı bir konuşma sistemi oluşturmak yerine, Granite 4.0 tabanlı dil modelini çoklu modlu eğitimle konuşma tanımaya uygun hale getirmiş. Bu yaklaşım, geliştiricilere açık ve esnek bir yapı sunuyor.

Granite 4.0 1B Speech, İngilizce, Fransızca, Almanca, İspanyolca, Portekizce ve Japonca gibi dilleri kapsıyor. Model, bu diller ile İngilizce arasında konuşmadan metne dönüştürme ve karşılıklı çeviri senaryolarında kullanılması için tasarlandı. Aynı zamanda İngilizce’den İtalyanca ve Mandarin’e çeviri seçenekleri de destekleniyor. Apache 2.0 lisansı altında yayınlanması, ticari kısıtlamaların ya da API bağımlılığının olmadığı açık kaynak kullanımlarını kolaylaştırıyor.

IBM’in Granite Speech ekibi, model ailesinin hızlı ve modüler bir yapı sunduğunu belirtiyor. Sistem iki aşamalı çalışıyor: İlk aşamada ses doğrudan metne çevriliyor; ikinci aşamada ise metin üzerinden dil modeli yorumları ve düzeltmeleri yapılıyor. Bu mimari, tüm işlemi tek seferde yapan modellerden farklı olarak, geliştiricilerin farklı bileşenleri bağımsız olarak optimize etmelerine olanak sağlıyor.

Granite 4.0 1B Speech, OpenASR sıralamasında birinci sırada yer alıyor. Ortalama Hata Oranı (WER) 5,52 ve işlem hızı bakımından (RTFx) 280,02 puana ulaşan model, popüler veri setleri üzerinde de oldukça başarılı sonuçlar elde etti. Örneğin LibriSpeech temiz veri üzerinde hata oranı sadece %1,42 seviyesinde. Bu rakamlar, modelin hem doğruluk hem de hız açısından rekabetçi olduğunu gösteriyor.

Yaygın kullanımlarda model, Transformers 4.52.1 ve üzeri sürümlerde doğal destekleniyor. Python tabanlı standart çıkarım veya API hizmetleri üzerinde çalışabiliyor. Ayrıca, daha az kaynak gerektiren ortamlar için optimize edilmiş ayarlarla, Apple Silicon gibi özel donanımlarda da rahatlıkla kullanılabiliyor. Ses tanıma iş akışında anahtar kelime odaklı işlem yapılması da, özellikle sektörel veya hedefe yönelik uygulamalarda büyük avantaj sağlıyor.

Granite 4.0 1B Speech’in piyasaya sürülmesi, ses teknolojilerinde yeni bir dönemin habercisi olabilir. Modelin düşük kaynak gereksinimi ve çok dilli yetenekleri, gerçek zamanlı çeviri ve konuşma tanıma çözümlerinin geniş kitlelere ulaşmasını hızlandıracak. Gelecekte, daha küçük cihazlarda, anlık ve doğru konuşma işlemlerinin yapılabilmesi günlük hayat ve iş süreçlerinde önemli kolaylıklar getirebilir. IBM’in bu alandaki yatırımları, yapay zeka tabanlı ses teknolojilerinin gelişiminde önemli bir rol oynamaya devam edecek gibi görünüyor.

📎 Kaynak: marktechpost.com