OpenMythos: 770M Parametreyle 1.3B Model Gücüne Yaklaşan Yeni Yapay Zeka

Yapay zeka alanında önemli bir boşluğu dolduran yeni bir açık kaynak projesi, Claude Mythos mimarisinin detaylarını teknoloji dünyasına sunuyor. Anthropic firmasının resmi teknik doküman yayımlamadığı Claude Mythos’un çalışma prensiplerini temel alan OpenMythos, PyTorch ile geliştirilmiş ve araştırmacılara ilk kez uygulamalı bir model sunuyor. Bu proje, yapay zekadaki parametre verimliliği konusunda yeni ufuklar açabilir.

OpenMythos, Claude Mythos mimarisini, literatürde Recurrent-Depth Transformer (RDT) veya Looped Transformer olarak adlandırılan dönmeli katman yapısına dayandırıyor. Geleneksel transformer modellerde (örneğin GPT veya LLaMA), katmanlar sırayla bir kez işlenirken, OpenMythos’ta aynı ağırlıklar birden çok defa kullanılarak hesaplama derinliği artırılıyor. Bunun anlamı, modelin düşünme sürecinde tekrarlar yapması ve her döngüde içsel temsillerini geliştirmesi. Böylece daha az parametreyle daha derin ve karmaşık işlemler yapılabiliyor.

OpenMythos’un yapısı üç bölümden oluşuyor: Prelude, Recurrent Block ve Coda. Prelude ve Coda standart transformer katmanları olup sadece bir kez işleniyor. Ancak Recurrent Block, öğrenilen ağırlıklar kullanılarak en fazla 16 defa tekrar ediliyor. Model, her döngüde önceki gizli durumu güncelliyor ve kodlanmış girdi sinyalini tekrar yeniden sisteme enjekte ediyor. Bu yöntem, bilgi kaybını önlerken modelin orijinal veriye sürekli bağlı kalmasını sağlıyor. Ayrıca, besleyici sinir ağı katmanı (Feedforward Network) yerine Mixture-of-Experts (MoE) esaslı özel bir yapı tercih edilerek, farklı uzman modellerin görev bazlı seçimi sağlanıyor, bu da modelin esnekliğini ve doğruluğunu artırıyor.

Bu mimarinin en önemli özelliklerinden biri, düşünmenin sürekli ve kesintisiz bir gizli uzayda gerçekleşmesi. Başka bir deyişle, model fikirlerini ya da ara çıktılarını dışa vurmak yerine hepsini hesaplama aşamasında sayısal vektörler halinde işliyor. Bu, “chain-of-thought” (düşünce zinciri) yönteminden farklı olarak, modelin aynı anda birçok ihtimali değerlendirmesine olanak tanıyor. Bu yapay zeka, karmaşık mantıksal problemleri çözmede daha başarılı hale gelebiliyor çünkü zorluk arttıkça hesaplama derinliği de yükseltilebiliyor; böylece daha çok döngü ile daha uzun ve zor mantık zincirleri işlenebiliyor.

OpenMythos, tekrarlı model eğitiminin zorluklarını da dikkate alarak çözüm yolları geliştirmiş durumda. Recurrent Block’ta gizli durumun kontrolsüz büyümesi veya aşırı düşünme nedeniyle performansın düşmesi gibi problemler, matematiksel sabitlik garantisi veren Lineer Zamanla Değişmeyen (LTI) kısıtlamalar ve Dinamik Hesaplama Zamanı (Adaptive Computation Time) teknikleriyle aşılmış. Ayrıca modelin her döngüde biraz farklı davranmasını sağlayan küçük ayarlamalar (Depth-Wise LoRA adaptörleri) da toplam parametre sayısını artırmadan modelin esnekliğini artırıyor.

Parametre verimliliği açısından OpenMythos önemli bir referans sunuyor. Parcae mimarisine dayanan deneysel veriler, 770 milyon parametreye sahip OpenMythos modelinin 1.3 milyar parametreli geleneksel transformerlarla eşdeğer performans sergileyebileceğini ortaya koyuyor. Bu, yapay zekada daha az hesaplama kaynağıyla yüksek performans elde etmenin mümkün olduğunu gösteriyor. Bu yaklaşımla, model büyüklüğünden çok, çıkarım anındaki işlem döngüsü sayısının artırılmasıyla derinlemesine düşünme sağlanabiliyor.

Sonuç olarak OpenMythos, yapay zeka araştırmaları için yeni ve farklı bir rota öneriyor. Daha büyük modeller eğitmek yerine, döngülü ve tekrar eden hesaplamalarla aynı seviyede ya da daha üstün zeka modelleri geliştirmek mümkün olabilir. Açık kaynak olması ve tamamen teorik temel üzerine inşa edilmesi nedeniyle, OpenMythos araştırmacılar için deney yapmaya, test etmeye ve modelin sınırlarını keşfetmeye uygun bir zemin oluşturuyor. Gelecekte, bu mimarinin yapay zeka alanında daha verimli ve esnek bir gelişime öncülük etmesi bekleniyor.

📎 Kaynak: marktechpost.com