Bulut tabanlı yapay zeka hizmetlerinde, talep anlık olarak değişiyor ve bu da hızlı ölçeklenebilen sistemlere olan ihtiyacı artırıyor. Ancak Kubernetes ortamında yapay zeka modellerinin başlatılması—yani “cold start”—çoğu zaman dakikalarca sürebiliyor. Bu gecikme, GPU’ların boş yere beklemesine ve hizmet kalitesinde düşüşe neden oluyor. NVIDIA, bu soruna yenilikçi bir çözüm getirerek Dynamo Snapshot isimli yeni teknolojisiyle yapay zeka modellerinin başlatılma süresini 21 kata kadar azaltmayı başardı.
Dynamo Snapshot, Kubernetes üzerinde çalışan yapay zeka çıkarım iş yüklerinin “checkpoint/restore” (kontrol noktası alma ve geri yükleme) yöntemini kullanarak anlık olarak çalışır durumda olan süreçleri kaydedip hızlıca yeni bir sunucuda devam ettirebiliyor. Sistem, GPU ve CPU tarafındaki tüm çalışmayı kaydederek, model sunucusunun yeniden başlatılması sürecindeki zahmetli işlemleri atlıyor. Böylece sıfırdan başlayan “cold start” gecikmelerini ortadan kaldırıyor.
Bu teknolojinin temelinde iki önemli araç yer alıyor: cuda-checkpoint ve CRIU (Checkpoint/Restore in Userspace). Cuda-checkpoint, GPU belleğinde bulunan CUDA bağlamlarını ve diğer GPU içi durumları CPU belleğine aktarırken, CRIU Linux işletim sisteminin süreç yönetimini kullanarak CPU tarafındaki işlemleri ve süreç ağacını diske kaydediyor. Bu iki bileşen, yeniden başlatma anında GPU ve CPU durumlarını eksiksiz ve senkron şekilde geri çağırarak işlem sürecinin kaldığı yerden devam etmesini sağlıyor.

NVIDIA’nın geliştirdiği snapshot-agent adlı bileşen, Kubernetes kümesi içindeki her düğümde çalışan bir DaemonSet olarak görev yapıyor. Bu ajan, checkpoint alma ve geri yükleme işlemlerini kullanıcı müdahalesine gerek kalmadan gerçekleştiriyor. Checkpoint sırasında sistem, modelin çalışma dosya sistemi değişikliklerini de kapsayarak tüm durumun tutarlı biçimde kaydedilmesini sağlıyor. Geri yükleme aşamasında ise hafif bir yer tutucu pod başlatılarak tüm kayıtlı durumun aynen uygulanması sağlanıyor. Bu sayede Kubernetes ortamında çoklu düğümlerde bile checkpoint ve restore işlemleri paralel ve hızlı şekilde yapılabiliyor.
Teknolojinin kritik bir diğer yönü ise “quiesce/resume” mekanizması. Model, işlem sırasında aktif TCP bağlantıları açmadan önce checkpoint alınabiliyor. Model checkpoint öncesi “hazırım” sinyalini veriyor ve ajan işlemi duraklatıp durumunu kaydediyor. Restore işlemi tamamlandığında da model kaldığı yerden otomatik olarak devam ediyor. Bu yöntem, ağ bağlantılarının ve çoklu GPU’ların koordinasyonunda ortaya çıkabilecek karmaşıklıkları minimalize ediyor.
Dynamo Snapshot ayrıca GPU belleğinde büyük yer kaplayan KV cache gibi önbelleklerin checkpoint kapsamından çıkartılmasıyla, kaydedilen durumun boyutunu önemli ölçüde küçültüyor. Örneğin Qwen3-0.6B modeli için bu optimizasyon, checkpoint dosyasını yaklaşık 190 GB’dan 6 GB’a indiriyor. Bu küçültme, aktarım hızlarını artırıyor ve disk ile bellek işlemlerinin en verimli şekilde kullanılmasını sağlıyor.

Restore işleminin hızlandırılması açısından Linux’un doğal asenkron G/Ç (AIO) teknolojisi ve paralel memfd restore yöntemleri de uygulandı. Bu yeniliklerle diskten verilerin paralel ve yoğun şekilde okunması sağlanıyor, böylece restore süresi ciddi anlamda kısalıyor. Testlerde büyük modellerde restore süresi, önceki yöntemlere göre 7,9 kat daha hızlı hale geldi.
En çok dikkat çeken yeniliklerden biri ise GPU Bellek Servisi (GMS): Bu servis, model ağırlıklarını çekirdek süreçten ayırarak ağırlık veri aktarımını CPU yoluyla yapılmak zorunda bırakmıyor. Böylece işlem durumu ve ağırlık verileri aynı anda, farklı kanallardan, örneğin GPUDirect Storage veya NVLink üzerinden hızlıca yüklenebiliyor. GMS sayesinde gpt-oss-120b modelinin başlatma süresi 21 kat hızlanarak 5 saniyenin altına indi.
Bu gelişmeler, özellikle yapay zeka çıkarım iş yüklerinin hız ve ölçeklenebilirlik taleplerini direkt karşılayacak önemde. Soğuk başlangıç sürelerini azaltmak, ani trafik artışlarında daha yüksek hizmet kalitesi ve esneklik anlamına geliyor. Özellikle gerçek zamanlı yapay zeka uygulamalarının yaygınlaşmasıyla, bu tür teknolojiler sistemlerin olmazsa olmazları arasına girecek.
NVIDIA Dynamo Snapshot, şu an için vLLM backend üzerinde sınırlı önizleme aşamasında bulunuyor ve multi-GPU ya da çoklu düğüm desteği için geliştirmeler devam ediyor. Gelecekte TensorRT-LLM entegrasyonu ve diğer gelişmiş yapay zeka iş yükleri için desteklerin gelmesi planlanıyor. Deploy süreci ise Helm ile kolayca yönetiliyor ve güvenli Kubernetes ortamlarına rahatlıkla entegre edilebiliyor.
Sonuç olarak, Dynamo Snapshot yapay zeka model çıkarım süreçlerinde devrim yaratacak bir çözüm sunuyor. Hem gecikmeleri azaltması hem de çok daha küçük checkpoint dosyaları yaratmasıyla, Kubernetes tabanlı AI servis altyapılarını daha çevik ve performanslı hale getiriyor. Yapay zekanın hızla farklı sektörlere yayılmasıyla birlikte, bu teknolojinin geleceğin üretim ortamlarında temel taşlardan biri olması bekleniyor.
📎 Kaynak: marktechpost.com



