Netflix ve Sofia Üniversitesi’nden Devrim Yaratan Video Düzenleme Modeli VOID

Video düzenleme alanında nesneleri videodan çıkarmak yıllardır zorlu bir süreçti. Nesneyi silmek kolaydır; ancak sahnenin sanki o nesne hiç var olmamış gibi doğal görünmesini sağlamak çok daha karmaşıktır. İşte tam bu noktada Netflix ve Sofya Üniversitesi’nden araştırmacılar, video düzenleme tekniklerinde çığır açan bir model geliştirdi. VOID (Video Object and Interaction Deletion) adlı bu model, sadece nesneleri videodan kaldırmakla kalmıyor, aynı zamanda nesnenin sahnedeki fiziksel etkilerini de otomatik olarak ortadan kaldırabiliyor. Bu teknoloji, video düzenleme ve görsel efekt çalışmalarında büyük kolaylıklar sağlayacak.

VOID modelinin temel amacı, nesneleri sahneden silerken sahnedeki diğer öğelerle etkileşimlerini de hesaba katmak. Konvansiyonel video inpainting yöntemleri sadece silinen nesnenin bulunduğu pikselleri doldurarak arka planı tahmin etmeye çalışır. Ancak VOID, bu klasik yaklaşımlardan ayrılarak sahnenin fiziksel nedenselliğini anlıyor. Örneğin, bir kişi gitar çalarken sahneden çıkartıldığında, VOID bu kişinin gitara sağladığı desteğin kalktığını fark ediyor ve gitarın doğal biçimde yerçekimine bağlı olarak düşmesini sağlıyor. Bu, geleneksel modellerin başaramadığı, sahne dinamiklerinin gerçekçi biçimde korunmasını mümkün kılan önemli bir yenilik.

Araştırmanın arka planında ise CogVideoX adlı güçlü bir 3D Transformer video üretim modeli bulunuyor. VOID, CogVideoX baz alınarak video inpainting için özel olarak geliştirilmiş ve sahnedeki etkileşimlere duyarlı “quadmask” tekniği ile desteklenmiş. Quadmask, sadece hangi piksellerin silineceğini değil, aynı zamanda hangi bölgelerin fiziksel olarak etkilendiğini ve değiştiğini dört ayrı kod değeriyle belirliyor. Böylece model, sadece görüntü düzeyinde bir düzenleme yapmakla kalmıyor, aynı zamanda sahnenin fiziksel tutarlılığını da koruyabiliyor.

Bu sistemin eğitimi ise oldukça karmaşık ve yenilikçi bir yöntemle gerçekleştirildi. Gerçek hayattan fizik kurallarına uygun olarak nesnelerin etkileşimlerini yansıtan çiftli video verisi mevcut olmadığı için araştırmacılar sentetik veri üretimine yöneldi. Blender tabanlı HUMOTO simülasyonları ve Google Kubric projesi ile oluşturulan insan-nesne ve nesne-nesne etkileşimleri, sahne içinde gerçekçi fiziksel değişimlerin simüle edilmesini sağladı. Böylece VOID, nesnenin kaldırılmasının ardından oluşan fiziksel etkileri doğru ve tutarlı şekilde öğrenebildi.

Bu teknoloji, özellikle film ve televizyon endüstrisinde görsel efekt çalışmalarını hızlandırırken, amatör ve profesyonel video düzenleyicilerin de işini kolaylaştıracak. Eski yöntemlerde haftalarca sürebilen karmaşık düzenlemeler, VOID sayesinde çok daha kısa sürede ve yüksek doğrulukla gerçekleştirilebilecek. Ayrıca gerçekçi fiziksel etkileşimler sayesinde ortaya çıkan videoların kalitesi artacak, sahnede “yüzen” veya mantıksız duran nesneler gibi sorunlar tarih olacak.

VOID’un sunduğu yenilikler sadece görsel efektlerle sınırlı kalmayacak gibi görünüyor. Yapay zeka destekli video işletmelerinde, sanal gerçeklik ve artırılmış gerçeklik uygulamalarında nesnelerin dinamik şekilde yönetilmesi için de önemli bir adım olacak. Araştırmacılar, bu teknolojinin önümüzdeki yıllarda daha da geliştirileceğini ve çok daha karmaşık sahnelerde kullanılacağını belirtiyor. Sürekli gelişen model mimarisi ve eğitim teknikleriyle video düzenleme dünyasında yeni standartlar oluşturması bekleniyor.

Özetle, VOID modeli video düzenleme alanında hem zamandan hem de emekten tasarruf sağlayan, sahnelerin fiziksel gerçekliğini koruyan yüksek teknolojili bir çözüm olarak öne çıkıyor. Bu gelişme, hem endüstriyel uygulamalar hem de günlük kullanıcıların video içerik üretiminde çığır açabilir. Video içeriği oluşturmanın geleceği, fiziksel etkileşimleri anlayan yapay zekayla yepyeni bir döneme giriyor.

📎 Kaynak: marktechpost.com