
Yeni Yapay Zeka, Durağan Fotoğraflara Hayat Veriyor, Hareketli Dünyalar Yaratıyor

Çinli teknoloji devi Tencent, içerik üreticileri için büyüleyici bir yeni araç tanıttı: HunyuanWorld-Voyager adında bir AI modeli. Bu araç, tek bir statik görüntüden kısa bir video oluşturabiliyor ve sahne içinde kamera hareketinin ikna edici bir illüzyonunu yaratıyor.
Standart video üreticileri olan Sora gibi, temelde makul çerçevelerin bir dizisini çizen Voyager, mekansal tutarlılığı korumaya odaklanıyor. Bu, kamera "ilerlerken" veya yanlara hareket ederken, görüntüdeki nesnelerin rastgele yüzmemesi veya bozulmaması anlamına geliyor. Bunun yerine, gerçek bir 3D ortamda olduğu gibi, oranlarını ve konumlarını koruyorlar.
Kullanıcı herhangi bir görüntü yükler — örneğin, bir odanın iç mekanının veya bir manzaranın fotoğrafı. Ardından, sanal kameranın takip etmesi için bir yol tanımlar ve sistem 49 kare (yaklaşık 2 saniye video) üretir; bu kareler daha uzun diziler haline getirilebilir.
Bu teknolojinin önemli bir özelliği, hem renkli video hem de kare başına derinlik verisinin eşzamanlı olarak üretilmesidir. Bu, sonucun daha fazla modelleme için 3D nokta bulutuna dönüştürülmesine olanak tanır; bu, oyun geliştirme için son derece faydalı olabilir. Ancak, model gerçek bir 3D alan yaratmaz; birini ustaca taklit eder. Bu nedenle, daha uzun dizilerde veya tam 360 derece döndürme denemelerinde hatalar üretebilir.
Yaygın benimsemenin en büyük engeli, donanım gereksinimidir. Modeli en düşük kalitesinde (540p) çalıştırmak için en az 60 GB VRAM'e sahip bir grafik kartı gereklidir. Kararlı sonuçlar için 80 GB kartlar önerilmektedir — bu tür çözümler hem pahalı hem de nadirdir.
Model, resmi olarak Hugging Face'te mevcuttur, ancak lisansı Avrupa Birliği, Birleşik Krallık ve Güney Kore içinde kullanımını yasaklamaktadır. 100 milyondan fazla kullanıcısı olan büyük ticari şirketlerin de Tencent ile ayrı bir anlaşma yapması gerekecektir.
Mevcut sınırlamalarına rağmen, Voyager belirli niş görevler için ilgi çekicidir. Ancak şu anda, daha çok meraklılar ve profesyoneller için bir araç olarak kalmaktadır, kitlesel bir pazar ürünü olmaktan ziyade. Uzmanlar, Tencent, Google (Genie 3) ve diğer girişimlerden gelen bu tür gelişmelerin, bir izleyicinin AI tarafından oluşturulan bir dünyada kamerayı ince bir şekilde "hareket ettirebileceği" yeni bir jeneratif dijital sanat biçimine doğru atılan ilk adımlar olduğunu belirtmektedir.