OmniHuman-1 Beta: AI Dijital İnsanlar Alanında Çığır Açan Bir Yenilik

Günümüzün hızla gelişen teknoloji çağında, AI dijital insan teknolojisi giderek daha fazla yaratıcı ve işletme için odak noktası haline geliyor. OmniHuman-1 bu alanda şüphesiz bir öne çıkan. Bu makale, OmniHuman-1'in olağanüstü performansını birden fazla açıdan inceleyecek.

OmniHuman-1'in Etkileyici Performansı

</p> Dijital insanlar ve AI dudak senkronizasyonu teknolojisi alanlarında, AI.TALK ekibi, derin endüstri bilgisi ve geniş pratik deneyimlerini kullanarak yaklaşık 300 dijital insan yarattı. Piyasadaki neredeyse tüm açık kaynaklı ve özel dijital insan teknolojilerini deneyerek zengin bir pratik deneyim biriktirdiler. OmniHuman-1'in beta testlerine katıldıktan sonra, ekip bu ürüne son derece yüksek övgülerde bulundu,

onu bugün mevcut en iyi AI dijital insan ürünü olarak değerlendirdi—hiç şüphesiz.

Bu bir abartı mı? Şu örneğe bir bakalım:

<iframe 
    style="width: 100%; height: auto; aspect-ratio: 16/9;"  src="https://cdn.omnihuman1.org/video/0b2edmabwaaamaapygfymbtvag6ddmnqagya.f10002.mp4" 
    frameborder="0" 
    allow="accelerometer; autoplay; encrypted-media; gyroscope; picture-in-picture" 
    allowfullscreen>
</iframe>

OmniHuman-1'in gücü, dijital insanların profil görünümlerinde dudak senkronizasyonunu mükemmel bir şekilde sağlaması, müzikteki sözleri otomatik olarak tanıması ve görüntü tabanlı dijital insanların doğal bir şekilde sallanmasını ve müzik enstrümanlarıyla etkileşime girmesini sağlamasıdır.

Şimdi, şu bölüme bir göz atalım:

Ağız netliği son derece yüksek ve mikrofon engellemesi veya karmaşık aydınlatma gibi zorlu koşullarda bile dudak senkronizasyonu doğru kalıyor. Ayrıca, karakterler müzikle senkronize bir şekilde geniş bir yüz ifadesi yelpazesi sergileyebiliyor. Bu yetenekler ekip üyelerini hayrete düşürdü.

Teknik Zorlukların Üstesinden Gelmedeki Atılımlar

Ekip 2023'ün başlarında kuruldu ve bu süreçte D-ID ve HeyGen gibi birçok ünlü ürünü tanıdı ve test etti. Ancak bu ürünler hala aşağıdaki teknik alanlarda birkaç zorlukla karşı karşıya:

Yüz Özellikleri Sınırlamaları: Geleneksel teknolojiler, kişilerin net, engelsiz ön fotoğraflarını yüklemeyi gerektirir. Yan veya yukarı açıdan çekilen fotoğraflar genellikle tanıma başarısızlığına yol açar. Tanıma zorlukla sağlansa bile, üretilen sonuçlar önemli ölçüde zarar görür.
Dinamik Sınırlamalar: Erken dönem görüntü tabanlı dijital insan teknolojilerinde, vücut hareketleri sertti ve sadece baş ve ağız hareketleri vardı, doğal vücut dinamikleri eksikti.
Piksel Sınırlamaları: Geleneksel dudak senkronizasyonu yöntemleri, genellikle ağız çevresinde piksel bozulmasına neden olur, bu da ağız çevresinde bulanık çıktılar üretir ve yaratıcı sonuçları olumsuz etkiler.
Ritim Sınırlamaları: Ses konuşma hızı çok hızlı olduğunda, dijital insanın dudak senkronizasyonu bozulabilir ve yüksek frekanslı ağız hareketlerini eşleştirmek zorlaşır.

OmniHuman-1'in ortaya çıkışı, bu teknik zorlukların üstesinden başarıyla geldi. Çok modlu hareket koşullu hibrit eğitim stratejisini tanıtarak, modelin karışık koşullu veri genişlemesinden yararlanmasını sağlar ve yüksek kaliteli veri eksikliğini giderir. OmniHuman-1, portre, yarım vücut veya tam vücut görüntüleri gibi herhangi bir en-boy oranındaki görüntü girişlerini destekler ve çeşitli senaryolarda canlı ve yüksek kaliteli sonuçlar sunar.

OmniHuman-1'in Yenilikçi Değeri

Açı kısıtlamalarını ortadan kaldırır. Dijital insanlar oluşturmak için görüntüler yüklediğimizde, platformlar genellikle kullanıcılardan kişilerin net, engelsiz ön fotoğraflarını göndermelerini ister. Bunun nedeni basit: bu teknolojinin çekirdeği, yüz özelliklerini doğru bir şekilde tanımaya dayanır. Başarısız olursa, "Yüz tanınamadı" gibi uyarılar görünecektir. Bu nedenle, aşağıdaki gibi fotoğraflar kesinlikle kabul edilemez, çünkü yan veya yukarı açılar genellikle tanıma başarısızlığına yol açar. Bazen şans eseri, 45 derecelik bir yan açı tanınabilir, ancak üretilen sonuçlar önemli ölçüde zarar görür ve bozuk ağızlar gibi sorunlar yaygındır.

Şimdi, OmniHuman-1'in 90 derecelik yan profiller ve yukarı açılardaki performansına bir göz atalım:

Her iki videodaki dudak senkronizasyonu neredeyse mükemmel, geniş bir doğal hareket yelpazesi eşlik ediyor. Bu, güçlü ve zayıf performans arasındaki bir fark değil—mümkün olan ile mümkün olmayan arasındaki bir fark.

OmniHuman-1, açı kısıtlamalarını ortadan kaldırarak film ve video prodüksiyonundaki karakterlerin geniş bir diyalog açısı ve çekim kompozisyonu "kilidini açmasını" sağlar, artık doğrudan kameraya bakmakla sınırlı değildir. Ayrıca, geliştirilmiş yüz özellikleri tanıma, hayvanlar gibi insan olmayan yüzlere karşı toleransı da artırır. Örneğin, 3D tarzı bir kuzu artık temel dudak senkronizasyonu ve diyalog tanıma sağlayabilir, günlük yaratım ihtiyaçlarını karşılar.

Ayrıca, yüz özelliklerine karşı artan tolerans, aşağıda bahsedilen 2D anime ve mürekkep tarzı gibi farklı stillerin tanınmasında da yansıtılır. Diğer modeller de bu stillerde dudak hareketleri üretebilirken, vücut hareketlerinin bütünlüğü ve dinamikleri açısından OmniHuman-1 hala en iyisi. Bu, görüntü tabanlı dijital insanlar konusundaki bir sonraki soruna yol açar.

OmniHuman-1, I2V (Görüntüden Videoya) seviyesinde dinamik görsel performansta üstündür. Sun Wukong (Maymun Kral) örneğini ele alalım: Yüz tanıması son derece doğru ve konuştuğunda tüm vücudu ve çevresi doğal, yüksek genlikli bir hareket içindedir. Başının yukarı ve aşağı hareketi, vücudunun ritmiyle kusursuz bir şekilde bütünleşir ve hatta su dalgaları hareketleriyle senkronize olur, tek bir görüntüden bir animasyon video üretimi sürüyormuş gibi.

Müzik açısından, OmniHuman-1 hedeflenen optimizasyonlar geçirmiştir. Müzikteki sözleri doğrudan tanımanın yanı sıra, karakterlerin yüzleri geniş bir duygu yelpazesi sergileyebilir ve çoklu kişi şarkı söyleme ve enstrüman performanslarını destekler.

Dudak piksel performansı daha da şaşırtıcı. Sadece karakterin orijinal yüz özelliklerini korumakla kalmaz, aynı zamanda inanılmaz bir netlik seviyesine ulaşır. Örneğin, Fok'un animasyonu ve bir kadın şarkıcının yakın plan detaylarında, üretilen dişler bile son derece doğal bir şekilde yeniden üretilir.

Orijinal görüntüde dişler bile yoktu; tamamen OmniHuman-1 tarafından üretildiler. Detay işleme seviyesi gerçekten şaşırtıcı.

Sonraki, piksel tanıma, dudak senkronizasyonunu sıklıkla engelleyen iki unsurla ilgilidir: güçlü aydınlatma ve uzun sakallar. İlki, yoğun ışık ve gölge kontrastına sahip görüntülerin video üretiminde başarısız olmasına neden olabilir. Runway'de "aşırı ışık ve gölge kontrastı" uyarısı verir. Örneğin, bir örnek videoda, arabada oturan yaşlı bir kişinin yüzünde sürekli değişen gölgeler var. OmniHuman-1 dışında, neredeyse hiçbir platform dudakları başarıyla değiştiremez. Uzun sakallar ise genellikle ağız çevresinde bulanıklığa neden olur. Ancak örnek kliplerde görüldüğü gibi, OmniHuman-1 sakalları neredeyse mükemmel bir şekilde yeniden üretebilir, hiçbir detay kaybı olmadan.

Etkileyici, başka kelimelerle tanımlanamaz.

Son zorluk, çok hızlı konuşma sorunudur. Deneyimi olan herkes bunu yaşamıştır: sağladığınız ses kaydındaki konuşma hızı çok hızlı olduğunda, dijital insanın dudak senkronizasyonu kesinlikle bozulacaktır. Bunun nedeni, animasyon kare hızının yüksek frekanslı dudak hareketlerini eşleştirmekte zorlanmasıdır, bu da bir uyumsuzlukla sonuçlanır. Ancak OmniHuman-1 bu sorunu da çok iyi bir şekilde çözmüştür. Steve Jobs'un son derece hızlı bir şekilde konuştuğu bölümde, dudak senkronizasyonunda neredeyse hiç kusur yoktur. Rap müzik için bile sorun olmamalıdır.

Mevcut Sorunlar ve Gelecek Beklentiler

Önemli teknolojik ilerlemelere rağmen, OmniHuman-1'in hala geliştirilmesi gereken alanlar var. Şu anda OmniHuman-1 herhangi bir ince ayar işlevi sunmuyor. Örneğin, karakterler konuştuğunda, hareketlerinin genliği çok büyük olabilir. Vücut hareketlerinin genliğini ince ayarlama seçenekleri ve uzuv hareketleri için daha fazla seçenek eklenmesi önerilir. Ayrıca, OmniHuman-1 şu anda sadece görüntü tabanlı animasyonları destekliyor ve henüz video dudak senkronizasyonunu desteklemiyor. Bu özelliğin yakında tanıtılması umuluyor. Üretilen içerik için mevcut 15 saniyelik sınır kısa değil, ancak hala iyileştirme alanı var. Üretim hızı açısından, iç test aşamasında tek bir klip üretmek yaklaşık 15-20 dakika sürüyor. Ürün resmi olarak piyasaya sürüldüğünde bu sürecin optimize edilmesi ve daha verimli hale getirilmesi umuluyor.

Özet

Güçlü teknik yetenekleri ve olağanüstü performansıyla OmniHuman-1, şu anda mevcut en iyi AI dijital insan ürünüdür. Yüz özellikleri toleransı, hassasiyet ve estetik çekicilik açısından üst düzey performans sergilemiş, bireysel işlevlerde net avantajlar sağlamıştır. Lansmanı, dijital insanların ve AI müzik videolarının uygulanmasını önemli ölçüde artıracak ve film ve televizyon prodüksiyonuna daha fazla olanak getirecektir. OmniHuman-1, AI dijital insan alanında oyun değiştirici bir etki yaratmıştır ve resmi olarak piyasaya sürüldüğünde daha fazla sürpriz bekliyoruz.

Bu makale, AITalk'tan blogger Han Qing'in içeriğinden uyarlanmıştır, özel teşekkürler.