LivePortrait icon

LivePortrait

Açık Kaynak
4.5
Kuaishou

LivePortrait, Kuaishou Technology tarafından geliştirilen ve tek bir statik portre fotoğrafından ifade dolu ve canlı yüz animasyonları üreten verimli bir AI portre animasyon modelidir. Model, bir kaynak portre görüntüsü ve yüz hareketleri içeren bir sürücü video alır, ardından videodaki ifadeleri, baş rotasyonlarını, göz hareketlerini ve ağız jestlerini orijinal kişinin kimliğini ve görünümünü koruyarak portreye aktarır. Çarpıtma tabanlı render ile örtük anahtar nokta algılama mimarisi üzerine inşa edilen LivePortrait, etkileşimli uygulamalar ve canlı içerik oluşturma için pratik hale getiren gerçek zamanlı çıkarım hızları sağlar. Model, portre animasyonunda yüz sınırı bozulması, boyun kopması ve doğal olmayan göz hareketleri gibi yaygın artefaktları önleyen dikiş ve yeniden hedefleme modülleri sunarak öznenin doğal görünümünü koruyan kusursuz sonuçlar üretir. LivePortrait, fotoğraflar, tablolar, illüstrasyonlar ve hatta çizgi film karakterleri dahil çeşitli portre türlerini işleyerek animasyon yaklaşımını farklı sanatsal stillere uyarlar. Model, kaş kaldırma, göz kırpma veya gülümseme yoğunluğu gibi belirli yüz özelliklerinin bağımsız olarak seçici animasyonuna olanak tanıyan bireysel yüz eylem birimleri üzerinde ince ayarlı kontrol destekler. MIT lisansı altında tamamen açık kaynaklı olan LivePortrait, ComfyUI ve diğer yaratıcı araçlara entegre edilmiştir. Yaygın uygulamalar arasında sosyal medya için animasyonlu avatarlar oluşturma, sanal sunucular için yüz animasyonları üretme, tarihi fotoğraflardan ilgi çekici içerik oluşturma ve müzeler için etkileşimli portre deneyimleri geliştirme yer alır.

Yüz Üretimi
Görselden Video

Öne Çıkan Özellikler

Gerçek Zamanlı Portre Animasyonu

Tek bir fotoğraftan gerçek zamanlı portre animasyonu oluşturarak canlı ifade transferi sağlar.

İfade ve Mimik Transferi

Kaynak videodaki yüz ifadelerini hedef portreye doğal şekilde aktararak canlı animasyon oluşturur.

Dikişsiz Birleştirme (Stitching)

Anime edilen yüz bölgesini orijinal görüntüyle dikişsiz şekilde birleştirerek doğal sonuçlar üretir.

Göz ve Dudak Takibi

Göz hareketlerini ve dudak senkronizasyonunu hassas şekilde takip ederek gerçekçi animasyon sağlar.

Hakkında

LivePortrait, Kuaishou Technology tarafından 2024 yılında geliştirilen, tek bir portre fotoğrafından canlı ve ifadeli animasyonlar üreten yapay zeka modelidir. Kullanıcı bir kaynak portre ve bir sürücü video sağlar; model, videodaki yüz hareketlerini ve ifadeleri kaynak portreye aktararak doğal görünümlü animasyonlar oluşturur. LivePortrait, önceki portre animasyon modellerine kıyasla çok daha hızlı çıkarım süresi ve yüksek kaliteli sonuçlar sunarak bu alanda yeni standartlar belirlemiş ve gerçek zamanlı interaktif uygulamaları ilk kez pratik hale getirmiştir.

Teknik mimari açısından LivePortrait, implicit keypoint tabanlı bir yaklaşım kullanır. Model, önce kaynak portreden ve sürücü videodan ayrı ayrı canonical keypoint'ler ve bunların dönüşüm parametrelerini (rotasyon, öteleme, ifade deformasyon) çıkarır. Ardından bir warping modülü, bu parametreleri kullanarak kaynak portre üzerinde uzamsal deformasyonlar uygulayarak hareket transferini gerçekleştirir. Son olarak bir decoder ağı, deforme edilmiş özellik haritalarından nihai animasyonlu kareyi sentezler. Modelin 256x256 çözünürlükte çalışan hafif ve optimize edilmiş yapısı, RTX 4090 üzerinde yaklaşık 12 milisaniye çıkarım süresiyle gerçek zamanlı performans sunar.

LivePortrait, animasyon kalitesi ve hız dengesinde dikkat çekici ve tutarlı sonuçlar elde eder. Göz kırpma, kaş hareketleri, ağız açma-kapama, baş çevirme ve yüz ifadesi değişimleri gibi ince ve karmaşık hareketleri doğal biçimde aktarır. Stitching modülü sayesinde animasyonlu yüz bölgesi, orijinal görselin geri kalanıyla kesintisiz ve pürüzsüz biçimde birleştirilir; bu da önceki yaklaşımlarda sıkça görülen sınır artefaktlarını ortadan kaldırır. Model, hem fotoğrafik portrelerde hem de çizim ve anime tarzı görsellerde başarılı sonuçlar üretir; bu çok yönlülük pratik kullanım alanlarını ve yaratıcı olasılıkları önemli ölçüde genişletir.

Kullanım alanları eğlenceden profesyonel uygulamalara kadar geniş bir yelpazede yer alır. Sosyal medya içerik üreticileri eğlenceli ve dikkat çekici animasyonlar oluşturmak, eğitim platformları tarihi figürleri ve önemli şahsiyetleri canlandırmak, oyun geliştiricileri NPC yüz animasyonları üretmek ve pazarlama ekipleri dinamik ve konuşan sözcü içeren reklam içerikleri hazırlamak için LivePortrait'i kullanır. Sanal asistanlar ve chatbot arayüzleri için yüz animasyonu, müzik videoları için lip-sync efektleri ve kişisel hediye oluşturma (eski aile fotoğraflarını canlandırma) gibi yaratıcı kullanımlar da giderek yaygınlaşmaktadır.

LivePortrait, Apache 2.0 lisansı altında açık kaynaklı olarak GitHub'da yayınlanmıştır. PyTorch tabanlı uygulama, önceden eğitilmiş ağırlıklar ve Gradio tabanlı kullanıma hazır web arayüzü içerir. ComfyUI entegrasyonu topluluk tarafından geliştirilen özel düğümler aracılığıyla sağlanmıştır. Model, NVIDIA GPU'larda ONNX Runtime ve TensorRT optimizasyonlarıyla hızlandırılabilir ve üretim ortamlarına uygun hale getirilebilir. Hugging Face Spaces üzerinde etkileşimli demo mevcuttur. Minimum 4 GB VRAM yeterlidir ancak optimal performans ve daha yüksek çözünürlüklü işleme için 8 GB ve üzeri önerilir.

Portre animasyonu alanında LivePortrait, hız ve kalite dengesinde yeni bir zirve temsil eder. First Order Motion Model ve Face-vid2vid gibi öncüllerin üzerine inşa edilen model, gerçek zamanlı çıkarım kapasitesiyle interaktif ve canlı uygulamaları mümkün kılmıştır. Özellikle stitching modülünün sağladığı sorunsuz birleştirme ve hassas retargeting kontrolü, LivePortrait'i pratik uygulamalar için en erişilebilir ve kullanışlı portre animasyon çözümü haline getirmiştir. Kuaishou'nun bu projesi, mobil ve gerçek zamanlı uygulamalarda portre animasyonunun geleceğini aktif olarak şekillendirmekte ve araştırma atılımlarını tüketici düzeyinde teknolojiye dönüştürmektedir.

Kullanım Senaryoları

1

Sanal Sunum ve Eğitim

Eğitim videoları ve sunumlar için statik fotoğrafları konuşan animasyonlara dönüştürme.

2

Sosyal Medya İçerik Üretimi

Eğlenceli ve viral sosyal medya içerikleri için portre animasyonları oluşturma.

3

Dijital Avatar ve VTuber

VTuber ve dijital avatar uygulamaları için gerçek zamanlı yüz ifadesi aktarımı.

4

Tarihsel ve Sanatsal Canlandırma

Eski fotoğrafları ve tarihi portreleri canlandırarak müze ve eğitim amaçlı kullanım.

Artılar ve Eksiler

Artılar

  • Tek bir fotoğraftan canlı portre animasyonu — 12.8ms/kare RTX 4090'da
  • Kuaishou tarafından geliştirilen açık kaynak proje
  • 69 milyon yüksek kaliteli kare üzerinde eğitilmiş
  • Göz ve dudak retargeting kontrolü ile hassas yüz animasyonu
  • Kuaishou, Douyin, WeChat Channels gibi büyük platformlarda benimsenen çözüm

Eksiler

  • Sürücü video gerektiriyor — tamamen metin tabanlı kontrol yok
  • Profil açılarında ve aşırı hareketlerde artefaktlar
  • Hayvan animasyonu için ek fine-tuning gerekiyor
  • Arka plan ve vücut animasyonu desteklenmiyor — yalnızca yüz

Teknik Detaylar

Parametre

Unknown

Mimari

Implicit Keypoints + Warping

Eğitim Verisi

VoxCeleb + proprietary

Lisans

MIT

Özellikler

  • Portrait animation
  • Expression transfer
  • Stitching
  • Retargeting
  • Real-time capable
  • Eye tracking
  • Lip sync

Benchmark Sonuçları

MetrikDeğerKarşılaştırmaKaynak
İfade Aktarım Doğruluğu (AKD)1.47Face Vid2Vid: 2.12 (düşük daha iyi)LivePortrait Paper (arXiv:2407.03168)
Kimlik Koruma (CSIM)0.79DaGAN: 0.72LivePortrait Paper
İşleme Hızı~30 FPS (RTX 4090)SadTalker: ~15 FPSGitHub Repository
Çözünürlük512×512 (native)Hugging Face Model Card

Mevcut Platformlar

GitHub
ComfyUI
Replicate

Sıkça Sorulan Sorular

İlgili Modeller

This Person Does Not Exist icon

This Person Does Not Exist

Philip Wang|N/A

This Person Does Not Exist, Uber yazılım mühendisi Philip Wang tarafından oluşturulan, NVIDIA'nın StyleGAN teknolojisini kullanarak tamamen kurgusal insanların fotorealistik portrelerini üreten web tabanlı bir gösterim projesidir. Şubat 2019'da başlatılan web sitesi, sayfa her yenilendiğinde yeni bir AI üretimi insan yüzü oluşturarak viral bir sansasyona dönüşmüş ve üretken çekişmeli ağların gerçek fotoğraflardan ayırt edilemeyecek inandırıcı portreler sentezleme yeteneğini sergilemiştir. Temelindeki model, 70.000 yüksek çözünürlüklü gerçek insan yüzü fotoğrafı içeren FFHQ veri seti üzerinde eğitilmiş olup gerçekçi cilt dokuları, saç desenleri, aydınlatma, göz yansımaları ve doğal asimetrilere sahip özgün yüz kompozisyonları üretmeyi öğrenmiştir. Üretilen yüzler çeşitli yaş grupları, etnik kökenler ve cinsiyetler dahil geniş bir demografik çeşitlilik yelpazesini kapsar. Çıktılar ilk bakışta inandırıcı olsa da dikkatli inceleme zaman zaman asimetrik küpeler, bozuk arka planlar veya görsel kenarlarındaki saç tutarsızlıkları gibi belirleyici artifaktları ortaya çıkarabilir. Proje gösterim ötesinde birçok amaca hizmet eder: deepfake teknolojisi ve medya okuryazarlığı tartışmalarında yaygın olarak kullanılmış, tasarım mockup'ları ve arayüz prototiplemesi için gizlilik koruyan yer tutucu portre kaynağı olarak hizmet vermiş ve lisans endişesi olmadan stok fotoğraf benzeri görseller sunmuştur. Web sitesi tescilli olmakla birlikte temelindeki StyleGAN mimarisi açık kaynaklıdır. Proje, GAN yeteneklerinin en tanınmış kamusal gösterimlerinden biri olmaya devam etmekte ve giderek sofistike hale gelen sentetik içerik çağında AI üretimi medya özgünlüğü ve dijital güven hakkında önemli tartışmaları tetiklemektedir.

Tescilli
4.3
StyleGAN3 icon

StyleGAN3

NVIDIA|N/A

StyleGAN3, NVIDIA'nın çığır açan StyleGAN serisi üretken çekişmeli ağların üçüncü neslidir ve görsel nitelikler üzerinde benzeri görülmemiş kontrol sağlayarak yüksek kaliteli, fotorealistik görseller üretmek için tasarlanmıştır. NeurIPS 2021'de sunulan StyleGAN3, önceki versiyonların temel bir sınırlamasını ele alarak sürekli dönüşümler ve animasyonlar sırasında ortaya çıkan doku yapışması artifaktlarını ortadan kaldırır. Önceki GAN mimarileri, nesnelerle doğal olarak hareket etmek yerine piksel koordinatlarına sabitlenmiş görünen özelliklere sahipti ve bu durum interpolasyon sırasında belirgin görsel bozulmalara neden oluyordu. StyleGAN3, sürekli sinyal işleme prensiplerini kullanarak takma adsız üretim yoluyla bu sorunu çözer ve ince detayların alttaki içerikle düzgün ve doğal biçimde hareket etmesini sağlar. Mimari, döndürme ve öteleme eşdeğerliği sunar; bu da üretilen özelliklerin görsel geometrik dönüşümlere tabi tutulduğunda doğru ve tutarlı biçimde dönüştüğü anlamına gelir. Bu özellik StyleGAN3'ü video üretimi, animasyon ve üretilen kareler arasında yumuşak geçişler gerektiren uygulamalar için özellikle uygun kılar. Model, yapılandırılabilir çıktı çözünürlüklerini destekler ve önceki versiyonlardan gelen stil karıştırma yeteneklerini koruyarak poz ve yüz şekli gibi kaba özellikler ile saç dokusu ve cilt kalitesi gibi ince detaylar üzerinde ayrı ayrı kontrol sağlar. StyleGAN3, insan yüzleri (FFHQ), hayvan yüzleri (AFHQv2) ve diğer görsel kategorileri dahil çeşitli alanlarda eğitilmiştir. Model, araştırma ve ticari kullanıma izin veren özel NVIDIA lisansı altında tamamen açık kaynaklıdır ve GitHub'da resmi PyTorch implementasyonları mevcuttur. Koşulsuz görsel üretim kalitesinde referans benchmark olmaya devam eder ve üretken AI alanındaki sonraki GAN mimarilerini ve difüzyon model tasarımlarını etkilemiştir.

Açık Kaynak
4.5
ProGAN icon

ProGAN

NVIDIA|N/A

ProGAN (Aşamalı Büyüyen GAN'lar), NVIDIA araştırmacıları Tero Karras, Timo Aila, Samuli Laine ve Jaakko Lehtinen tarafından geliştirilen, yüksek çözünürlüklü yüz görselleri üretmek için eğitim sırasında hem üretici hem ayrıştırıcı ağların aşamalı olarak büyütülmesine öncülük eden 2017 tarihli GAN mimarisidir. Hedef çözünürlükte doğrudan eğitim yerine ProGAN, 4x4 pikselden başlayarak kademeli olarak daha yüksek çözünürlükleri işleyen yeni katmanlar ekler ve her detay seviyesini yumuşak geçişlerle entegre eder. Bu aşamalı strateji, ince detaylar eklenmeden önce büyük ölçekli yapıyı öğrenerek eğitimi stabilize eder, tam çözünürlükte sıfırdan eğitime kıyasla süreyi azaltır ve GAN'larla daha önce mümkün olandan çok daha yüksek çözünürlüklü görseller üretilmesini sağlar. ProGAN, 1024x1024 piksel fotorealistik yüz görselleri inandırıcı biçimde üreten ilk GAN mimarisi olmuş ve geniş çapta ilgi çekmiştir. Model, bu araştırma için hazırlanmış yüksek kaliteli CelebA-HQ veri seti üzerinde eğitilmiştir. Yüzlerin ötesinde yatak odaları, arabalar ve diğer kategorilerin yüksek çözünürlüklü görsellerini başarıyla üreterek çok yönlülüğünü kanıtlamıştır. Mimari, çıktı çeşitliliği için mini-grup standart sapma tekniğini ve eğitim stabilitesi için eşitlenmiş öğrenme hızını tanıtmıştır. ProGAN, TensorFlow'da resmi implementasyonları ve PyTorch'ta topluluk portlarıyla tamamen açık kaynaklıdır. StyleGAN gibi sonraki mimariler ProGAN'ın aşamalı eğitim temeli üzerine inşa edilerek daha yüksek kalite elde etmiş olsa da ProGAN, yüksek çözünürlüklü GAN eğitimini temelden değiştiren ve gelişmiş üretken modellerin bir neslini ilhamlandıran tarihi bir katkıdır.

Açık Kaynak
4.0
DCGAN Face icon

DCGAN Face

Radford et al.|N/A

DCGAN (Derin Evrişimli Üretken Çekişmeli Ağ) Face, Alec Radford, Luke Metz ve Soumith Chintala tarafından 2015'teki etkili makalelerinde tanıtılan, GAN mimarilerinde evrişimli sinir ağlarının kullanımının temel prensiplerini belirleyen öncü bir mimaridir. DCGAN, derin evrişimli ağların tutarlı görseller, özellikle insan yüzleri üretebileceğini güvenilir biçimde gösteren ilk modellerden biridir ve GAN'ları basit tam bağlı mimarilerin ötesine taşımıştır. Mimari, sonraki GAN araştırmalarında standart uygulama haline gelen tasarım ilkeleri sunar: ayrıştırıcıda havuzlama katmanlarının adımlı evrişimlerle, üreticide kesirli adımlı evrişimlerle değiştirilmesi, eğitimi stabilize etmek için toplu normalleştirme, tam bağlı gizli katmanların kaldırılması ve üreticide ReLU, ayrıştırıcıda LeakyReLU aktivasyonunun uygulanması. CelebA ünlü yüzleri veri seti üzerinde eğitilen DCGAN Face, 64x64 piksel yüz görselleri üretir; modern standartlara göre mütevazı olsa da yayın zamanında çığır açıcıydı. Model ayrıca öğrenilmiş gizli uzayda vektör işlemlerinin farklı yüzlerden özelliklerin birleştirilmesi gibi anlamsal olarak anlamlı sonuçlar ürettiğini gösteren gizli uzay aritmetiğini sergilemiştir. Bu çalışma GAN literatüründe en çok alıntı yapılan makalelerden biri haline gelmiş ve derin öğrenme eğitiminde zorunlu okuma olmaya devam etmektedir. DCGAN, PyTorch, TensorFlow ve diğer framework'lerde tamamen açık kaynaklıdır. ProGAN, StyleGAN ve difüzyon modelleri tarafından kalite açısından aşılmış olsa da evrişimli GAN'ların görsel üretim için uygulanabilir olduğunu kanıtlayan ve modern üretken modellerde hala kullanılan tasarım kalıplarını belirleyen mimari olarak tarihsel önemini korumaktadır.

Açık Kaynak
3.5

Hızlı Bilgi

ParametreUnknown
TipImplicit Keypoints
LisansMIT
Yayınlanma2024-07
MimariImplicit Keypoints + Warping
Puan4.5 / 5
GeliştiriciKuaishou

Bağlantılar

Etiketler

portrait
animation
face
expression
Siteyi Ziyaret Et