PhotoMaker icon

PhotoMaker

Açık Kaynak
4.5
Tencent

PhotoMaker, TencentARC tarafından geliştirilen ve referans görsellerden gerçekçi insan portreleri üreten kişiselleştirilmiş fotoğraf üretim modelidir. Yeni bir Yığılmış Kimlik Gömme (Stacked ID Embedding) yaklaşımı kullanan model, DreamBooth gibi uzun eğitim süreleri gerektiren geleneksel ince ayar yöntemlerinin aksine saniyeler içinde kimlik korumalı üretim gerçekleştirir. CLIP ve özelleştirilmiş kimlik kodlayıcıları aracılığıyla birden fazla referans fotoğraftan gömmeler çıkararak bunları yığınlar. SDXL boru hattı üzerine inşa edilen model, değiştirilmiş çapraz dikkat katmanları aracılığıyla kimlik temsillerini enjekte ederek yüz özelliklerini korurken stil, poz ve ortam değişikliklerinde yaratıcı özgürlük sunan yüksek kaliteli çıktılar üretir. Kimlik karıştırma özelliği sayesinde kullanıcılar birden fazla kişinin özelliklerini ayarlanabilir ağırlıklarla harmanlayarak benzersiz kompozit yüzler oluşturabilir. Kişiselleştirilmiş portre üretimi, çizgi roman ve görsel romanlar için kimlik tutarlı hikaye illüstrasyonu, sanal deneme uygulamaları ve reklam içeriği oluşturmada öne çıkar. PhotoMaker V2, özellikle aşırı poz değişiklikleri ve yaş dönüşümleri gibi zorlu senaryolarda kimlik koruma doğruluğu, doğal üretim kalitesi ve metin uyumunda önemli iyileştirmeler getirmiştir. Apache 2.0 lisansı altında açık kaynak olarak yayınlanan PhotoMaker, Hugging Face üzerinde ücretsiz erişilebilir durumdadır ve ComfyUI gibi popüler yaratıcı araçlarda topluluk entegrasyonlarına sahiptir. Yalnızca bir ile dört referans görsel gerektirerek hem bireysel yaratıcılar hem de profesyonel üretim iş akışları için en erişilebilir ve verimli kimlik korumalı üretim çözümlerinden birini sunar.

Görselden Görsele

Öne Çıkan Özellikler

Yığılmış Kimlik Gömme Sistemi

1-4 referans görselinden bilgiyi birleşik bir kimlik temsiline birleştirerek güçlü ve tutarlı kişiselleştirme sağlar.

Saniyeler İçinde Kişiselleştirme

DreamBooth'un dakikalarca süren eğitiminin aksine, gömme tabanlı yaklaşımla saniyeler içinde kişiselleştirilmiş üretim yapar.

Kimlik Karıştırma Yeteneği

Birden fazla kişinin yüz özelliklerini harmanlayarak yeni ve benzersiz kimlikler oluşturabilme yeteneği sunar.

Çeşitli Poz ve İfade Desteği

Farklı pozlar, ifadeler, yaşlar ve sanatsal stiller arasında kimliği tutarlı şekilde korur.

Hakkında

PhotoMaker, TencentARC tarafından geliştirilen ve Aralık 2023'te "PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding" başlıklı makaleyle tanıtılan kişiselleştirilmiş fotoğraf üretim modelidir. Model, birden fazla referans görselinden yığılmış kimlik gömmelerini (stacked ID embeddings) çıkararak belirli bireylerin gerçekçi ve çeşitli fotoğraflarının oluşturulmasını sağlar. DreamBooth gibi ince ayar yaklaşımlarının uzun eğitim süreleri gerektirmesinin aksine, PhotoMaker saniyeler içinde çalışan verimli bir gömme tabanlı yaklaşımla kişiselleştirme elde eder ve bu hızlı çıkarım süresi onu pratik uygulamalar için son derece cazip kılar. Model, kişiselleştirilmiş içerik üretiminde hız ve kalite arasındaki dengeyi yeniden tanımlamıştır.

Mimari, birden fazla giriş fotoğrafından (genellikle 1-4 görsel) bilgiyi birleşik bir kimlik temsiline birleştiren Yığılmış Kimlik Gömme mekanizması sunar. Bu mekanizma, her referans görselden CLIP görsel kodlayıcısı ve özelleştirilmiş bir kimlik kodlayıcısı aracılığıyla ayrı gömmeler çıkarır ve bunları yığınlayarak (stack ederek) zengin bir kimlik temsili oluşturur. Bu temsil, değiştirilmiş çapraz dikkat katmanları aracılığıyla SDXL üretim hattına enjekte edilir. Birden fazla referans görsel kullanıldığında, model farklı açılardan, ifadelerden ve aydınlatma koşullarından gelen bilgiyi sentezleyerek daha kapsamlı bir kimlik anlayışı geliştirir. Yığılmış yapı, tek bir sabit boyutlu vektör yerine değişken sayıda gömmenin birleştirilmesine izin vererek daha esnek bir kimlik kodlaması sağlar.

PhotoMaker, çeşitli poz ve ifadelerle geniş bir ünlü görsel veri setinde eğitilmiş olup görülmemiş kimliklere iyi genelleme yapabilir. Model ayrıca kimlik karıştırmayı (identity mixing) da destekler — birden fazla kişinin özelliklerini harmanlayarak yeni, benzersiz yüzler oluşturma imkanı sunar. Bu özellik, karakter tasarımı ve yaratıcı keşif süreçlerinde özellikle değerlidir. Kimlik karıştırma ağırlıkları ayarlanabilir, böylece her kaynak kimliğin son sonuca katkısı kontrol edilebilir ve istenilen oranda harmanlama yapılabilir.

Kullanım alanları son derece çeşitlidir ve profesyonel üretimden bireysel kullanıma uzanır. Kişiselleştirilmiş portre üretimi en temel kullanım durumudur — kullanıcılar kendi fotoğraflarından farklı sanatsal stillerde, ortamlarda ve pozlarda portreler oluşturabilir. Kimlik tutarlı hikaye illüstrasyonu, bir karakterin farklı sahnelerde tutarlı görünmesi gereken çizgi roman, çocuk kitapları ve görsel roman üretiminde kullanılır. Sanal deneme (virtual try-on) senaryolarında ise kullanıcılar farklı kıyafetleri veya saç stillerini görselleştirebilir. Reklam, pazarlama ve sosyal medya sektöründe model görselleri üretmek için de yaygın şekilde tercih edilmektedir.

PhotoMaker V2, orijinal sürümü önemli ölçüde geliştirmiş olup daha iyi kimlik koruması, daha doğal üretim kalitesi ve geliştirilmiş metin uyumu sunar. V2 sürümü, özellikle zorlu senaryolarda — aşırı poz değişiklikleri, yaş dönüşümleri ve stilistik transferler — daha tutarlı kimlik koruması sağlar. Her iki sürüm de SDXL tabanlıdır ve CLIP ViT-L/14 görsel kodlayıcısını kullanır.

PhotoMaker, Apache 2.0 lisansı altında açık kaynaklıdır ve Hugging Face üzerinde mevcuttur. ComfyUI ve diğer popüler araçlarda topluluk entegrasyonları bulunmaktadır. Rakipleriyle karşılaştırıldığında, InstantID tek görsel senaryolarında daha yüksek kimlik sadakati sunarken, PhotoMaker birden fazla referans görsel kullanıldığında daha kapsamlı kimlik temsili ve daha iyi stil çeşitliliği sağlar. DreamBooth'a göre en büyük avantajı, eğitim süresinin pratik olarak sıfır olmasıdır; bu da hızlı iterasyon ve toplu üretim gerektiren senaryolarda onu vazgeçilmez kılar.

Kullanım Senaryoları

1

Kişiselleştirilmiş Portre Üretimi

Bireysel fotoğraflardan çeşitli stil ve sahnelerde kişiselleştirilmiş portreler oluşturma.

2

Hikaye İllüstrasyonu

Aynı karakterin farklı sahnelerdeki tutarlı görsellerini oluşturarak hikaye anlatımını destekleme.

3

Kimlik Karıştırma ve Yaratıcı Deneyler

Birden fazla kişinin özelliklerini harmanlayarak yaratıcı karakter tasarımları oluşturma.

4

Sanal Deneme ve Moda

Kişinin yüzünü koruyarak farklı kıyafet, saç stili ve aksesuar kombinasyonlarını görselleştirme.

Artılar ve Eksiler

Artılar

  • LoRA eğitimi veya ince ayar gerektirmeden saniyeler içinde hızlı kişiselleştirme
  • Rastgele sayıda giriş fotoğrafından yüksek sadakatli yüz üretimiyle güçlü kimlik koruma
  • Kimlik tutarlılığını koruyarak cinsiyet/yaş dönüşümü ve çoklu kimlik karıştırma desteği
  • Gelişmiş kontrol yetenekleri için ControlNet, T2I-Adapter ve IP-Adapter entegrasyonu
  • CVPR 2024 kabul edildi; test-zamanı ince ayar yöntemlerinden daha iyi kimlik koruma ve önemli hız avantajı

Eksiler

  • Asyalı erkek yüzlerinde özelleştirme performansı önemli ölçüde düşer (geliştiriciler tarafından kabul edildi)
  • Üretilen görsellerde insan ellerini doğru şekilde oluşturmakta hâlâ zorlanır
  • Yüksek stil gücü kimlik sadakatini azaltır; stilizasyon ve kimlik koruma arasında ödünleşim
  • Minimum 11GB GPU bellek gereksinimi, tüketici donanımında erişilebilirliği kısıtlar

Teknik Detaylar

Parametre

N/A

Mimari

Stacked ID Embedding + Diffusion

Eğitim Verisi

Face identity dataset (filtered)

Lisans

Apache 2.0

Özellikler

  • Stacked ID Embedding
  • Multi-Reference Input (1-4 images)
  • Identity Mixing/Blending
  • SDXL Base Architecture
  • Zero-Shot Personalization
  • Multi-Style Generation
  • Age/Expression Variation
  • PhotoMaker V2 Enhanced Quality

Benchmark Sonuçları

MetrikDeğerKarşılaştırmaKaynak
Yüz Benzerlik Skoru%65 (FaceNet cosine)InstantID: %72PhotoMaker Paper (arXiv)
Gerekli Referans Görsel1-4 adetInstantID: 1 adetPhotoMaker GitHub
Kimlik Koruma (ID Preserve)0.58 (DINO score)IP-Adapter-Face: 0.41PhotoMaker Paper (arXiv)
Çıkarım Süresi~10 saniye (A100)InstantID: ~5 saniyePhotoMaker GitHub

Mevcut Platformlar

hugging face
replicate
fal ai

Sıkça Sorulan Sorular

İlgili Modeller

ControlNet icon

ControlNet

Lvmin Zhang|1.4B

ControlNet, kenar haritaları, derinlik haritaları, insan poz iskeletleri, segmentasyon maskeleri ve normal haritalar gibi çeşitli koşullandırma girdileri aracılığıyla görsel üretim sırasında hassas yapısal rehberlik sağlayan Stable Diffusion modelleri için koşullu bir kontrol çerçevesidir. Stanford Üniversitesi'nde Lvmin Zhang ve Maneesh Agrawala tarafından geliştirilen ControlNet, donmuş difüzyon modeli kodlayıcılarına eğitilebilir kopya dalları ekleyerek modelin orijinal yeteneklerini değiştirmeden uzamsal koşullandırmayı öğrenmesini sağlar. Bu mimari, üretilen görsellerin kompozisyonu, yapısı ve uzamsal düzeni üzerinde ince ayarlı kontrol eklerken temel modelin üretim kalitesini korur. ControlNet birden fazla koşullandırma türünü eş zamanlı destekler ve kullanıcıların poz, derinlik ve kenar bilgisini birleştirerek olağanüstü hassasiyetle üretimi yönlendirebildiği karmaşık çok koşullu iş akışları oluşturur. Çerçeve, üretilen görsellerde tutarlı uzamsal yapıları sürdürmenin temel zorluğunu çözerek profesyonel AI görsel üretim iş akışlarında devrim yaratmıştır. Karakter pozları, mimari düzenler, ürün yerleşimleri ve sahne kompozisyonları üzerinde hassas kontrol ihtiyacı olan profesyonel sanatçılar ve tasarımcılar için vazgeçilmez bir araç haline gelmiştir. ControlNet açık kaynaklıdır ve SD 1.5 ile SDXL dahil çeşitli Stable Diffusion sürümleri için önceden eğitilmiş modellerle Hugging Face üzerinde mevcuttur. ComfyUI ve Automatic1111 ile sorunsuz entegre olur. Konsept sanatçıları, karakter tasarımcıları, mimari görselleştiriciler, moda tasarımcıları ve animasyon stüdyoları üretim iş akışları için ControlNet'e güvenir. Etkisi Stable Diffusion'ın ötesine geçerek FLUX.1 ve diğer modern modellerde benzer kontrol mekanizmalarına ilham vermiştir.

Açık Kaynak
4.8
InstantID icon

InstantID

InstantX Team|N/A

InstantID, InstantX Team tarafından geliştirilen ve yalnızca tek bir referans fotoğrafı kullanarak belirli bir kişinin çeşitli stil, poz ve bağlamlarda görsellerini üretebilen sıfır atışlı kimlik koruyucu görsel üretim çerçevesidir. Birden fazla referans görsel veya zaman alıcı ince ayar gerektiren geleneksel yüz değiştirme veya kişiselleştirme yöntemlerinden farklı olarak InstantID, bir yüz kodlayıcı, IP-Adapter ve yüz referans noktası rehberliği için ControlNet'i birleştiren yenilikçi bir mimari aracılığıyla yalnızca bir yüz fotoğrafından doğru kimlik koruması sağlar. Sistem, referans görselinden detaylı yüz kimlik özelliklerini çıkarır ve üretim sürecine enjekte ederek üretilen kişinin çeşitli çıktı senaryolarında tanınabilir yüz hatlarını, oranlarını ve karakteristiklerini korumasını sağlar. InstantID, farklı sanatsal stillerde portreler üretme, kişiyi hayal edilen sahne veya bağlamlara yerleştirme, profil resimleri ve avatarlar oluşturma ve tutarlı karakter temsilleri içeren pazarlama materyalleri üretme dahil çeşitli yaratıcı uygulamaları destekler. Model, temel olarak Stable Diffusion XL ile çalışır ve açık kaynaklıdır, yerel dağıtım için GitHub ve Hugging Face üzerinde mevcuttur. Topluluk tarafından geliştirilen düğümler aracılığıyla ComfyUI ile entegre olur ve bulut API'leri üzerinden erişilebilir. Portre fotoğrafçıları, sosyal medya içerik üreticileri, kişiselleştirilmiş kampanyalar oluşturan pazarlama ekipleri, karakter varyantları tasarlayan oyun geliştiricileri ve kimlik tabanlı yaratıcı çalışmaları keşfeden dijital sanatçılar InstantID'yi kullanır. Çerçeve, sonraki kimlik koruma modellerini etkilemiştir ve açık kaynak ekosisteminde tek görsellik kimlik transferi için en etkili çözümlerden biri olmaya devam etmektedir.

Açık Kaynak
4.7
IP-Adapter icon

IP-Adapter

Tencent|22M

IP-Adapter, Tencent AI Lab tarafından geliştirilen ve temel modelin herhangi bir ince ayarını gerektirmeden text-to-image difüzyon modelleri için görsel rehberli üretim sağlayan bir görsel prompt adaptörüdür. Adaptör, bir CLIP görsel kodlayıcı kullanarak referans görsellerden görsel özellikler çıkarır ve bu özellikleri ayrıştırılmış bir dikkat mekanizması aracılığıyla difüzyon modelinin çapraz dikkat katmanlarına enjekte ederek çalışır. Bu, kullanıcıların metin promptlarının yanında referans görselleri görsel promptlar olarak sağlamasına olanak tanır ve metin açıklamasını takip ederken referansla stilistik öğeleri, kompozisyonel özellikleri veya görsel karakteristikleri paylaşan görseller üretmek için üretim sürecini yönlendirir. IP-Adapter, üretilen görselin referansın sanatsal stilini benimsediği stil transferi ve referanstan belirli konuların veya öğelerin çıktıda göründüğü içerik transferi dahil birden fazla çalışma modunu destekler. Adaptör hafiftir ve temel modelin çıkarım sürecine minimum hesaplama yükü ekler. Poz, stil ve içeriğin her birinin bağımsız olarak kontrol edilebildiği sofistike iş akışları sağlayarak çok modlu koşullandırma için ControlNet gibi diğer kontrol mekanizmalarıyla birleştirilebilir. IP-Adapter açık kaynaklıdır ve SD 1.5 ile SDXL dahil çeşitli Stable Diffusion sürümleri için mevcuttur. Topluluk uzantıları aracılığıyla ComfyUI ve Automatic1111 ile entegre olur. Üretilen görsellerde görsel tutarlılık sağlaması veya referans materyalden belirli estetik nitelikleri aktarması gereken dijital sanatçılar, ürün tasarımcıları, marka yöneticileri ve içerik üreticileri IP-Adapter'ın yeteneklerinden özellikle faydalanır.

Açık Kaynak
4.6
IP-Adapter FaceID icon

IP-Adapter FaceID

Tencent|22M (adapter)

IP-Adapter FaceID, Tencent AI Lab tarafından geliştirilen ve yüz kimlik bilgisini difüzyon görüntü üretim sürecine enjekte ederek belirli bir kişinin yüz özelliklerini sadakatle koruyan yeni görüntüler oluşturmayı mümkün kılan özelleştirilmiş bir adaptör modülüdür. Geleneksel yüz değiştirme yaklaşımlarından farklı olarak, IP-Adapter FaceID, InsightFace kütüphanesinden yüz tanıma özellik vektörleri çıkarır ve bunları çapraz dikkat katmanları aracılığıyla difüzyon modeline besler, böylece modelin tutarlı yüz kimliğini korurken çeşitli sahneler, stiller ve kompozisyonlar üretmesine olanak tanır. Mevcut Stable Diffusion modellerinin üzerine katmanlanan yalnızca yaklaşık 22 milyon adaptör parametresiyle FaceID, kişiye özel ince ayar veya birden fazla referans görüntü gerektirmeden dikkat çekici kimlik koruması sağlar. Tek bir net yüz fotoğrafı, kişiyi çeşitli sanatsal stillerde, farklı kıyafetlerle, çeşitli ortamlarda ve yeni pozlarda üretmek için yeterlidir. Adaptör hem SDXL hem de SD 1.5 temel modellerini destekler ve poz, derinlik ve kompozisyon üzerinde ek kontrol için diğer ControlNet adaptörleriyle birleştirilebilir. IP-Adapter FaceID Plus varyantları, geliştirilmiş benzerlik ve ayrıntı koruması için yüz gömülerinin yanına ek CLIP görüntü özellikleri ekler. Apache 2.0 lisansı altında tamamen açık kaynaklı olan model, ComfyUI iş akışlarına ve Diffusers kütüphanesine yaygın olarak entegre edilmiştir. Yaygın uygulamalar arasında kişiselleştirilmiş avatar oluşturma, çeşitli sanatsal stillerde özel portre üretimi, hikaye anlatımında karakter tutarlılığı ve kişiselleştirilmiş pazarlama içeriği yer alır.

Açık Kaynak
4.5

Hızlı Bilgi

ParametreN/A
Tipdiffusion
LisansApache 2.0
Yayınlanma2023-12
MimariStacked ID Embedding + Diffusion
Puan4.5 / 5
GeliştiriciTencent

Bağlantılar

Etiketler

photomaker
face
realistic
image-to-image
Siteyi Ziyaret Et