Görselden Görsele Modelleri

Görselden Görsele için en iyi AI modellerini keşfet

Filtrele
15 model bulundu
ControlNet icon

ControlNet

Lvmin Zhang|1.4B

ControlNet, kenar haritaları, derinlik haritaları, insan poz iskeletleri, segmentasyon maskeleri ve normal haritalar gibi çeşitli koşullandırma girdileri aracılığıyla görsel üretim sırasında hassas yapısal rehberlik sağlayan Stable Diffusion modelleri için koşullu bir kontrol çerçevesidir. Stanford Üniversitesi'nde Lvmin Zhang ve Maneesh Agrawala tarafından geliştirilen ControlNet, donmuş difüzyon modeli kodlayıcılarına eğitilebilir kopya dalları ekleyerek modelin orijinal yeteneklerini değiştirmeden uzamsal koşullandırmayı öğrenmesini sağlar. Bu mimari, üretilen görsellerin kompozisyonu, yapısı ve uzamsal düzeni üzerinde ince ayarlı kontrol eklerken temel modelin üretim kalitesini korur. ControlNet birden fazla koşullandırma türünü eş zamanlı destekler ve kullanıcıların poz, derinlik ve kenar bilgisini birleştirerek olağanüstü hassasiyetle üretimi yönlendirebildiği karmaşık çok koşullu iş akışları oluşturur. Çerçeve, üretilen görsellerde tutarlı uzamsal yapıları sürdürmenin temel zorluğunu çözerek profesyonel AI görsel üretim iş akışlarında devrim yaratmıştır. Karakter pozları, mimari düzenler, ürün yerleşimleri ve sahne kompozisyonları üzerinde hassas kontrol ihtiyacı olan profesyonel sanatçılar ve tasarımcılar için vazgeçilmez bir araç haline gelmiştir. ControlNet açık kaynaklıdır ve SD 1.5 ile SDXL dahil çeşitli Stable Diffusion sürümleri için önceden eğitilmiş modellerle Hugging Face üzerinde mevcuttur. ComfyUI ve Automatic1111 ile sorunsuz entegre olur. Konsept sanatçıları, karakter tasarımcıları, mimari görselleştiriciler, moda tasarımcıları ve animasyon stüdyoları üretim iş akışları için ControlNet'e güvenir. Etkisi Stable Diffusion'ın ötesine geçerek FLUX.1 ve diğer modern modellerde benzer kontrol mekanizmalarına ilham vermiştir.

Açık Kaynak
4.8
InstantID icon

InstantID

InstantX Team|N/A

InstantID, InstantX Team tarafından geliştirilen ve yalnızca tek bir referans fotoğrafı kullanarak belirli bir kişinin çeşitli stil, poz ve bağlamlarda görsellerini üretebilen sıfır atışlı kimlik koruyucu görsel üretim çerçevesidir. Birden fazla referans görsel veya zaman alıcı ince ayar gerektiren geleneksel yüz değiştirme veya kişiselleştirme yöntemlerinden farklı olarak InstantID, bir yüz kodlayıcı, IP-Adapter ve yüz referans noktası rehberliği için ControlNet'i birleştiren yenilikçi bir mimari aracılığıyla yalnızca bir yüz fotoğrafından doğru kimlik koruması sağlar. Sistem, referans görselinden detaylı yüz kimlik özelliklerini çıkarır ve üretim sürecine enjekte ederek üretilen kişinin çeşitli çıktı senaryolarında tanınabilir yüz hatlarını, oranlarını ve karakteristiklerini korumasını sağlar. InstantID, farklı sanatsal stillerde portreler üretme, kişiyi hayal edilen sahne veya bağlamlara yerleştirme, profil resimleri ve avatarlar oluşturma ve tutarlı karakter temsilleri içeren pazarlama materyalleri üretme dahil çeşitli yaratıcı uygulamaları destekler. Model, temel olarak Stable Diffusion XL ile çalışır ve açık kaynaklıdır, yerel dağıtım için GitHub ve Hugging Face üzerinde mevcuttur. Topluluk tarafından geliştirilen düğümler aracılığıyla ComfyUI ile entegre olur ve bulut API'leri üzerinden erişilebilir. Portre fotoğrafçıları, sosyal medya içerik üreticileri, kişiselleştirilmiş kampanyalar oluşturan pazarlama ekipleri, karakter varyantları tasarlayan oyun geliştiricileri ve kimlik tabanlı yaratıcı çalışmaları keşfeden dijital sanatçılar InstantID'yi kullanır. Çerçeve, sonraki kimlik koruma modellerini etkilemiştir ve açık kaynak ekosisteminde tek görsellik kimlik transferi için en etkili çözümlerden biri olmaya devam etmektedir.

Açık Kaynak
4.7
IP-Adapter icon

IP-Adapter

Tencent|22M

IP-Adapter, Tencent AI Lab tarafından geliştirilen ve temel modelin herhangi bir ince ayarını gerektirmeden text-to-image difüzyon modelleri için görsel rehberli üretim sağlayan bir görsel prompt adaptörüdür. Adaptör, bir CLIP görsel kodlayıcı kullanarak referans görsellerden görsel özellikler çıkarır ve bu özellikleri ayrıştırılmış bir dikkat mekanizması aracılığıyla difüzyon modelinin çapraz dikkat katmanlarına enjekte ederek çalışır. Bu, kullanıcıların metin promptlarının yanında referans görselleri görsel promptlar olarak sağlamasına olanak tanır ve metin açıklamasını takip ederken referansla stilistik öğeleri, kompozisyonel özellikleri veya görsel karakteristikleri paylaşan görseller üretmek için üretim sürecini yönlendirir. IP-Adapter, üretilen görselin referansın sanatsal stilini benimsediği stil transferi ve referanstan belirli konuların veya öğelerin çıktıda göründüğü içerik transferi dahil birden fazla çalışma modunu destekler. Adaptör hafiftir ve temel modelin çıkarım sürecine minimum hesaplama yükü ekler. Poz, stil ve içeriğin her birinin bağımsız olarak kontrol edilebildiği sofistike iş akışları sağlayarak çok modlu koşullandırma için ControlNet gibi diğer kontrol mekanizmalarıyla birleştirilebilir. IP-Adapter açık kaynaklıdır ve SD 1.5 ile SDXL dahil çeşitli Stable Diffusion sürümleri için mevcuttur. Topluluk uzantıları aracılığıyla ComfyUI ve Automatic1111 ile entegre olur. Üretilen görsellerde görsel tutarlılık sağlaması veya referans materyalden belirli estetik nitelikleri aktarması gereken dijital sanatçılar, ürün tasarımcıları, marka yöneticileri ve içerik üreticileri IP-Adapter'ın yeteneklerinden özellikle faydalanır.

Açık Kaynak
4.6
IP-Adapter FaceID icon

IP-Adapter FaceID

Tencent|22M (adapter)

IP-Adapter FaceID, Tencent AI Lab tarafından geliştirilen ve yüz kimlik bilgisini difüzyon görüntü üretim sürecine enjekte ederek belirli bir kişinin yüz özelliklerini sadakatle koruyan yeni görüntüler oluşturmayı mümkün kılan özelleştirilmiş bir adaptör modülüdür. Geleneksel yüz değiştirme yaklaşımlarından farklı olarak, IP-Adapter FaceID, InsightFace kütüphanesinden yüz tanıma özellik vektörleri çıkarır ve bunları çapraz dikkat katmanları aracılığıyla difüzyon modeline besler, böylece modelin tutarlı yüz kimliğini korurken çeşitli sahneler, stiller ve kompozisyonlar üretmesine olanak tanır. Mevcut Stable Diffusion modellerinin üzerine katmanlanan yalnızca yaklaşık 22 milyon adaptör parametresiyle FaceID, kişiye özel ince ayar veya birden fazla referans görüntü gerektirmeden dikkat çekici kimlik koruması sağlar. Tek bir net yüz fotoğrafı, kişiyi çeşitli sanatsal stillerde, farklı kıyafetlerle, çeşitli ortamlarda ve yeni pozlarda üretmek için yeterlidir. Adaptör hem SDXL hem de SD 1.5 temel modellerini destekler ve poz, derinlik ve kompozisyon üzerinde ek kontrol için diğer ControlNet adaptörleriyle birleştirilebilir. IP-Adapter FaceID Plus varyantları, geliştirilmiş benzerlik ve ayrıntı koruması için yüz gömülerinin yanına ek CLIP görüntü özellikleri ekler. Apache 2.0 lisansı altında tamamen açık kaynaklı olan model, ComfyUI iş akışlarına ve Diffusers kütüphanesine yaygın olarak entegre edilmiştir. Yaygın uygulamalar arasında kişiselleştirilmiş avatar oluşturma, çeşitli sanatsal stillerde özel portre üretimi, hikaye anlatımında karakter tutarlılığı ve kişiselleştirilmiş pazarlama içeriği yer alır.

Açık Kaynak
4.5
FLUX Redux icon

FLUX Redux

Black Forest Labs|12B

FLUX Redux, Black Forest Labs tarafından geliştirilen FLUX model ailesinin özel görsel varyasyon modeli olup referans görüntülerin temel stilini, renk paletini ve kompozisyon özünü korurken yaratıcı varyasyonlar üretmek için tasarlanmıştır. 12 milyar parametreli Diffusion Transformer mimarisi üzerine inşa edilen FLUX Redux, girdi olarak bir referans görüntü alır ve orijinalin görsel DNA'sını korurken içerik, kompozisyon veya perspektifte kontrollü varyasyonlar sunan yeni görüntüler üretir. Model, sanatsal teknik, renk uyumu, aydınlatma atmosferi ve doku nitelikleri dahil üst düzey stilistik özellikleri yakalar, ardından bunları kaynak materyalle estetik olarak tutarlı hissettiren taze kompozisyonlar üretmek için uygular. FLUX Redux, varyasyonun yönünü belirlemek için metin promptlarıyla birleştirilebilir ve kullanıcıların 'aynı stil ama dağ manzarası ile' veya 'benzer renk paleti ile kentsel sahne' gibi belirli değişiklikler talep etmesine olanak tanır. Bu özellik, pazarlama ekiplerinin birleşik bir estetiği paylaşan birden fazla görsele ihtiyaç duyduğu marka tutarlılığı iş akışları için özellikle güçlü kılar. Model ayrıca referansın güçlü bir stilistik önsel olarak hizmet ettiği ve metin promptlarının yeni içeriği tanımladığı görüntüden görüntüye iş akışlarını destekler. Tescilli bir model olan FLUX Redux, Black Forest Labs'ın API'si ve Replicate, fal.ai dahil iş ortağı platformları üzerinden kullanım tabanlı fiyatlandırmayla erişilebilir. Temel uygulamalar arasında sosyal medya kampanyaları için tutarlı görsel içerik serileri üretme, reklamcılıkta A/B testi için stil tutarlı varyasyonlar oluşturma ve sanatçıların her seferinde sıfırdan başlamadan görsel yön üzerinde yineleme yapması yer alır.

Tescilli
4.6
GFPGAN icon

GFPGAN

Tencent ARC|N/A

GFPGAN, Tencent ARC tarafından geliştirilen ve ciddi şekilde bozulmuş yüz görsellerini olağanüstü kaliteyle onarmak için önceden eğitilmiş bir StyleGAN2 modelinde gömülü üretici yüz önceliklerinden yararlanan pratik bir yüz restorasyon algoritmasıdır. İlk olarak Aralık 2021'de yayınlanan GFPGAN, giriş görsellerinin düşük çözünürlük, bulanıklık, gürültü, sıkıştırma artefaktları ve diğer bozulma biçimlerinin bilinmeyen kombinasyonlarından muzdarip olabileceği kör yüz restorasyon problemini ele alır. Modelin mimarisi, bir bozulma giderme modülünü StyleGAN2 tabanlı üretici öncelikle birleştirerek orijinal yüze sadakat ile üretici modelin sağladığı yüksek kaliteli yüz detayları arasında denge kuran yeni bir kanal bölünmeli uzamsal özellik dönüşüm katmanı kullanır. Bu yaklaşım, GFPGAN'ın bozulmuş girişte tamamen kaybolan cilt dokuları, göz netliği, saç telleri ve diş tanımı dahil ince yüz detaylarını geri kazanmasını sağlar. Model, bozulmuş görselden çoklu çözünürlükte özellikler çıkaran bir U-Net kodlayıcısı aracılığıyla yüzleri işler ve bu özellikler StyleGAN2 kod çözücüsünün özellik haritalarını modüle ederek orijinal kimliği korurken kaliteyi dramatik şekilde artıran bir çıktı üretir. GFPGAN; eski fotoğraf restorasyonu, düşük çözünürlüklü güvenlik kamerası görüntülerini iyileştirme, video görüşme kalitesini artırma, hasarlı aile fotoğraflarını kurtarma ve düşük kaliteli kaynak materyali profesyonel kullanıma hazırlama konularında üstün performans gösterir. Apache 2.0 lisansı altında açık kaynak olan model, Hugging Face ve Replicate üzerinde erişilebilir olup çok sayıda yaratıcı yapay zeka aracı ve iş hattına entegre edilmiş temel bir bileşen haline gelmiştir. Sentetik bozulma yerine gerçek dünya bozulma kalıplarını işleyebilme yeteneği, onu fotoğrafçılar, arşivciler ve içerik üreticileri tarafından karşılaşılan pratik restorasyon görevleri için özellikle değerli kılar.

Açık Kaynak
4.5
FaceSwap ROOP icon

FaceSwap ROOP

s0md3v|N/A

FaceSwap ROOP, s0md3v tarafından oluşturulan ve InsightFace algılama ile inswapper sinir ağını birleştirerek görsel ve videolarda tek tıkla yüz değiştirme imkanı sunan açık kaynaklı bir yüz değiştirme aracıdır. Mayıs 2023'te yayınlanan araç, herhangi bir veri seti hazırlığı veya model eğitimi gerektirmeden yalnızca tek bir kaynak görsel ve hedef medya dosyasıyla yüz değiştirmeyi mümkün kılarak basitliği ve etkinliğiyle hızla popülerlik kazanmıştır. Altyapıdaki mimari, hem kaynak hem de hedef içerikte yüzleri tanımlamak için doğru yüz algılama ve işaret noktası tanıma amacıyla InsightFace'i kullanırken, inswapper modeli doğal aydınlatma, cilt tonu ve ifade özelliklerini koruyarak kaynaktan hedefe yüz özelliklerini eşleştirerek gerçek yüz değiştirme işlemini gerçekleştirir. ROOP, değiştirilen yüzler ile çevreleyen bağlam arasında sorunsuz harmanlama elde etmek için geleneksel bilgisayarla görme tekniklerini derin öğrenme modelleriyle birleştiren hibrit bir sistem olarak çalışır. Araç hem görsel hem de video işlemeyi destekler ve video içeriğinde zamansal tutarlılıkla kare kare yüz değiştirme gerçekleştirir. Yaygın kullanım alanları arasında yaratıcı içerik üretimi, film ve video post-prodüksiyon, sosyal medya eğlencesi, yüz anonimleştirme yoluyla gizlilik koruması ve yapay zeka yeteneklerinin eğitim amaçlı gösterimi yer alır. MIT lisansı altında sunulan ROOP, yerel olarak çalıştırılabilir veya Replicate ve fal.ai gibi bulut platformları üzerinden erişilebilir. Kötüye kullanımı önlemek için yerleşik NSFW filtreleme ve etik kullanım yönergeleri içerir. Kullanım kolaylığı, açık kaynak erişilebilirliği ve sıfır eğitim gereksinimi kombinasyonuyla yapay zeka topluluğunda en yaygın kullanılan yüz değiştirme araçlarından biri konumundadır.

Açık Kaynak
4.3
IC-Light icon

IC-Light

Lvmin Zhang|1B+

IC-Light (Intrinsic Compositing Light), ControlNet'in yaratıcısı Lvmin Zhang tarafından geliştirilen ve fotoğraflardaki aydınlatma koşullarını olağanüstü gerçekçilikle manipüle eden ve dönüştüren bir AI aydınlatma modelidir. Özelleştirilmiş aydınlatma koşullandırması ile Stable Diffusion omurgası üzerine inşa edilen bir milyardan fazla parametreli model, herhangi bir nesne veya kişi fotoğrafını alarak fotorealistik gölgeleri, vurguları ve yüzey yansımalarını korurken ışık kaynağı yönünü, renk sıcaklığını, yoğunluğunu ve ortam aydınlatmasını tamamen değiştirebilir. IC-Light iki farklı modda çalışır: öznenin bağımsız olarak çıkarılıp yeniden aydınlatıldığı ön plan aydınlatması ve aydınlatmanın yeni bir arka plan ortamına uyacak şekilde ayarlandığı arka plan uyumlu aydınlatma. Model, speküler yansımalar, ciltte yüzey altı saçılma, metalik yüzeyler ve şeffaf malzemeler dahil fiziksel ışık davranışını anlar ve gerçek dünya optik özelliklerine saygı duyan sonuçlar üretir. IC-Light, hedef aydınlatma düzenini tanımlamak için metin açıklamaları veya referans görüntüler kabul ederek nihai görünüm üzerinde sezgisel kontrol sunar. Apache 2.0 lisansı altında tamamen açık kaynaklı olan model, özel iş akışı düğümleriyle ComfyUI'ye entegre edilmiştir. Profesyonel fotoğrafçılar, ürün fotoğrafçıları, dijital sanatçılar ve e-ticaret ekipleri IC-Light'ı mevcut fotoğraflardaki olumsuz aydınlatmayı düzeltmek, günlük çekimlerden stüdyo kalitesinde aydınlatma oluşturmak, katalog görüntüleri arasında ürün aydınlatmasını eşleştirmek ve yaratıcı projeler için dramatik sinematik aydınlatma üretmek amacıyla kullanır.

Açık Kaynak
4.5
PhotoMaker icon

PhotoMaker

Tencent|N/A

PhotoMaker, TencentARC tarafından geliştirilen ve referans görsellerden gerçekçi insan portreleri üreten kişiselleştirilmiş fotoğraf üretim modelidir. Yeni bir Yığılmış Kimlik Gömme (Stacked ID Embedding) yaklaşımı kullanan model, DreamBooth gibi uzun eğitim süreleri gerektiren geleneksel ince ayar yöntemlerinin aksine saniyeler içinde kimlik korumalı üretim gerçekleştirir. CLIP ve özelleştirilmiş kimlik kodlayıcıları aracılığıyla birden fazla referans fotoğraftan gömmeler çıkararak bunları yığınlar. SDXL boru hattı üzerine inşa edilen model, değiştirilmiş çapraz dikkat katmanları aracılığıyla kimlik temsillerini enjekte ederek yüz özelliklerini korurken stil, poz ve ortam değişikliklerinde yaratıcı özgürlük sunan yüksek kaliteli çıktılar üretir. Kimlik karıştırma özelliği sayesinde kullanıcılar birden fazla kişinin özelliklerini ayarlanabilir ağırlıklarla harmanlayarak benzersiz kompozit yüzler oluşturabilir. Kişiselleştirilmiş portre üretimi, çizgi roman ve görsel romanlar için kimlik tutarlı hikaye illüstrasyonu, sanal deneme uygulamaları ve reklam içeriği oluşturmada öne çıkar. PhotoMaker V2, özellikle aşırı poz değişiklikleri ve yaş dönüşümleri gibi zorlu senaryolarda kimlik koruma doğruluğu, doğal üretim kalitesi ve metin uyumunda önemli iyileştirmeler getirmiştir. Apache 2.0 lisansı altında açık kaynak olarak yayınlanan PhotoMaker, Hugging Face üzerinde ücretsiz erişilebilir durumdadır ve ComfyUI gibi popüler yaratıcı araçlarda topluluk entegrasyonlarına sahiptir. Yalnızca bir ile dört referans görsel gerektirerek hem bireysel yaratıcılar hem de profesyonel üretim iş akışları için en erişilebilir ve verimli kimlik korumalı üretim çözümlerinden birini sunar.

Açık Kaynak
4.5
Img2Img SDXL icon

Img2Img SDXL

Stability AI|6.6B

Img2Img SDXL, Stability AI'nın Stable Diffusion XL modelinin görüntüden görüntüye boru hattıdır ve kullanıcıların mevcut görselleri orijinal girişle yapısal tutarlılığı koruyarak stil dönüşümü, iyileştirme ve yaratıcı modifikasyon yoluyla dönüştürmesini sağlar. SDXL'nin çift metin kodlayıcısı ve geliştirilmiş U-Net omurgasına sahip 6,6 milyar parametreli gizli difüzyon mimarisi üzerine inşa edilen img2img boru hattı, bir giriş görseli ile birlikte metin istemi ve gürültü giderme gücü parametresini alarak ince ayarlardan dramatik dönüşümlere uzanan varyasyonlar üretir. Gürültü giderme gücü, modelin orijinal görselden ne kadar uzaklaştığını kontrol eder; düşük değerler kaynak kompozisyonunu daha fazla korurken yüksek değerler daha fazla yaratıcı özgürlük sağlar. SDXL tabanı, önceki Stable Diffusion sürümlerinde yüksek çözünürlüklerde görülen kalite düşüşü olmadan doğal olarak 1024x1024 yüksek çözünürlüklü çıktılar üretir. Temel yetenekler arasında fotoğrafların resim, illüstrasyon veya diğer sanatsal stillere dönüştürüldüğü sanatsal stil transferi, görsel iyileştirme ve büyütme, tasarımcıların mevcut bir görselin varyasyonlarını hızla keşfettiği konsept iterasyonu ve mevcut bir görselin öğelerinin yeni bağlamlarda yeniden hayal edildiği yaratıcı kompozisyon yer alır. Boru hattı, hassas yapısal rehberlik için ControlNet entegrasyonunu, stil özelleştirmesi için LoRA modellerini ve üretim sürecini ince ayarlamak için çeşitli zamanlayıcıları destekler. CreativeML Open RAIL-M lisansı altında yayınlanan Img2Img SDXL, Stability AI platformu, fal.ai, Replicate ve Hugging Face üzerinden erişilebilir olup minimum 8GB VRAM ile yerel olarak çalıştırılabilir. Kaynak materyallerinden belirli kompozisyon öğelerini korurken görsel konseptler üzerinde hızla iterasyon yapması gereken tasarımcılar, dijital sanatçılar ve yaratıcı profesyoneller için vazgeçilmez bir araç olarak hizmet eder.

Açık Kaynak
4.4
InstructPix2Pix icon

InstructPix2Pix

Tim Brooks|1B

InstructPix2Pix, UC Berkeley araştırmacıları tarafından geliştirilen ve kullanıcıların manuel maske, eskiz veya referans görsel gerektirmeden doğal dil talimatlarıyla görselleri düzenlemesini sağlayan yenilikçi bir görsel düzenleme modelidir. Model, GPT-3'ün dil yetenekleriyle Stable Diffusion'ın görsel üretimini birleştirerek oluşturulan eşleştirilmiş görsel düzenlemeleri veri setinde eğitilmiş ve metin tabanlı düzenleme talimatlarını hassas görsel değişikliklere çevirmeyi öğrenmiştir. Kullanıcılar bir giriş görseli ile birlikte 'karlı yap,' 'kediyi köpeğe çevir' veya 'dramatik gün batımı aydınlatması ekle' gibi metin talimatı sağlayabilir ve InstructPix2Pix, orijinal görselin genel yapısını ve etkilenmeyen öğelerini korurken istenen değişiklikleri uygular. Model tek bir ileri geçişte çalışarak yinelemeli optimizasyon olmadan hızlı düzenlemeler yapar. Stil transferi, nesne değiştirme, aydınlatma değişiklikleri, mevsim ve hava durumu değişiklikleri, malzeme değişiklikleri ve sanatsal dönüşümler dahil geniş bir düzenleme işlemi yelpazesini yönetir. InstructPix2Pix, Stable Diffusion mimarisi üzerine inşa edilmiştir ve açık kaynaklıdır, Diffusers kütüphanesiyle entegrasyon ile Hugging Face üzerinde mevcuttur. 6GB ve üzeri VRAM ile tüketici GPU'larında çalışır. Fotoğrafçılar, dijital sanatçılar, içerik üreticileri ve görsel düzenleme uygulamaları geliştiren yazılımcılar hızlı yaratıcı düzenleme iş akışları için InstructPix2Pix kullanır. Karmaşık senaryolarda manuel düzenlemenin hassasiyetiyle eşleşmese de doğal dil arayüzü, sofistike görsel düzenlemeleri herhangi bir görsel düzenleme uzmanlığı olmadan kullanıcılar için erişilebilir kılar.

Açık Kaynak
4.3
PuLID icon

PuLID

ByteDance|N/A

PuLID, ByteDance tarafından geliştirilen ve kişiselleştirilmiş portreler oluşturmak için Saf ve Yıldırım Hızında Kimlik (Pure and Lightning ID) özelleştirme yaklaşımı sunan kimlik korumalı görsel üretim modelidir. Nisan 2024'te yayınlanan PuLID, uzun ince ayar süreçleri gerektirmeden farklı üretilen görsellerde kişinin kimlik özelliklerini koruma temel sorununu ele alır. Model, önceden eğitilmiş difüzyon modelleriyle doğrudan çalışan yeni bir karşıtsal hizalama kaybı ve doğru kimlik kaybı mekanizması aracılığıyla bunu başarır ve özellikle SDXL ve FLUX mimarileriyle entegre olur. PuLID'ın temel yeniliği, kimlik özelliklerini poz, ifade ve arka plan gibi diğer görsel niteliklerden ayırabilme yeteneğinde yatmaktadır. Bu sayede öznenin kimliği tutarlı kalırken diğer tüm yönler serbestçe değiştirilebilen yüksek düzeyde kontrol edilebilir üretim sağlar. Model, referans görselleri InsightFace tabanlı bir kimlik kodlayıcısı aracılığıyla işleyerek güçlü yüz özellik temsilleri çıkarır ve bunları özelleştirilmiş adaptör katmanları üzerinden üretim hattına enjekte eder. Bu yaklaşım, kişi başına herhangi bir eğitim gerektirmeden gerçek zamanlı kişiselleştirme sağlayarak DreamBooth veya metin inversiyonu gibi alternatiflere göre önemli ölçüde hızlı çalışır. PuLID; kişiselleştirilmiş avatar oluşturma, sosyal medya içerik üretimi, sanal deneme senaryoları ve kimlik tutarlı çoklu sahne illüstrasyonu gibi uygulamalarda öne çıkar. Apache 2.0 lisansı altında açık kaynak olarak yayınlanan PuLID, Hugging Face üzerinde erişilebilir ve fal.ai gibi platformlar aracılığıyla desteklenerek araştırmacılara ve içerik üreticilerine minimum hesaplama yüküyle güçlü bir kimlik korumalı görsel üretim aracı sunar.

Açık Kaynak
4.4
Instant Style icon

Instant Style

InstantX Team|N/A

Instant Style, InstantX Team tarafından geliştirilen ve orijinal içerik yapısını ve anlamını sadakatle korurken bir referans görselin sanatsal stilini üretilen içeriğe uygulayan stil transferi modelidir. Nisan 2024'te yayınlanan model, IP-Adapter üzerine inşa edilmiş Ayrıştırılmış Stil Adaptörü mimarisi sunarak stil bilgisini içerik bilgisinden ayırır ve üretilen görselin konu bütünlüğünü bozmadan temiz stil enjeksiyonu sağlar. Bu ayrıştırma, stil özelliklerini içerik özelliklerinden bağımsız olarak işleyen özelleştirilmiş dikkat mekanizmaları aracılığıyla gerçekleştirilir. Model, metin isteminde belirtilen kompozisyon bütünlüğünü korurken referanstan renk paletlerini, fırça tekniklerini, doku özelliklerini ve genel estetik nitelikleri yakalar. Instant Style, Stable Diffusion ekosistemi içinde çalışarak mevcut SDXL kontrol noktaları, LoRA modelleri ve ControlNet koşullarıyla uyumlu olup maksimum yaratıcı esneklik sağlar. Model, stil bilgisini çıkarmak için yalnızca tek bir referans görsel gerektirir; ince ayar veya ek eğitim gerekmez ve gerçek zamanlı iş akışlarında anlık stil uygulaması yapılabilir. Temel uygulama alanları arasında sanatsal içerik oluşturma, marka tutarlı görsel varlık üretimi, birleşik estetik stillerle oyun sanatı üretimi, görsel tutarlılığı koruyan illüstrasyon serileri ve farklı sanatsal işlemlerle görsel konseptlerin hızlı prototiplenmesi yer alır. Hugging Face üzerinde Apache 2.0 lisansı altında açık kaynak proje olarak erişilebilen Instant Style, Replicate ve fal.ai bulut platformları üzerinden de kullanılabilir. Model, güçlü stilistik dönüşümler uygulanırken konu bütünlüğünü sıklıkla bozan önceki yaklaşımlara kıyasla üstün içerik koruması sunarak kontrol edilebilir stil transferinde önemli bir ilerlemeyi temsil eder.

Açık Kaynak
4.3
T2I-Adapter icon

T2I-Adapter

Tencent ARC|77M

T2I-Adapter, Tencent ARC Lab tarafından geliştirilen, eskiz, derinlik, segmentasyon, renk ve stil girdileri dahil çeşitli rehberlik sinyalleri aracılığıyla üretilen görseller üzerinde yapısal kontrol sağlayan text-to-image difüzyon modelleri için hafif bir koşullandırma çerçevesidir. Kodlayıcının tam kopyalarını oluşturarak önemli hesaplama yükü ekleyen ControlNet'ten farklı olarak T2I-Adapter, önemli ölçüde daha az bellek kullanımı ve daha hızlı çıkarım süreleriyle benzer koşullandırma yetenekleri elde eden kompakt bir adaptör mimarisi kullanır. Adaptör, koşullandırma görsellerinden çok ölçekli özellikler çıkarır ve bunları difüzyon modelinin ara özellik haritalarına enjekte ederek üretim sürecini belirtilmeyen alanlarda modelin yaratıcı özgürlüğünü korurken istenen uzamsal yapıyı takip etmeye yönlendirir. T2I-Adapter, kullanıcıların hem yapısal düzeni hem stilistik yönü eş zamanlı belirlemesine olanak tanıyan karmaşık çok koşullu üretim için birleştirilebilen birden fazla koşullandırma türünü destekler. Her adaptör türü bağımsız olarak eğitilir ve çıkarım zamanında karıştırılıp eşleştirilebilir, esnek kompozisyonel kontrol sağlar. Çerçeve özellikle mimari görselleştirme, ürün tasarımı iterasyonu ve karakter sayfası üretimi gibi birden fazla varyasyon genelinde tutarlı uzamsal düzenler gerektiren profesyonel iş akışları için etkilidir. T2I-Adapter açık kaynaklıdır ve Stable Diffusion 1.5 ile SDXL için Hugging Face üzerinde mevcuttur, Diffusers kütüphanesi ve ComfyUI ile uyumludur. Hafif yapısı onu özellikle kaynak kısıtlı donanımda dağıtım ve gerçek zamanlı koşullandırma gerektiren uygulamalar için değerli kılar. Tasarımcılar, mimarlar, ürün geliştiriciler ve animasyon stüdyoları, daha ağır kontrol çözümlerinin hesaplama maliyeti olmadan hassas yapısal rehberliğin gerektiği üretim iş akışları için T2I-Adapter kullanır.

Açık Kaynak
4.2
Pix2Pix icon

Pix2Pix

UC Berkeley|54M

Pix2Pix, UC Berkeley'de geliştirilen ve eşleştirilmiş görüntü çeviri görevleri için koşullu üretici çekişmeli ağların kullanılması kavramını tanıtan öncü bir görüntüden görüntüye çeviri çerçevesidir. Kasım 2017'de "Image-to-Image Translation with Conditional Adversarial Networks" başlıklı çığır açıcı makale kapsamında yayınlanan Pix2Pix, eşleştirilmiş eğitim örnekleri sağlandığında tek bir genel amaçlı mimarinin farklı görsel alanlar arasındaki eşlemeleri öğrenebileceğini göstermiştir. Mimari, atlama bağlantıları aracılığıyla uzamsal bilgiyi koruyan U-Net tabanlı bir üretici ve görüntü kalitesini global düzeyde değil yama düzeyinde değerlendiren bir PatchGAN ayırt edici içerir. Bu yapı modelin yapısal tutarlılığı korurken ince taneli doku detaylarını yakalamasını sağlar. Yaklaşık 54 milyon parametreyle Pix2Pix, modern difüzyon modellerine kıyasla nispeten hafiftir ve hızlı çıkarım ile verimli eğitim sunar. Model; semantik etiket haritalarını fotorealistik sahnelere dönüştürme, mimari cepheleri eskizlerden dönüştürme, siyah beyaz fotoğrafları renklendirme, kenar haritalarını gerçekçi görsellere çevirme ve uydu görüntülerini sokak haritalarına çevirme gibi çeşitli çeviri görevlerinde üstün performans gösterir. BSD lisanslı açık kaynak uygulaması, CycleGAN, SPADE ve modern difüzyon tabanlı görsel düzenleme yaklaşımları gibi sonraki modelleri etkileyen temel ilkeleri belirleyerek üretici yapay zeka alanındaki en etkili çalışmalardan biri haline gelmiştir. Ham çıktı kalitesi açısından daha yeni teknikler tarafından geçilmiş olsa da Pix2Pix, eğitim bağlamlarında, hızlı prototiplemede ve eşleştirilmiş eğitim verisinin mevcut olduğu uygulamalarda yaygın şekilde kullanılmaya devam etmektedir. Hugging Face ve Replicate üzerinde erişilebilen model, koşullu görsel üretim ve çekişmeli eğitim dinamiklerini anlamak için temel bir referans olmaya devam eder.

Açık Kaynak
4.0