InstructPix2Pix nasıl çalışır?

InstructPix2Pix iki girdi alır: orijinal görsel ve doğal dil düzenleme talimatı. Çift koşullandırma kanallı değiştirilmiş bir Stable Diffusion 1.5 mimarisi kullanır — biri girdi görseli, diğeri metin talimatı için. Model, talimatlar için GPT-3 ve eşleştirilmiş görseller için Prompt-to-Prompt kullanılarak oluşturulan 450.000'den fazla sentetik talimat-görsel çifti üzerinde eğitilmiştir.

InstructPix2Pix maske veya ince ayar gerektiriyor mu?

Hayır, InstructPix2Pix ne maske ne de görsel başına ince ayar gerektirir. Sadece orijinal görseli ve istenen düzenlemeyi açıklayan bir metin talimatı sağlarsınız. Model, talimatı temel alarak görselin hangi kısımlarının değiştirileceğini otomatik olarak belirler. Bu, maske tabanlı düzenleme yaklaşımlarından önemli ölçüde daha hızlı ve erişilebilir olmasını sağlar.

InstructPix2Pix hangi tür düzenlemeleri yapabilir?

InstructPix2Pix stil değişiklikleri (tablo gibi görünsün), hava durumu/mevsim değişiklikleri (karlı yap), nesne modifikasyonları (kediyi köpeğe dönüştür), renk değişiklikleri, aydınlatma ayarlamaları ve sanatsal dönüşümler dahil geniş bir düzenleme yelpazesini yapabilir. Açık ve spesifik talimatlarla en iyi şekilde çalışır; çok karmaşık çok adımlı düzenlemelerde zorlanabilir.

Düzenleme gücünü nasıl kontrol edebilirim?

İki parametre düzenleme sürecini kontrol eder: görsel rehberlik ölçeği orijinal görselin ne kadar korunacağını belirler (yüksek değerler orijinalden daha fazlasını korur) ve metin rehberlik ölçeği talimatın ne kadar güçlü takip edileceğini kontrol eder (yüksek değerler daha dramatik düzenlemeler üretir). Tipik değerler görsel rehberliği için 1,0-2,0 ve metin rehberliği için 7,0-12,0 arasındadır.

InstructPix2Pix'in sınırlamaları nelerdir?

InstructPix2Pix, çok spesifik mekansal düzenlemeler (nesneyi sola taşı gibi), karmaşık çoklu nesne etkileşimleri, hassas renk eşleştirme ve karmaşık sahnelerde fotorealistik detay koruma konularında zorlanabilir. SD 1.5 çözünürlüğünde (512x512) çalışır, bu da çıktı kalitesini sınırlar. Daha hassas düzenlemeler için daha yeni talimat tabanlı modeller veya inpainting teknikleri tercih edilebilir.

InstructPix2Pix açık kaynak mı?

Evet, InstructPix2Pix CreativeML Open RAIL-M lisansı altında açık kaynaklıdır. Model ağırlıkları, eğitim kodu ve sentetik eğitim veri seti GitHub ve Hugging Face üzerinde halka açıktır. Bu lisans, belirli sorumlu kullanım gereksinimleriyle hem araştırma hem de ticari kullanıma izin verir. Model ComfyUI ve Automatic1111 gibi araçlara yaygın şekilde entegre edilmiştir.

InstructPix2Pix

Açık Kaynak

4.3

Tim Brooks

InstructPix2Pix, UC Berkeley araştırmacıları tarafından geliştirilen ve kullanıcıların manuel maske, eskiz veya referans görsel gerektirmeden doğal dil talimatlarıyla görselleri düzenlemesini sağlayan yenilikçi bir görsel düzenleme modelidir. Model, GPT-3'ün dil yetenekleriyle Stable Diffusion'ın görsel üretimini birleştirerek oluşturulan eşleştirilmiş görsel düzenlemeleri veri setinde eğitilmiş ve metin tabanlı düzenleme talimatlarını hassas görsel değişikliklere çevirmeyi öğrenmiştir. Kullanıcılar bir giriş görseli ile birlikte 'karlı yap,' 'kediyi köpeğe çevir' veya 'dramatik gün batımı aydınlatması ekle' gibi metin talimatı sağlayabilir ve InstructPix2Pix, orijinal görselin genel yapısını ve etkilenmeyen öğelerini korurken istenen değişiklikleri uygular. Model tek bir ileri geçişte çalışarak yinelemeli optimizasyon olmadan hızlı düzenlemeler yapar. Stil transferi, nesne değiştirme, aydınlatma değişiklikleri, mevsim ve hava durumu değişiklikleri, malzeme değişiklikleri ve sanatsal dönüşümler dahil geniş bir düzenleme işlemi yelpazesini yönetir. InstructPix2Pix, Stable Diffusion mimarisi üzerine inşa edilmiştir ve açık kaynaklıdır, Diffusers kütüphanesiyle entegrasyon ile Hugging Face üzerinde mevcuttur. 6GB ve üzeri VRAM ile tüketici GPU'larında çalışır. Fotoğrafçılar, dijital sanatçılar, içerik üreticileri ve görsel düzenleme uygulamaları geliştiren yazılımcılar hızlı yaratıcı düzenleme iş akışları için InstructPix2Pix kullanır. Karmaşık senaryolarda manuel düzenlemenin hassasiyetiyle eşleşmese de doğal dil arayüzü, sofistike görsel düzenlemeleri herhangi bir görsel düzenleme uzmanlığı olmadan kullanıcılar için erişilebilir kılar.

Görselden Görsele

Siteyi Ziyaret Et

Öne Çıkan Özellikler

Doğal Dil ile Düzenleme

Maske veya ince ayar gerektirmeden basit metin talimatlarıyla görselleri düzenleyebilme yeteneği sunan sezgisel arayüz.

Çift Koşullandırma Mekanizması

Orijinal görsel ve metin talimatının ayrı kanallar aracılığıyla difüzyon sürecini yönlendirdiği benzersiz çift koşullandırma sistemi.

Hassas Düzenleme Kontrolü

Görsel ve metin rehberlik ölçekleri ile orijinal görsele sadakat ve talimat uyumu arasında ince ayarlı denge kurma imkanı.

450K+ Eğitim Veri Seti

GPT-3 ve Prompt-to-Prompt birleşimiyle oluşturulan 450.000'den fazla talimat-görsel çifti ile eğitilmiş kapsamlı model.

Hakkında

InstructPix2Pix, UC Berkeley'den Tim Brooks, Aleksander Holynski ve Alexei A. Efros tarafından geliştirilen ve Kasım 2022'de "InstructPix2Pix: Learning to Follow Image Editing Instructions" başlıklı makaleyle tanıtılan talimat tabanlı görsel düzenleme modelidir. Model, kullanıcıların görsel başına ince ayar, maske çizimi veya inversiyon adımları gerektirmeden "karlı yap" veya "kediyi köpeğe dönüştür" gibi doğal dil talimatları vererek görselleri düzenlemesini sağlar. Düzenlenmiş çıktıyı üretmek için hem girdi görselini hem de metin talimatını aynı anda işleyen bu model, görsel düzenleme alanında talimat takip paradigmasının öncüsü olmuş ve alanın geleceğini şekillendiren referans noktası haline gelmiştir.

Modelin eğitim süreci son derece yenilikçi bir yaklaşıma dayanır. Araştırmacılar, düzenleme talimatları oluşturmak için GPT-3'ü ve bu talimatlarla eşleştirilmiş görsel çiftleri oluşturmak için Prompt-to-Prompt tekniğini birleştirmişlerdir. Bu süreç, 450.000'den fazla talimat-görsel çiftinden oluşan kapsamlı bir eğitim veri seti üretmiştir. Veri setindeki her örnek, bir orijinal görsel, bir düzenlenmiş görsel ve bunlar arasındaki dönüşümü tanımlayan doğal dil talimatından oluşur. Bu otomatikleştirilmiş veri üretim hattı, insan etiketleme maliyetini ortadan kaldırarak büyük ölçekli eğitimi mümkün kılmıştır ve sentetik veri kullanımının üretken modellerde ne kadar etkili olabileceğini göstermiştir.

Stable Diffusion 1.5 mimarisi üzerine inşa edilen InstructPix2Pix, hem orijinal görselin hem de düzenleme talimatının difüzyon sürecini ayrı kanallar aracılığıyla yönlendirdiği çift koşullandırma (dual conditioning) mekanizması sunar. Orijinal görsel, ek giriş kanalları olarak U-Net'e beslenir — standart 4 kanallık gürültülü latent'e ek olarak 4 kanal daha eklenerek toplam 8 kanallı bir giriş oluşturulur. Metin talimatı ise CLIP metin kodlayıcısı aracılığıyla işlenir ve çapraz dikkat katmanları üzerinden uygulanır. Bu mimari, modelin orijinal görselin yapısını korurken yalnızca talimatla belirtilen değişiklikleri uygulamasını sağlar.

İki temel parametre düzenlemeyi kontrol eder: görsel rehberlik ölçeği (image guidance scale) orijinal görselin ne kadar korunacağını belirlerken, metin rehberlik ölçeği (text guidance scale) talimatın ne kadar güçlü takip edileceğini ayarlar. Bu parametrelerin dengelenmesi, orijinale sadakat ile düzenleme talimatına uyum arasında hassas kontrol sağlar. Düşük görsel rehberlik değerleri daha dramatik değişikliklere izin verirken, yüksek değerler orijinal görsele daha yakın sonuçlar üretir. Classifier-free guidance ile her iki boyutta da bağımsız kontrol mümkündür.

Kullanım alanları oldukça çeşitlidir ve profesyonel iş akışlarından günlük yaratıcı kullanıma uzanır: mevsim değişiklikleri, hava durumu efektleri, malzeme dönüşümleri, nesne ekleme veya çıkarma, stil dönüşümleri, renk düzenlemeleri ve aydınlatma değişiklikleri gibi geniş bir düzenleme yelpazesini kapsar. Fotoğrafçılar aydınlatma koşullarını değiştirebilir, tasarımcılar ürün renklerini deneyebilir, içerik üreticileri görsellere yaratıcı efektler ekleyebilir ve mimarlar bina cephelerinde malzeme değişiklikleri görselleştirebilir. Model özellikle iteratif düzenleme iş akışlarında güçlüdür, çünkü her adımda farklı bir talimat uygulanarak kademeli değişiklikler yapılabilir.

InstructPix2Pix, görsel düzenleme için talimat takip paradigmasını oluşturmada son derece etkili olmuş ve MagicBrush, InstructDiffusion, HIVE ve Emu Edit gibi sonraki çalışmalara ilham vermiştir. CreativeML Open RAIL lisansı altında açık kaynaklı olan model, Hugging Face üzerinde mevcuttur ve ComfyUI, Automatic1111 dahil çeşitli çıkarım platformlarına entegre edilmiştir. Orijinal çalışma 1.500'den fazla akademik atıf almış ve alan için temel referans noktası olmaya devam etmektedir.

Kullanım Senaryoları

Hızlı Fotoğraf Düzenleme

Mevsim, hava durumu veya atmosfer değişiklikleri gibi hızlı düzenlemeler yapma.

Stil Dönüşümü

Fotoğrafları çizim, yağlı boya veya anime stiline dönüştürme.

Nesne Değiştirme

Görseldeki belirli nesneleri metin talimatıyla başka nesnelere dönüştürme.

İçerik Oluşturucu İş Akışı

Sosyal medya ve blog içerikleri için görselleri hızlıca farklı versiyonlara dönüştürme.

Artılar ve Eksiler

Artılar

Örnek başına ince ayar veya ters çevirme olmadan tek ileri geçişte düzenleme yapar — saniyeler içinde düzenler
Tam çıktı tanımı gerektirmek yerine doğal dil düzenleme talimatlarıyla çalışır
Önemli yapısal düzenlemeler yaparken görsel tutarlılığını korumada üstündür
Çok yönlü — gizli gürültüyü değiştirmek aynı girdi ve talimattan birçok olası düzenleme üretir
Stil değişikliklerinden nesne eklemelerine ve mevsimsel dönüşümlere kadar çeşitli düzenleme görevlerini yönetebilir

Eksiler

Görsellerde bakış açısı değişiklikleri veya kamera açısı düzenlemeleri yapamaz
Bazen talimatlananın ötesinde istenmeyen aşırı değişiklikler yapar
Nesneleri birbirleriyle mekansal olarak yeniden düzenlemekte veya takas etmekte zorluk çeker
Stable Diffusion otokodlayıcısı küçük yüzlerle zorlanır — yüz düzenlemeleri için kırpma gerektirir
Meslek-cinsiyet ilişkileri gibi eğitim verisi önyargılarını yansıtır

Teknik Detaylar

Parametre

Mimari

Latent Diffusion (fine-tuned SD 1.5)

Eğitim Verisi

GPT-3.5 generated edit instructions + Prompt-to-Prompt pairs

Lisans

MIT

Özellikler

Natural dil düzenleme Instructions
No Per-Image Fine-Tuning Required
Dual Conditioning (Image + Text)
Image Guidance Scale Control
Text Guidance Scale Control
Zero-Shot Image düzenleme
GPT-3 Trained Instruction Set
Stable Diffusion 1.5 Based

Benchmark Sonuçları

Metrik	Değer	Karşılaştırma	Kaynak
Parametre Sayısı	~1B (SD 1.5 tabanlı)	SD 1.5: 860M	InstructPix2Pix Paper (arXiv)
CLIP Yön Benzerliği	0.135	SDEdit: 0.079	InstructPix2Pix Paper (arXiv)
CLIP Görsel Benzerliği	0.834	SDEdit: 0.762	InstructPix2Pix Paper (arXiv)
Çıkarım Süresi	~3 saniye (A100)	—	InstructPix2Pix GitHub

Mevcut Platformlar

hugging face

replicate

Sıkça Sorulan Sorular

İlgili Modeller

ControlNet

Lvmin Zhang|1.4B

ControlNet, kenar haritaları, derinlik haritaları, insan poz iskeletleri, segmentasyon maskeleri ve normal haritalar gibi çeşitli koşullandırma girdileri aracılığıyla görsel üretim sırasında hassas yapısal rehberlik sağlayan Stable Diffusion modelleri için koşullu bir kontrol çerçevesidir. Stanford Üniversitesi'nde Lvmin Zhang ve Maneesh Agrawala tarafından geliştirilen ControlNet, donmuş difüzyon modeli kodlayıcılarına eğitilebilir kopya dalları ekleyerek modelin orijinal yeteneklerini değiştirmeden uzamsal koşullandırmayı öğrenmesini sağlar. Bu mimari, üretilen görsellerin kompozisyonu, yapısı ve uzamsal düzeni üzerinde ince ayarlı kontrol eklerken temel modelin üretim kalitesini korur. ControlNet birden fazla koşullandırma türünü eş zamanlı destekler ve kullanıcıların poz, derinlik ve kenar bilgisini birleştirerek olağanüstü hassasiyetle üretimi yönlendirebildiği karmaşık çok koşullu iş akışları oluşturur. Çerçeve, üretilen görsellerde tutarlı uzamsal yapıları sürdürmenin temel zorluğunu çözerek profesyonel AI görsel üretim iş akışlarında devrim yaratmıştır. Karakter pozları, mimari düzenler, ürün yerleşimleri ve sahne kompozisyonları üzerinde hassas kontrol ihtiyacı olan profesyonel sanatçılar ve tasarımcılar için vazgeçilmez bir araç haline gelmiştir. ControlNet açık kaynaklıdır ve SD 1.5 ile SDXL dahil çeşitli Stable Diffusion sürümleri için önceden eğitilmiş modellerle Hugging Face üzerinde mevcuttur. ComfyUI ve Automatic1111 ile sorunsuz entegre olur. Konsept sanatçıları, karakter tasarımcıları, mimari görselleştiriciler, moda tasarımcıları ve animasyon stüdyoları üretim iş akışları için ControlNet'e güvenir. Etkisi Stable Diffusion'ın ötesine geçerek FLUX.1 ve diğer modern modellerde benzer kontrol mekanizmalarına ilham vermiştir.

Açık Kaynak

4.8

InstantID

InstantX Team|N/A

InstantID, InstantX Team tarafından geliştirilen ve yalnızca tek bir referans fotoğrafı kullanarak belirli bir kişinin çeşitli stil, poz ve bağlamlarda görsellerini üretebilen sıfır atışlı kimlik koruyucu görsel üretim çerçevesidir. Birden fazla referans görsel veya zaman alıcı ince ayar gerektiren geleneksel yüz değiştirme veya kişiselleştirme yöntemlerinden farklı olarak InstantID, bir yüz kodlayıcı, IP-Adapter ve yüz referans noktası rehberliği için ControlNet'i birleştiren yenilikçi bir mimari aracılığıyla yalnızca bir yüz fotoğrafından doğru kimlik koruması sağlar. Sistem, referans görselinden detaylı yüz kimlik özelliklerini çıkarır ve üretim sürecine enjekte ederek üretilen kişinin çeşitli çıktı senaryolarında tanınabilir yüz hatlarını, oranlarını ve karakteristiklerini korumasını sağlar. InstantID, farklı sanatsal stillerde portreler üretme, kişiyi hayal edilen sahne veya bağlamlara yerleştirme, profil resimleri ve avatarlar oluşturma ve tutarlı karakter temsilleri içeren pazarlama materyalleri üretme dahil çeşitli yaratıcı uygulamaları destekler. Model, temel olarak Stable Diffusion XL ile çalışır ve açık kaynaklıdır, yerel dağıtım için GitHub ve Hugging Face üzerinde mevcuttur. Topluluk tarafından geliştirilen düğümler aracılığıyla ComfyUI ile entegre olur ve bulut API'leri üzerinden erişilebilir. Portre fotoğrafçıları, sosyal medya içerik üreticileri, kişiselleştirilmiş kampanyalar oluşturan pazarlama ekipleri, karakter varyantları tasarlayan oyun geliştiricileri ve kimlik tabanlı yaratıcı çalışmaları keşfeden dijital sanatçılar InstantID'yi kullanır. Çerçeve, sonraki kimlik koruma modellerini etkilemiştir ve açık kaynak ekosisteminde tek görsellik kimlik transferi için en etkili çözümlerden biri olmaya devam etmektedir.

Açık Kaynak

4.7

IP-Adapter

Tencent|22M

IP-Adapter, Tencent AI Lab tarafından geliştirilen ve temel modelin herhangi bir ince ayarını gerektirmeden text-to-image difüzyon modelleri için görsel rehberli üretim sağlayan bir görsel prompt adaptörüdür. Adaptör, bir CLIP görsel kodlayıcı kullanarak referans görsellerden görsel özellikler çıkarır ve bu özellikleri ayrıştırılmış bir dikkat mekanizması aracılığıyla difüzyon modelinin çapraz dikkat katmanlarına enjekte ederek çalışır. Bu, kullanıcıların metin promptlarının yanında referans görselleri görsel promptlar olarak sağlamasına olanak tanır ve metin açıklamasını takip ederken referansla stilistik öğeleri, kompozisyonel özellikleri veya görsel karakteristikleri paylaşan görseller üretmek için üretim sürecini yönlendirir. IP-Adapter, üretilen görselin referansın sanatsal stilini benimsediği stil transferi ve referanstan belirli konuların veya öğelerin çıktıda göründüğü içerik transferi dahil birden fazla çalışma modunu destekler. Adaptör hafiftir ve temel modelin çıkarım sürecine minimum hesaplama yükü ekler. Poz, stil ve içeriğin her birinin bağımsız olarak kontrol edilebildiği sofistike iş akışları sağlayarak çok modlu koşullandırma için ControlNet gibi diğer kontrol mekanizmalarıyla birleştirilebilir. IP-Adapter açık kaynaklıdır ve SD 1.5 ile SDXL dahil çeşitli Stable Diffusion sürümleri için mevcuttur. Topluluk uzantıları aracılığıyla ComfyUI ve Automatic1111 ile entegre olur. Üretilen görsellerde görsel tutarlılık sağlaması veya referans materyalden belirli estetik nitelikleri aktarması gereken dijital sanatçılar, ürün tasarımcıları, marka yöneticileri ve içerik üreticileri IP-Adapter'ın yeteneklerinden özellikle faydalanır.

Açık Kaynak

4.6

IP-Adapter FaceID

Tencent|22M (adapter)

IP-Adapter FaceID, Tencent AI Lab tarafından geliştirilen ve yüz kimlik bilgisini difüzyon görüntü üretim sürecine enjekte ederek belirli bir kişinin yüz özelliklerini sadakatle koruyan yeni görüntüler oluşturmayı mümkün kılan özelleştirilmiş bir adaptör modülüdür. Geleneksel yüz değiştirme yaklaşımlarından farklı olarak, IP-Adapter FaceID, InsightFace kütüphanesinden yüz tanıma özellik vektörleri çıkarır ve bunları çapraz dikkat katmanları aracılığıyla difüzyon modeline besler, böylece modelin tutarlı yüz kimliğini korurken çeşitli sahneler, stiller ve kompozisyonlar üretmesine olanak tanır. Mevcut Stable Diffusion modellerinin üzerine katmanlanan yalnızca yaklaşık 22 milyon adaptör parametresiyle FaceID, kişiye özel ince ayar veya birden fazla referans görüntü gerektirmeden dikkat çekici kimlik koruması sağlar. Tek bir net yüz fotoğrafı, kişiyi çeşitli sanatsal stillerde, farklı kıyafetlerle, çeşitli ortamlarda ve yeni pozlarda üretmek için yeterlidir. Adaptör hem SDXL hem de SD 1.5 temel modellerini destekler ve poz, derinlik ve kompozisyon üzerinde ek kontrol için diğer ControlNet adaptörleriyle birleştirilebilir. IP-Adapter FaceID Plus varyantları, geliştirilmiş benzerlik ve ayrıntı koruması için yüz gömülerinin yanına ek CLIP görüntü özellikleri ekler. Apache 2.0 lisansı altında tamamen açık kaynaklı olan model, ComfyUI iş akışlarına ve Diffusers kütüphanesine yaygın olarak entegre edilmiştir. Yaygın uygulamalar arasında kişiselleştirilmiş avatar oluşturma, çeşitli sanatsal stillerde özel portre üretimi, hikaye anlatımında karakter tutarlılığı ve kişiselleştirilmiş pazarlama içeriği yer alır.

Açık Kaynak

4.5