InstructPix2Pix v2 icon

InstructPix2Pix v2

Açık Kaynak
4.4
UC Berkeley

InstructPix2Pix v2, UC Berkeley'de geliştirilen ve doğal dil talimatlarına dayalı olarak görselleri düzenleyen gelişmiş bir difüzyon modelidir. Tim Brooks ve ekibinin orijinal InstructPix2Pix'in başarısı üzerine inşa edilmiştir. Model, bir girdi görüntüsü ve 'gün batımı yap' veya 'kediyi köpeğe dönüştür' gibi bir metin talimatı alarak görüntünün ilgisiz kısımlarını korurken düzenlenmiş sonucu üretir. Talimat ayarlaması ile Stable Diffusion omurgası üzerine inşa edilen v2 sürümü, selefine kıyasla talimat anlama, çıktı kalitesi ve düzenleme hassasiyetinde önemli iyileştirmeler sunar. Mimari, karmaşık çok adımlı talimatları takip etmeyi öğrenir ve stil değişiklikleri, nesne modifikasyonları, renk ayarlamaları, hava durumu dönüşümleri ve kompozisyon değişiklikleri dahil nüanslı düzenleme taleplerini işler. Maske tabanlı düzenleme yaklaşımlarından farklı olarak InstructPix2Pix v2, metin talimatına dayalı olarak görüntünün hangi bölümlerinin değiştirileceğini otomatik olarak belirlediğinden manuel bölge seçimi gerektirmez. Yaklaşık 1,5 milyar parametreli model, 8GB ve üzeri VRAM'e sahip tüketici GPU'larında verimli şekilde çalışır. MIT lisansı altında tamamen açık kaynaklıdır ve ComfyUI ile Diffusers kütüphanesi dahil popüler yaratıcı araçlara entegre edilmiştir. Profesyonel fotoğrafçılar, dijital sanatçılar, e-ticaret ekipleri ve içerik üreticileri hızlı yinelemeli düzenleme, ürün fotoğrafı iyileştirme ve geleneksel manuel düzenlemenin zaman açısından engelleyici olduğu toplu görsel içerik işleme için kullanır.

Görsel Düzenleme

Öne Çıkan Özellikler

Metin Tabanli Gorsel Duzenleme

Dogal dil komutlariyla mevcut gorselleri duzenleyerek herhangi bir maskeleme gerektirmeden degisiklik yapma

Yapi Koruma

Duzenleme sirasinda orijinal gorselin genel yapisini, kompozisyonunu ve duzenlenmemis bolgelerini korur

Gelismis Talimat Anlama

V1'e gore cok daha iyi metin talimat anlama kapasitesi ile daha dogru ve niyete uygun duzenlemeler

Genis Duzenleme Yelpazesi

Stil degistirme, nesne ekleme/cikarma, renk duzenleme ve ortam degisikligi gibi cesitli duzenleme turleri

Hakkında

InstructPix2Pix v2, orijinal InstructPix2Pix modelinin geliştirilmiş bir versiyonu olarak doğal dil talimatlarıyla görüntü düzenleme yapabilen ileri düzey bir difüzyon modelidir. Tim Brooks ve ekibinin UC Berkeley'de geliştirdiği orijinal InstructPix2Pix'in başarısı üzerine inşa edilen v2 sürümü, daha karmaşık düzenleme talimatlarını anlama ve uygulama konusunda önemli iyileştirmeler sunar. Genişletilmiş eğitim veri seti ve optimize edilmiş mimari sayesinde, özellikle çok adımlı ve bağlamsal düzenleme görevlerinde belirgin performans artışı sağlamıştır. Bu gelişmeler, modeli profesyonel düzenleme iş akışlarında güvenle kullanılabilir bir araç haline getirmiştir ve talimat tabanlı görsel düzenleme alanını bir adım öteye taşımıştır.

Modelin çalışma prensibi oldukça sezgiseldir: bir kaynak görüntü ve bir metin talimatı verilir, model talimatı görüntüye uygular. "Havayı karlı yap", "kıyafeti mavi renge çevir", "arka plana dağlar ekle" veya "fotoğrafı gün batımı aydınlatmasıyla değiştir" gibi komutlar doğal dil ile verilebilir. Model, değişikliği yapılması istenen bölgeyi otomatik olarak tespit eder ve geri kalan kısımları olduğu gibi korur. V2 sürümünün en önemli gelişmesi, bölgesel algılama yeteneğinin güçlendirilmesidir — model artık "sol üst köşedeki çiçeği kaldır" veya "arka plandaki binayı daha yüksek yap" gibi mekansal referansları daha doğru anlayabilir ve karmaşık, çok katmanlı talimat zincirleriyle başa çıkabilir.

Teknik mimari, Stable Diffusion altyapısı üzerine inşa edilmiş çift koşullandırma (dual conditioning) mekanizması kullanır. Orijinal görüntü ek giriş kanalları olarak U-Net'e beslenir ve metin talimatı CLIP metin kodlayıcısı aracılığıyla işlenir. İki temel parametre düzenlemeyi kontrol eder: görsel rehberlik ölçeği (image guidance scale) orijinal görüntünün ne kadar korunacağını belirlerken, metin rehberlik ölçeği (text guidance scale) talimatın ne kadar güçlü takip edileceğini ayarlar. V2 sürümü, bu parametrelerin optimum aralıklarını genişleterek daha geniş bir düzenleme yelpazesinde kararlı sonuçlar üretir. Classifier-free guidance mekanizması ile her iki boyutta bağımsız kontrol mümkündür ve bu da kullanıcılara düzenleme deneyimi üzerinde tam hakimiyet sağlar.

InstructPix2Pix v2'nin en güçlü yanı, düzenleme sırasında görüntünün genel yapısını ve kimliğini korumasıdır. Bir portre fotoğrafında "güneş gözlüğü ekle" denildiğinde, yüz özellikleri, aydınlatma ve arka plan bozulmadan sadece gözlük eklenir. Bir manzara fotoğrafında "mevsimi kışa çevir" talimatı verildiğinde, kompozisyon ve perspektif korunarak yalnızca mevsimsel öğeler değiştirilir. Bir iç mekan fotoğrafında "duvar rengini maviye çevir" denildiğinde, mobilyalar ve dekorasyon öğeleri korunur. Bu yapısal bütünlük koruma düzeyi, profesyonel fotoğraf düzenleme ve içerik üretimi iş akışlarında güvenle kullanılmasını mümkün kılar.

Kullanım senaryoları son derece çeşitlidir ve geniş bir endüstriyel yelpazeyi kapsar. E-ticaret ürün fotoğrafı düzenlemede arka plan değiştirme, renk ayarlama veya mevsimsel varyasyon üretme; gayrimenkul fotoğraf iyileştirmede mevsim değişikliği, iç dekorasyon önerileri görselleştirme veya aydınlatma düzeltme; yaratıcı tasarım süreçlerinde iteratif stil değişiklikleri ve konsept geliştirme; sosyal medya içerik üretiminde hızlı görsel düzenleme ve trend uyarlama; reklam endüstrisinde kampanya görselleri üzerinde varyasyon üretimi ve A/B test görselleri oluşturma gibi profesyonel alanlarda yaygın olarak tercih edilmektedir.

Açık kaynak olarak Hugging Face üzerinden erişilebilen model, ComfyUI ve Automatic1111 gibi popüler arayüzlerle entegre edilebilir. Orijinal InstructPix2Pix ile karşılaştırıldığında, v2 sürümü özellikle karmaşık talimatlar, bölgesel düzenlemeler ve stil dönüşümleri konusunda daha tutarlı ve yüksek kaliteli sonuçlar üretir. MagicBrush ve InstructDiffusion gibi alternatif yöntemlere kıyasla, InstructPix2Pix v2 kurulum kolaylığı, geniş topluluk desteği ve Stable Diffusion ekosistemiyle derin entegrasyonuyla öne çıkmaktadır.

Kullanım Senaryoları

1

Fotografik Stil Degistirme

Fotograflarin stilini metin komutuyla degistirerek farkli sanatsal ve fotografik tarzlar uygulama

2

Icerik Duzenleme

Fotograflardaki nesneleri, renkleri veya ortami metin talimatlariyla degistirerek icerik duzenleme

3

Urun Gorsel Varyasyonlari

E-ticaret urun gorsellerinde metin komutuyla renk, malzeme ve ortam varyasyonlari olusturma

4

Yaratici Gorsel Deneyler

Sanatcilar ve tasarimcilar icin mevcut gorseller uzerinde yaratici duzenleme ve deney yapma

Artılar ve Eksiler

Artılar

  • Doğal dil talimatlarıyla görsel düzenleme — 'güneşli yap' gibi basit komutlar
  • Orijinal görsel yapısını koruyarak hedefli değişiklikler yapabiliyor
  • İlk versiyona göre daha hassas ve tutarlı düzenleme sonuçları
  • Diffusion tabanlı mimari ile yüksek kaliteli çıktılar

Eksiler

  • Karmaşık ve çoklu düzenleme talimatlarında başarı oranı düşebiliyor
  • Bazen istenmeyen bölgelerde de değişiklik yapabiliyor
  • Fotoğrafik detayları korumada zorlanabiliyor
  • Eğitim verisi sınırlı olduğundan bazı düzenleme türlerinde zayıf

Teknik Detaylar

Parametre

1.5B

Mimari

Stable Diffusion + Instruction Tuning

Eğitim Verisi

GPT-4 generated instructions + Stable Diffusion pairs

Lisans

MIT

Özellikler

  • Instruction-Based Editing
  • Structure Preservation
  • No Masking Required
  • Multi-Turn Editing
  • Open Source
  • Diffusion-Based

Benchmark Sonuçları

MetrikDeğerKarşılaştırmaKaynak
CLIP Yön Benzerliği0.132SDEdit: 0.084InstructPix2Pix Paper (CVPR 2023)
Düzenleme Doğruluğu (CLIP Text-Image)0.276Prompt-to-Prompt: 0.248Papers With Code
İçerik Koruma (LPIPS)0.12Null-Text Inversion: 0.08 (düşük daha iyi)Hugging Face Model Card
İşleme Süresi (512×512)~3.5 saniye (A100)SDEdit: ~2.8 saniyeGitHub Repository

Mevcut Platformlar

GitHub
HuggingFace
Replicate

Sıkça Sorulan Sorular

İlgili Modeller

IC-Light icon

IC-Light

Lvmin Zhang|1B+

IC-Light (Intrinsic Compositing Light), ControlNet'in yaratıcısı Lvmin Zhang tarafından geliştirilen ve fotoğraflardaki aydınlatma koşullarını olağanüstü gerçekçilikle manipüle eden ve dönüştüren bir AI aydınlatma modelidir. Özelleştirilmiş aydınlatma koşullandırması ile Stable Diffusion omurgası üzerine inşa edilen bir milyardan fazla parametreli model, herhangi bir nesne veya kişi fotoğrafını alarak fotorealistik gölgeleri, vurguları ve yüzey yansımalarını korurken ışık kaynağı yönünü, renk sıcaklığını, yoğunluğunu ve ortam aydınlatmasını tamamen değiştirebilir. IC-Light iki farklı modda çalışır: öznenin bağımsız olarak çıkarılıp yeniden aydınlatıldığı ön plan aydınlatması ve aydınlatmanın yeni bir arka plan ortamına uyacak şekilde ayarlandığı arka plan uyumlu aydınlatma. Model, speküler yansımalar, ciltte yüzey altı saçılma, metalik yüzeyler ve şeffaf malzemeler dahil fiziksel ışık davranışını anlar ve gerçek dünya optik özelliklerine saygı duyan sonuçlar üretir. IC-Light, hedef aydınlatma düzenini tanımlamak için metin açıklamaları veya referans görüntüler kabul ederek nihai görünüm üzerinde sezgisel kontrol sunar. Apache 2.0 lisansı altında tamamen açık kaynaklı olan model, özel iş akışı düğümleriyle ComfyUI'ye entegre edilmiştir. Profesyonel fotoğrafçılar, ürün fotoğrafçıları, dijital sanatçılar ve e-ticaret ekipleri IC-Light'ı mevcut fotoğraflardaki olumsuz aydınlatmayı düzeltmek, günlük çekimlerden stüdyo kalitesinde aydınlatma oluşturmak, katalog görüntüleri arasında ürün aydınlatmasını eşleştirmek ve yaratıcı projeler için dramatik sinematik aydınlatma üretmek amacıyla kullanır.

Açık Kaynak
4.5

Hızlı Bilgi

Parametre1.5B
TipDiffusion
LisansMIT
Yayınlanma2024-06
MimariStable Diffusion + Instruction Tuning
Puan4.4 / 5
GeliştiriciUC Berkeley

Bağlantılar

Etiketler

editing
instruction
image
diffusion
Siteyi Ziyaret Et