SD Inpainting icon

SD Inpainting

Açık Kaynak
4.4
Stability AI

Stable Diffusion Inpainting, Stability AI'nin Stable Diffusion modelinin görüntü inpainting görevleri için özel olarak ince ayar yapılmış uzmanlaşmış varyantıdır ve kullanıcıların metin promptları rehberliğinde maskelenmiş görsel bölgelerini bağlamsal olarak tutarlı içerikle doldurmasını sağlar. 2022'de yayınlanan model, latent difüzyon mimarisini temel alır ancak maske farkındalıklı işleme için ek giriş kanallarıyla genişletilmiştir; orijinal görsel, maske ve maskelenmiş görsel U-Net mimarisine ek kanallar olarak beslenir. RunwayML iş birliğiyle geliştirilen v1.5 inpainting modeli 595K özenle seçilmiş örnek üzerinde eğitilmiş, topluluk tarafından geliştirilen SDXL tabanlı varyantlar ise daha yüksek çözünürlük ve gelişmiş kalite sunmuştur. Yaygın kullanım alanları arasında fotoğraflardan istenmeyen nesnelerin sorunsuz kaldırılması, hasarlı veya eksik bölgelerin tamamlanması, sahnelere yeni öğeler eklenmesi ve filigran ile metin katmanlarının temizlenmesi yer alır. Profesyonel uygulamalar fotoğraf post-prodüksiyonu, reklam görseli hazırlama, emlak fotoğrafçılığında mekan düzenleme, ürün fotoğrafçılığında arka plan değiştirme ve dijital sanat iş akışlarını kapsar. Model; AUTOMATIC1111 WebUI, ComfyUI, InvokeAI ve Hugging Face Diffusers kütüphanesi gibi popüler açık kaynak arayüzlerden kolayca erişilebilir. Maskeler fırça araçlarıyla manuel veya SAM gibi segmentasyon modelleriyle otomatik oluşturulabilir ve ControlNet entegrasyonu hassas çıktı yönlendirmesi için ek kontrol katmanları sağlar. CreativeML Open RAIL-M lisansıyla yayınlanan model, 8GB VRAM'li GPU'larda çalışır ve xFormers gibi optimizasyonları destekleyerek en yaygın açık kaynak inpainting çözümlerinden biri olmaya devam eder.

Inpainting

Öne Çıkan Özellikler

Hassas Maske Tabanli Duzenleme

Ikili maske ile goruntunun tam olarak hangi bolgelerinin degistirilecegini belirleyerek hassas ve kontrolllu goruntu duzenleme saglar

Metin Yonlendirmeli Icerik Uretimi

Maskelenmis bolge icin istenen icerigi metin promptu ile tanimlama imkani sunarak yaratici kontrol ve esneklik saglar

Ustun Sinir Harmanlama

Maske ve maskelenmis goruntu icin ozel giris kanallari ile jenerik img2img yaklasimlarindan cok daha iyi sinir gecisleri uretir

Outpainting Destegi

Goruntueri orijinal sinirlarinin otesine tutarli ve baglam uyumlu icerikle genisletebilen outpainting yetenegi

Hakkında

Stable Diffusion Inpainting, goruntu inpainting gorevleri icin ozel olarak ince ayar yapilmis, Stability AI'nin Stable Diffusion modelinin uzmanlasmis bir varyantdir. Bir goruntunun eksik veya maskelenmis bolgelerini baglamsal olarak tutarli icerikle doldurma yetenegine sahip olan bu model, 2022 yilinda piyasaya surulmus ve goruntu duzenleme is akislarinda devrim yaratmistir. Metin promptlari ile yonlendirileblir inpainting yetenegi, onu geleneksel ve diger modern inpainting yontemlerinden ayiran temel ozelligidir ve yaratici goruntu duzenleme olanaklarini buyuk olcude genisletmistir.

Teknik mimari acisindan model, standart Stable Diffusion'in latent difuzyon mimarisini temel alir ancak ek giris kanallari ile genisletilmistir. Orijinal goruntu, maske ve maskelenmis goruntunun birlesimi, U-Net'in girisine ek kanallar olarak beslenir. Bu tasarim, modelin hem maskelenmis bolgenin cevresindeki baglamdan hem de metin promptindan yararlanarak tutarli ve yuksek kaliteli icerik uretmesini saglar. RunwayML isbirligi ile gelistirilen v1.5 inpainting modeli, 595K inpainting ornegi uzerinde ince ayar yapilarak egitilmistir. SDXL tabanli inpainting varyantlari da daha sonra topluluk tarafindan gelistirilmis olup daha yuksek cozunurluk ve iyilestirilmis kalite sunar.

Kullanim senaryolari son derece cesitlidir ve yaratici ile teknik alanlari kapsar. Istenmeyen nesnelerin goruntuden kaldirilmasi (ornegin, bir fotograftaki yabanci bir kisiyi veya dikkat dagitici bir arka plan ogesini silme), hasarli veya eksik goruntu bolgelerinin tamamlanmasi, goruntu iceriginin degistirilmesi veya yeni ogelerin eklenmesi (bir manzaraya bulut ekleme, bir odaya mobilya yerlestirme gibi) en yaygin uygulamalardir. Fotograftaki istenmeyen filigranlari, tarih damgalarini veya metin katmanlarini temizlemek icin de sikca kullanilir. Kavramsal sanat ve gorsel hikaye anlatimi icin de guclu bir yaratici aractir.

Profesyonel uygulamalar arasinda fotografcilik post-produksiyonu, reklam gorseli hazirlama, gayrimenkul fotograflarinda mekan duzenleme, urun fotografciliginda arka plan degistirme ve dijital sanat produksiyonu one cikar. Mimari gorsellestirmede mevcut yapilara yeni elemanlar eklemek, moda endustrisinde kiyafet veya aksesuar degistirmek ve film ile TV post-produksiyonunda gorsel efekt hazirlamak gibi uzmanlasmis kullanim alanlari da mevcuttur. Gorsel icerik ureticileri icin yaratici olanaklari dramatik sekilde genisleten guclu bir aractir ve produksiyon sureclerini hizlandirir.

Stable Diffusion Inpainting, cesitli platformlar ve arayuzler uzerinden erisilebilir durumdadir. AUTOMATIC1111'in Stable Diffusion WebUI'si, ComfyUI, InvokeAI ve Diffusers kutuphanesi gibi populer araclar inpainting is akislarini destekler. Kullanicilar maske olusturmak icin firca araci kullanabilir veya otomatik segmentasyon modelleri (SAM gibi) ile maske uretebilir. ControlNet entegrasyonu ile inpainting islemine ek kontrol katmanlari eklenebilir ve cikti uzerinde daha hassas yonlendirme saglanabilir. API erisimi sayesinde otomatik inpainting pipeline'lari olusturmak da mumkundur.

Model, CreativeML Open RAIL-M lisansi altinda yayinlanmistir ve genis bir ticari ve kisisel kullanim esnekligi sunar. Goruntu basina islem suresi GPU kapasitesine ve cozunurluge bagli olarak birkac saniye ile birkac dakika arasinda degisir. 8GB VRAM'li bir GPU ile rahat calisabilir ve xFormers veya flash attention gibi optimizasyonlarla bellek kullanimi daha da azaltilabilir. Stable Diffusion Inpainting, acik kaynakli inpainting cozumleri arasinda en yaygin kullanilan ve en esnek seceneklerden biri olmaya devam etmekte ve goruntu duzenleme alanindaki yenilikci calismalara temel teskil etmektedir. Topluluk tarafindan gelistirilen ozel egitimli modeller ve LoRA adaptasyonlari, belirli icerik turleri ve stiller icin uzmanlasmis inpainting sonuclari elde etmeyi mumkun kilar ve modelin esnekligini daha da arttirir.

Kullanım Senaryoları

1

Nesne Kaldirma

Fotograflardan istenmeyen nesneleri, kisileri veya ogeleri maskeleyerek dogal gorunen arka planla doldurma

2

Goruntu Genisletme

Goruntueri herhangi bir yonde genisleterek mevcut sahnenin dogal devamini olusturma

3

Icerik Degistirme

Goruntudeki belirli ogeleri metin promptu ile tanimlanan yeni icerikle degistirme

4

Fotograf Retush ve Duzenleme

Profesyonel fotograf duzenleme is akislarinda kusur giderme, arka plan degistirme ve yaratici duzenleme yapma

Artılar ve Eksiler

Artılar

  • Günlük tasarım iş akışlarında gerçekten kullanışlı — yerelleştirilmiş görsel düzenleme için önemli zaman tasarrufu sağlar
  • ControlNet desteğiyle Stable Diffusion ekosistemi içinde çalışan hafif ama etkili yaklaşım
  • Çevreleyen bağlamı korurken seçili bölgeleri sorunsuzca doldurabilir veya değiştirebilir
  • Belirli görsel alanlarının esnek düzenlenmesi için çeşitli maske şekillerini ve boyutlarını destekler
  • Mevcut Stable Diffusion checkpoint'ları ve topluluk tarafından ince ayar yapılmış modellerle uyumlu

Eksiler

  • SDXL inpainting modeli bazen tüm görselin renk tonunu değiştirerek istenmeyen global kaymalara neden olur
  • Basit üretken süreç maske sınırlarında renk veya yapısal tutarsızlıklar oluşturabilir
  • Tekrarlanan uygulama birden fazla yineleme boyunca aşamalı bozulmaya ve görsel çöküşüne yol açar
  • Performans model checkpoint'u, görsel türü ve maske yerleşimine bağlı olarak oldukça değişkendir
  • Ağırlıklı olarak İngilizce altyazılarla eğitilmiştir — İngilizce dışı metin promptlarıyla iyi çalışmaz

Teknik Detaylar

Parametre

1B

Mimari

U-Net diffusion model with additional mask input channel

Eğitim Verisi

LAION-5B subset with mask augmentation for inpainting training

Lisans

CreativeML Open RAIL-M

Özellikler

  • Mask-Based Region Inpainting
  • Text-Guided Content üretimi
  • Outpainting Image Extension
  • Stable Diffusion 1.5 Architecture
  • ComfyUI and WebUI entegrasyon
  • Açık kaynak Model Weights

Benchmark Sonuçları

MetrikDeğerKarşılaştırmaKaynak
Çözünürlük Desteği512x512 (v1.5), 1024x1024 (SDXL)Hugging Face Model Card
FID Score (Places2)12.6LaMa: 10.3Stability AI Research
Inference Süresi (512x512, A100)~3-5s (50 steps)LaMa: ~0.2sHugging Face Benchmarks
Mask UyumluluğuSerbest çizim + otomatik maskHugging Face Diffusers Docs

Mevcut Platformlar

stability ai
hugging face
replicate
fal ai

Sıkça Sorulan Sorular

İlgili Modeller

GPT Image 1 icon

GPT Image 1

OpenAI|Unknown

GPT Image 1, OpenAI'ın GPT mimarisi içinde doğal olarak entegre olan, birleşik bir otoregresif çerçevede dil anlama yetenekleri ile görsel üretim kapasitesini bir araya getiren en yeni ve en gelişmiş görsel üretim modelidir. Difüzyon tabanlı rakip modellerin aksine, GPT Image 1 metin üretimine benzer bir otoregresif süreçle görselleri token token üretir ve kullanıcıların üretilen çıktıları diyalog yoluyla iteratif olarak iyileştirebildiği doğal bir konuşma arayüzü sunar. Model, görseller içinde metin oluşturmada belirgin üstünlük gösterir ve difüzyon modellerinin tarihsel olarak zayıf kaldığı okunaklı ve doğru konumlandırılmış tipografi üretebilir. Hem metin açıklamalarından sıfırdan görsel üretimini hem de mevcut görsellerin doğal dil talimatlarıyla düzenlenmesini destekler; kullanıcılar fotoğraflarını yükleyip istenen değişiklikleri detaylı biçimde tanımlayabilir. GPT Image 1, birden fazla özne, karmaşık mekansal ilişkiler ve belirli nitelikler içeren kompozisyon promptlarını başarıyla anlayarak açıklanan öğeleri doğru biçimde yansıtan görsel olarak tutarlı sahneler üretir. Fotorealizmden illüstrasyona, yağlı boya tarzı resimlerden grafik tasarıma ve teknik diyagramlara kadar çeşitli görsel stilleri yüksek sadakatle ele alır. Düzenleme yetenekleri arasında mevcut görsellerin inpainting'i, stil dönüşümü, arka plan değiştirme, nesne ekleme veya kaldırma ve renk ayarlaması yer alır; bu özelliklerin tümü sezgisel konuşma metni girdisiyle kontrol edilir. Model, uygulama entegrasyonu için programatik erişim sunan OpenAI API aracılığıyla ve tüketici kullanımı için ChatGPT platformu üzerinden erişilebilir durumdadır. Kapsamlı güvenlik sistemleri zararlı veya politika ihlali içeren içerik üretimini etkin biçimde engeller. Üretilen tüm görseller OpenAI hizmet şartları kapsamında tam ticari kullanım haklarıyla kullanıcıya aittir. GPT Image 1, dil ve görsel yetenekleri sorunsuz harmanlayan çok modlu yapay zeka sistemlerine doğru atılmış önemli bir adımı temsil eder.

Tescilli
4.8
Adobe Generative Fill icon

Adobe Generative Fill

Adobe|N/A

Adobe Generative Fill, Adobe'nin tescilli Firefly görsel üretim modeli tarafından desteklenen ve doğrudan Adobe Photoshop'a entegre edilmiş güçlü bir üretken yapay zeka özelliğidir. 2023 yılında tanıtılan bu özellik, kullanıcıların tanıdık Photoshop arayüzünde doğal dil metin promptları kullanarak görsellere yeni içerik eklemesine, mevcut içerikleri değiştirmesine veya istenmeyen öğeleri kaldırmasına olanak tanır. Herhangi bir Photoshop seçim aracıyla bölge seçilir, bağlamsal görev çubuğuna açıklayıcı prompt yazılır ve saniyeler içinde üç farklı AI üretimi varyasyon sunulur. Üretilen içerik ayrı bir katmana yerleştirilir, böylece Photoshop'un profesyonellerin uzun yıllardır güvendiği tahribatsız düzenleme iş akışı korunur. Temel farklılaştırıcı unsur, Firefly'ın yalnızca lisanslı Adobe Stock görselleri, açık lisanslı içerikler ve kamu malı materyallerle eğitilmiş olmasıdır; bu yaklaşım rakip çözümlerin sunamadığı ticari güvenlik ve fikri mülkiyet tazminatı sağlar. Generative Fill çevredeki renk, aydınlatma, perspektif ve doku uyumunu otomatik olarak koruyarak sorunsuz ve doğal birleştirme sağlar. Generative Expand özelliği ile görselleri orijinal tuval sınırlarının ötesine genişletmek de mümkündür. Profesyonel uygulamalar arasında reklam kampanyası iterasyonu, fotoğraf post-prodüksiyonu, emlak mekan düzenlemesi, ürün fotoğrafçılığında arka plan değiştirme, moda renk modifikasyonu ve editöryal görsel hazırlama yer alır. Creative Cloud aboneliği ile aylık üretken kredi sistemiyle Photoshop'tan ve ayrıca Adobe Express ile web tabanlı Firefly uygulamasından erişilebilir. Content Credentials metadata'sı AI kullanımını belirterek şeffaflık standartlarını destekler ve profesyonel düzeyde en güvenli AI görsel düzenleme çözümü olarak öne çıkar.

Tescilli
4.7
FLUX Fill icon

FLUX Fill

Black Forest Labs|12B

FLUX Fill, Black Forest Labs tarafından geliştirilen FLUX model ailesinin profesyonel düzeyde bölge düzenleme, içerik doldurma ve görüntü genişletme için tasarlanmış özelleşmiş inpainting ve outpainting modelidir. Tüm FLUX modellerini güçlendiren 12 milyar parametreli Diffusion Transformer mimarisi üzerine inşa edilen FLUX Fill, bir girdi görüntüsü ve değiştirilecek bölgeyi gösteren ikili bir maske alarak çevreleyen bağlamla stil, aydınlatma, perspektif ve detay düzeyinde kusursuz şekilde uyumlu içerik üretir. Model, hem görüntü içindeki maskelenmiş alanların bağlamsal olarak uygun içerikle doldurulduğu inpainting görevlerinde hem de daha geniş kompozisyonlar oluşturmak için görüntü sınırlarının genişletildiği outpainting görevlerinde mükemmel performans sergiler. FLUX Fill, FLUX mimarisinin üstün prompt uyumunu kullanarak kullanıcıların maskelenmiş bölgede ne görünmesi gerektiğini metin açıklamalarıyla yönlendirmesine olanak tanır ve çıktı üzerinde hassas yaratıcı kontrol sağlar. Model, birden fazla malzeme ve dokuya yayılan bölgelerin doldurulması, mimari öğelerin yapısal sürekliliğinin korunması ve maskelenmiş yüz alanlarında fotorealistik insan özellikleri üretilmesi dahil karmaşık senaryoları işler. Tescilli bir model olarak FLUX Fill, Black Forest Labs'ın API'si ve Replicate, fal.ai dahil iş ortağı platformları üzerinden kullanım tabanlı fiyatlandırmayla erişilebilir. Profesyonel fotoğrafçılar istenmeyen öğeleri kaldırmak ve kompozisyonları genişletmek için, e-ticaret ekipleri ürün arka planı değiştirmek için, dijital sanatçılar yaratıcı kompozitleme için kullanır.

Tescilli
4.7
Lama Cleaner icon

Lama Cleaner

Sanster|N/A

Lama Cleaner, fotoğraflardan istenmeyen nesneleri, filigranları, metin katmanlarını ve kusurları minimum çabayla kaldırmak için tasarlanmış, LaMa (Large Mask Inpainting) modeli üzerine kurulu açık kaynaklı bir görsel inpainting aracıdır. Sanster tarafından erişilebilir bir masaüstü uygulaması olarak geliştirilen araç, kullanıcı dostu fırça tabanlı bir arayüz sunar; kullanıcılar kaldırmak istedikleri alanı boyar ve yapay zeka bölgeyi çevre görüntüyle uyumlu içerikle doldurur. Temelindeki LaMa modeli, geleneksel inpainting yaklaşımlarının zayıf noktası olan büyük maskelenmiş alanları başarıyla işleyen hızlı Fourier evrişim tabanlı bir mimari kullanır. Bulut işleme gerektiren birçok AI aracının aksine, Lama Cleaner tamamen yerel olarak çalışarak gizliliği korur ve abonelik maliyetlerini ortadan kaldırır. Araç, LaMa'nın yanı sıra LDM, ZITS, MAT ve Stable Diffusion tabanlı modeller dahil birden fazla inpainting motorunu destekleyerek kullanıcılara görevlerine en uygun motoru seçme esnekliği sağlar. Çeşitli görsel formatlarını destekler ve hem fotoğrafları hem de illüstrasyonları etkili biçimde işleyebilir. Yaygın kullanım alanları arasında seyahat fotoğraflarından turistlerin kaldırılması, mimari çekimlerden elektrik hatlarının silinmesi, taranan fotoğraflardan tarih damgalarının temizlenmesi ve portrelerde cilt kusurlarının giderilmesi yer alır. Pip ile kurulabilen Python paketi olarak ve tarayıcı erişimi için web tabanlı arayüz olarak sunulur. Güçlü AI inpainting, yerel işleme ve sıfır maliyet kombinasyonu, onu hızlı nesne kaldırma ihtiyacı duyan fotoğrafçılar, tasarımcılar ve içerik üreticileri için vazgeçilmez bir araç haline getirir.

Açık Kaynak
4.5

Hızlı Bilgi

Parametre1B
Tipdiffusion
LisansCreativeML Open RAIL-M
Yayınlanma2022-11
MimariU-Net diffusion model with additional mask input channel
Puan4.4 / 5
GeliştiriciStability AI

Bağlantılar

Etiketler

sd-inpainting
inpainting
mask
editing
Siteyi Ziyaret Et