PowerPaint icon

PowerPaint

Açık Kaynak
4.3
Tencent ARC

PowerPaint, Tsinghua Üniversitesi ve HKUST araştırmacıları tarafından Tencent ARC bünyesinde geliştirilen, tek bir birleşik model içinde birden fazla inpainting işlevini mümkün kılan öğrenilebilir görev promptları kavramını tanıtan çok yönlü açık kaynaklı bir inpainting modelidir. Her düzenleme görevi için ayrı özelleşmiş modeller gerektirmek yerine, PowerPaint paylaşılan model ağırlıkları içinde farklı davranışları etkinleştiren öğrenilebilir görev vektörleri kullanarak dört farklı modu destekler: metin rehberli nesne ekleme, nesne kaldırma, şekil rehberli inpainting ve görüntü genişletme (outpainting). Stable Diffusion omurgası üzerine ControlNet benzeri kontrol mekanizmasıyla zenginleştirilmiş model, kullanıcıların metin promptlarıyla bağlamsal içerik üretmesine, çevre dokuları koruyarak nesneleri temizce kaldırmasına, belirli maske şekilleri içinde içerik oluşturmasına veya görselleri orijinal sınırlarının ötesine genişletmesine olanak tanır. Bu çok görevli esneklik, düzenleme iş akışlarında farklı araçlar arasında geçiş yapma ihtiyacını ortadan kaldırır. Benchmark testlerinde PowerPaint, ayrı optimize edilmiş göreve özel modellerle rekabetçi sonuçlar elde eder; nesne kaldırma kalitesi LaMa ve MAT gibi uzman modellerle yarışır düzeydedir. Fotoğraf düzenleme, grafik tasarım mockup'ları, e-ticaret ürün görseli hazırlama, dijital sanat tuval genişletme ve sosyal medya içerik adaptasyonu başlıca kullanım alanlarıdır. PyTorch tabanlı model Hugging Face üzerinden Gradio demo arayüzü ve Diffusers entegrasyonuyla sunulur. 8GB ve üzeri VRAM önerilir. PowerPaint, çok görevli inpainting alanında yeni bir paradigma oluşturmuş ve birleşik görsel düzenleme araştırmalarına ilham vermeye devam etmektedir.

Inpainting

Öne Çıkan Özellikler

Ogrenilebilir Gorev Promptlari

Farkli inpainting gorevleri icin ozellestirilmis prompt gomumlmeleri ogrenerek tek bir modelle birden fazla gorevi yonetebilen yenilikci mekanizma

Birlesmis Coklu Gorev Modeli

Nesne kaldirma, metin yonlendirmeli inpainting, sekil yonlendirmeli ekleme ve outpainting gorevlerini tek modelde birlesitirir

Karsilastirma Lideri Performans

Birden fazla inpainting karsilastirmasinda ozellestirilmis tek gorevli modelleri esleme veya asma yetenegini gosteren ustun performans

Stable Diffusion Tabanli

Stable Diffusion uzerine insa edilmis olup mevcut SD ekosistemiyle uyumlu ve acik kaynakli model agirliklari ile erisilebilir

Hakkında

PowerPaint, ogrenilebilir gorev promptlari kavramini tanitan ve tek bir birlesmis model icinde birden fazla inpainting islevini birlestiren yenilikci bir AI inpainting modelidir. Tsinghua Universitesi ve HKUST arastirmacilari tarafindan gelistirilen PowerPaint, nesne kaldirma, metin yonlendirmeli icerik uretimi, seklinden bagimsiz inpainting ve goruntu genisletme (outpainting) gibi cesitli inpainting gorevlerini tek bir model altinda basariyla gerceklestirir. Bu cok gorevli yaklasim, goruntu duzenleme alaninda yeni bir paradigma ortaya koymustur.

Modelin teknik yeniligi, ogrenilebilir gorev vektorleri (learnable task prompts) konseptine dayanir. Her inpainting gorevi — nesne kaldirma, icerik ekleme, sekil tabanli duzenleme ve outpainting — icin ozel olarak optimize edilmis gorev vektorleri, modelin ayni agirliklar ile farkli davranislar sergilemesini saglar. Bu yaklasim, geleneksel olarak her gorev icin ayri model gerektiren paradigmayi ortadan kaldirir ve kaynak verimliligi saglar. Stable Diffusion omurgasi uzerine insa edilen mimari, ControlNet benzeri bir kontrol mekanizmasi ile zenginlestirilmistir. Gorev vektorleri, egitim sirasinda otomatik olarak ogrenir ve cikarim sirasinda kullanicinin sectigu goreve gore etkinlestirilir, boylece sorunsuz bir cok gorevli deneyim sunar.

PowerPaint'in destekledigi inpainting modlari kapsamli ve birbirini tamamlayicidir. Metin-yonlendirmeli nesne ekleme modunda kullanicilar, maskelenmis bolgeye eklemek istedikleri nesneyi metin ile tarif edebilir ve model baglamsal olarak uyumlu icerik uretir. Nesne kaldirma modunda maskelenmis bolge, cevre dokuyla uyumlu sekilde temizlenir ve goruntu butunlugu korunur. Sekil-yonlendirmeli inpainting modunda maskenin sekli korunarak icerik olusturulur. Outpainting modunda goruntunun sinirlari otesine dogal uzantilar eklenir. Bu dort mod arasinda gecis yapabilme esnekligi, PowerPaint'i son derece cok yonlu ve pratik bir arac kilar.

Uygulama senaryolari genis bir yelpazeyi kapsar ve farkli profesyonel gruplara hitap eder. Fotografcilar istenmeyen nesneleri kaldirirken ayni aracu yaratici icerik ekleme icin de kullanabilir. Grafik tasarimcilar, mockup ve konsept gorselleri icin hizli gorsel uretim yapabilir. E-ticaret sektorunde urun gorsellerinden arka plan temizligi ve alternatif arka plan uretimi tek is akisinda gerceklestirilebilir. Dijital sanatcilar tuval genisletme ve icerik varyasyonlari icin outpainting modunu kullanabilir. Sosyal medya icerik ureticileri, gorselleri farkli platform boyutlarina ve en boy oranlarina uyarlamak icin outpainting ozelliginden yararlanabilir.

Akademik alanda PowerPaint, cok gorevli inpainting yaklasiminin basarili bir ornegi olarak kabul edilmekte ve goruntu duzenleme arastirmalarinda referans olarak gosterilmektedir. Benchmark testlerinde, her gorev icin ayri optimize edilmis modellerle karsilastirildiginda rekabetci ve bazen ustun sonuclar elde eder. Ozellikle nesne kaldirma kalitesi, LaMa ve MAT gibi uzmanlasmis modellerle yarisirir duzeydedir. Metin-yonlendirmeli icerik uretiminde ise Stable Diffusion Inpainting ile benzer performans sergilerken, ek gorev modlari sayesinde daha fazla esneklik sunar.

Model, PyTorch tabanli olup Hugging Face uzerinden acik erisime sunulmustur. Gradio tabanli demo arayuzu ve Diffusers kutuphanesi entegrasyonu, kolay deneme ve uretim ortamina entegrasyonu saglar. GPU gereksinimi standart Stable Diffusion modellerine benzerdir (8GB ve uzeri VRAM onerilir). PowerPaint, cok gorevli inpainting alaninda referans model olarak kabul edilmekte ve goruntu duzenleme teknolojilerinin gelecekteki yonunu sekillendiren onemli bir calisma olarak degerlendirilmektedir. Birlesik model yaklasimi, gelecekteki cok gorevli goruntu isleme arastirmalari icin ilham kaynagi olmaya devam etmektedir.

Kullanım Senaryoları

1

Akilli Nesne Kaldirma

Baglam farkindali kaldirma promptu ile goruntulerden nesneleri dogal gorunen arka planla sorunsuzce kaldirma

2

Yaratici Icerik Ekleme

Metin aciklamasi ve maske sekli ile yonlendirilerek goruntuere yeni nesneler ve ogeler ekleme

3

Goruntu Genisletme

Outpainting gorev promptu ile goruntueri herhangi bir yonde tutarli sekilde genisletme

4

Arastirma ve Gelistirme

Coklu gorev inpainting arastirmalarinda temel model ve karsilastirma noktasi olarak kullanma

Artılar ve Eksiler

Artılar

  • Çok görevli inpainting — nesne kaldırma, ekleme, değiştirme ve outpainting
  • Görev adaptif prompt kodlama ile her görev için optimize sonuçlar
  • Metin yönlendirmeli inpainting ile hassas kontrol
  • Açık kaynak araştırma projesi

Eksiler

  • Ticari bir ürün olarak sunulmuyor
  • GPU gereksinimi yüksek
  • Araştırma aşamasında — kararlı sürüm yok
  • Belgelendirme yetersiz

Teknik Detaylar

Parametre

N/A

Mimari

Stable Diffusion based with task-specific learnable prompt tokens

Eğitim Verisi

Custom curated dataset with task-specific annotations for different inpainting modes

Lisans

Apache 2.0

Özellikler

  • Learnable Task Prompt (LTP) Mechanism
  • Context-Aware Object Removal
  • Text-Guided Inpainting
  • Shape-Guided Object Insertion
  • Image Outpainting
  • Stable Diffusion Architecture Base

Benchmark Sonuçları

MetrikDeğerKarşılaştırmaKaynak
FID Score (Object Removal)8.73SD Inpainting: 12.6PowerPaint Paper (ECCV 2024)
CLIP Score (Text-guided)27.4SD Inpainting: 25.8PowerPaint Paper (ECCV 2024)
Desteklenen GörevlerRemoval, Fill, Shape-guided, OutpaintingPowerPaint GitHub
Inference Süresi (512x512)~4s (50 steps, A100)PowerPaint GitHub

Mevcut Platformlar

hugging face
replicate

Sıkça Sorulan Sorular

İlgili Modeller

GPT Image 1 icon

GPT Image 1

OpenAI|Unknown

GPT Image 1, OpenAI'ın GPT mimarisi içinde doğal olarak entegre olan, birleşik bir otoregresif çerçevede dil anlama yetenekleri ile görsel üretim kapasitesini bir araya getiren en yeni ve en gelişmiş görsel üretim modelidir. Difüzyon tabanlı rakip modellerin aksine, GPT Image 1 metin üretimine benzer bir otoregresif süreçle görselleri token token üretir ve kullanıcıların üretilen çıktıları diyalog yoluyla iteratif olarak iyileştirebildiği doğal bir konuşma arayüzü sunar. Model, görseller içinde metin oluşturmada belirgin üstünlük gösterir ve difüzyon modellerinin tarihsel olarak zayıf kaldığı okunaklı ve doğru konumlandırılmış tipografi üretebilir. Hem metin açıklamalarından sıfırdan görsel üretimini hem de mevcut görsellerin doğal dil talimatlarıyla düzenlenmesini destekler; kullanıcılar fotoğraflarını yükleyip istenen değişiklikleri detaylı biçimde tanımlayabilir. GPT Image 1, birden fazla özne, karmaşık mekansal ilişkiler ve belirli nitelikler içeren kompozisyon promptlarını başarıyla anlayarak açıklanan öğeleri doğru biçimde yansıtan görsel olarak tutarlı sahneler üretir. Fotorealizmden illüstrasyona, yağlı boya tarzı resimlerden grafik tasarıma ve teknik diyagramlara kadar çeşitli görsel stilleri yüksek sadakatle ele alır. Düzenleme yetenekleri arasında mevcut görsellerin inpainting'i, stil dönüşümü, arka plan değiştirme, nesne ekleme veya kaldırma ve renk ayarlaması yer alır; bu özelliklerin tümü sezgisel konuşma metni girdisiyle kontrol edilir. Model, uygulama entegrasyonu için programatik erişim sunan OpenAI API aracılığıyla ve tüketici kullanımı için ChatGPT platformu üzerinden erişilebilir durumdadır. Kapsamlı güvenlik sistemleri zararlı veya politika ihlali içeren içerik üretimini etkin biçimde engeller. Üretilen tüm görseller OpenAI hizmet şartları kapsamında tam ticari kullanım haklarıyla kullanıcıya aittir. GPT Image 1, dil ve görsel yetenekleri sorunsuz harmanlayan çok modlu yapay zeka sistemlerine doğru atılmış önemli bir adımı temsil eder.

Tescilli
4.8
Adobe Generative Fill icon

Adobe Generative Fill

Adobe|N/A

Adobe Generative Fill, Adobe'nin tescilli Firefly görsel üretim modeli tarafından desteklenen ve doğrudan Adobe Photoshop'a entegre edilmiş güçlü bir üretken yapay zeka özelliğidir. 2023 yılında tanıtılan bu özellik, kullanıcıların tanıdık Photoshop arayüzünde doğal dil metin promptları kullanarak görsellere yeni içerik eklemesine, mevcut içerikleri değiştirmesine veya istenmeyen öğeleri kaldırmasına olanak tanır. Herhangi bir Photoshop seçim aracıyla bölge seçilir, bağlamsal görev çubuğuna açıklayıcı prompt yazılır ve saniyeler içinde üç farklı AI üretimi varyasyon sunulur. Üretilen içerik ayrı bir katmana yerleştirilir, böylece Photoshop'un profesyonellerin uzun yıllardır güvendiği tahribatsız düzenleme iş akışı korunur. Temel farklılaştırıcı unsur, Firefly'ın yalnızca lisanslı Adobe Stock görselleri, açık lisanslı içerikler ve kamu malı materyallerle eğitilmiş olmasıdır; bu yaklaşım rakip çözümlerin sunamadığı ticari güvenlik ve fikri mülkiyet tazminatı sağlar. Generative Fill çevredeki renk, aydınlatma, perspektif ve doku uyumunu otomatik olarak koruyarak sorunsuz ve doğal birleştirme sağlar. Generative Expand özelliği ile görselleri orijinal tuval sınırlarının ötesine genişletmek de mümkündür. Profesyonel uygulamalar arasında reklam kampanyası iterasyonu, fotoğraf post-prodüksiyonu, emlak mekan düzenlemesi, ürün fotoğrafçılığında arka plan değiştirme, moda renk modifikasyonu ve editöryal görsel hazırlama yer alır. Creative Cloud aboneliği ile aylık üretken kredi sistemiyle Photoshop'tan ve ayrıca Adobe Express ile web tabanlı Firefly uygulamasından erişilebilir. Content Credentials metadata'sı AI kullanımını belirterek şeffaflık standartlarını destekler ve profesyonel düzeyde en güvenli AI görsel düzenleme çözümü olarak öne çıkar.

Tescilli
4.7
FLUX Fill icon

FLUX Fill

Black Forest Labs|12B

FLUX Fill, Black Forest Labs tarafından geliştirilen FLUX model ailesinin profesyonel düzeyde bölge düzenleme, içerik doldurma ve görüntü genişletme için tasarlanmış özelleşmiş inpainting ve outpainting modelidir. Tüm FLUX modellerini güçlendiren 12 milyar parametreli Diffusion Transformer mimarisi üzerine inşa edilen FLUX Fill, bir girdi görüntüsü ve değiştirilecek bölgeyi gösteren ikili bir maske alarak çevreleyen bağlamla stil, aydınlatma, perspektif ve detay düzeyinde kusursuz şekilde uyumlu içerik üretir. Model, hem görüntü içindeki maskelenmiş alanların bağlamsal olarak uygun içerikle doldurulduğu inpainting görevlerinde hem de daha geniş kompozisyonlar oluşturmak için görüntü sınırlarının genişletildiği outpainting görevlerinde mükemmel performans sergiler. FLUX Fill, FLUX mimarisinin üstün prompt uyumunu kullanarak kullanıcıların maskelenmiş bölgede ne görünmesi gerektiğini metin açıklamalarıyla yönlendirmesine olanak tanır ve çıktı üzerinde hassas yaratıcı kontrol sağlar. Model, birden fazla malzeme ve dokuya yayılan bölgelerin doldurulması, mimari öğelerin yapısal sürekliliğinin korunması ve maskelenmiş yüz alanlarında fotorealistik insan özellikleri üretilmesi dahil karmaşık senaryoları işler. Tescilli bir model olarak FLUX Fill, Black Forest Labs'ın API'si ve Replicate, fal.ai dahil iş ortağı platformları üzerinden kullanım tabanlı fiyatlandırmayla erişilebilir. Profesyonel fotoğrafçılar istenmeyen öğeleri kaldırmak ve kompozisyonları genişletmek için, e-ticaret ekipleri ürün arka planı değiştirmek için, dijital sanatçılar yaratıcı kompozitleme için kullanır.

Tescilli
4.7
SD Inpainting icon

SD Inpainting

Stability AI|1B

Stable Diffusion Inpainting, Stability AI'nin Stable Diffusion modelinin görüntü inpainting görevleri için özel olarak ince ayar yapılmış uzmanlaşmış varyantıdır ve kullanıcıların metin promptları rehberliğinde maskelenmiş görsel bölgelerini bağlamsal olarak tutarlı içerikle doldurmasını sağlar. 2022'de yayınlanan model, latent difüzyon mimarisini temel alır ancak maske farkındalıklı işleme için ek giriş kanallarıyla genişletilmiştir; orijinal görsel, maske ve maskelenmiş görsel U-Net mimarisine ek kanallar olarak beslenir. RunwayML iş birliğiyle geliştirilen v1.5 inpainting modeli 595K özenle seçilmiş örnek üzerinde eğitilmiş, topluluk tarafından geliştirilen SDXL tabanlı varyantlar ise daha yüksek çözünürlük ve gelişmiş kalite sunmuştur. Yaygın kullanım alanları arasında fotoğraflardan istenmeyen nesnelerin sorunsuz kaldırılması, hasarlı veya eksik bölgelerin tamamlanması, sahnelere yeni öğeler eklenmesi ve filigran ile metin katmanlarının temizlenmesi yer alır. Profesyonel uygulamalar fotoğraf post-prodüksiyonu, reklam görseli hazırlama, emlak fotoğrafçılığında mekan düzenleme, ürün fotoğrafçılığında arka plan değiştirme ve dijital sanat iş akışlarını kapsar. Model; AUTOMATIC1111 WebUI, ComfyUI, InvokeAI ve Hugging Face Diffusers kütüphanesi gibi popüler açık kaynak arayüzlerden kolayca erişilebilir. Maskeler fırça araçlarıyla manuel veya SAM gibi segmentasyon modelleriyle otomatik oluşturulabilir ve ControlNet entegrasyonu hassas çıktı yönlendirmesi için ek kontrol katmanları sağlar. CreativeML Open RAIL-M lisansıyla yayınlanan model, 8GB VRAM'li GPU'larda çalışır ve xFormers gibi optimizasyonları destekleyerek en yaygın açık kaynak inpainting çözümlerinden biri olmaya devam eder.

Açık Kaynak
4.4

Hızlı Bilgi

ParametreN/A
Tipdiffusion
LisansApache 2.0
Yayınlanma2023-12
MimariStable Diffusion based with task-specific learnable prompt tokens
Puan4.3 / 5
GeliştiriciTencent ARC

Bağlantılar

Etiketler

powerpaint
versatile
inpainting
Siteyi Ziyaret Et