StableSR icon

StableSR

Açık Kaynak
4.3
Jianyi Wang

StableSR, Jianyi Wang ve işbirlikçileri tarafından geliştirilen, gerçekçi detay sentezi ile yüksek kaliteli görsel büyütme için önceden eğitilmiş bir Stable Diffusion modelinin üretken öncülünden yararlanan yenilikçi bir süper çözünürlük modelidir. 2023'te Apache 2.0 lisansı altında yayınlanan StableSR, difüzyon tabanlı üretken modellerin görsel süper çözünürlük görevine ilk başarılı uygulamalarından birini temsil eder. Model düşük çözünürlüklü giriş görselinden bilgiyi her zaman adımında Stable Diffusion gürültü giderme sürecine enjekte eden zaman farkındalıklı bir kodlayıcı ile orijinal görsele sadakat ve üretilen detayların zenginliği arasında denge kuran kontrol edilebilir özellik sarma modülü tanıtır. Bu mimari StableSR'nin geleneksel regresyon tabanlı süper çözünürlük yöntemlerinin elde edemeyeceği dikkat çekici derecede gerçekçi dokular ve ince detaylarla büyütülmüş görseller üretmesini sağlar. Kontrol edilebilir özellik sarma kullanıcıların üretken iyileştirmenin gücünü ayarlamasına olanak tanır ve girdiye yakından uyan muhafazakar restorasyondan daha fazla sentezlenmiş detay ekleyen agresif iyileştirmeye kadar bir yelpaze sunar. StableSR fotoğraflar, sanat eserleri, ekran görüntüleri ve metin içeren görseller dahil çeşitli görsel türlerini işler ve özellikle cilt, saç, kumaş ve yaprak gibi doğal dokuları restore etmede güçlüdür. Model kod ve önceden eğitilmiş ağırlıkları GitHub üzerinde mevcut olan tamamen açık kaynaklıdır ve mevcut Stable Diffusion altyapısıyla uyumludur. StableSR düşük çözünürlüklü görselleri restore eden fotoğrafçılar, referans materyali büyüten dijital sanatçılar ve sınırlı kaynak görsellerinden yüksek çözünürlüklü çıktılara ihtiyaç duyan içerik üreticileri için değerlidir. Difüzyon tabanlı yaklaşımı üretken süper çözünürlük yöntemlerindeki sonraki araştırmaları etkilemiştir.

Görsel Büyütme

Öne Çıkan Özellikler

Stable Diffusion Onceli

Onceden egitilmis Stable Diffusion'in gorsel bilgisini metin prompti gerektirmeden restorasyon icin kullanan yenilikci difuzyon onceli yaklasimi

Kontrol Edilebilir Sadakat Dengesi

CFW modulu ile orijinal goruntye sadakat ve uretilen detay kalitesi arasindaki dengeyi kullanici tarafindan ayarlanabilir parametre ile kontrol etme

Zengin Doku Uretimi

GAN tabanli yontemlere kiyasla daha ayrintili ve cesitli dokular uretarak daha gercekci ve dogal gorunen restorasyon sonuclari saglar

Hafif Uyarlama Modulleri

Dondurulmus Stable Diffusion omurgasina hafif zaman farkindali kodlayici ve CFW modulu ekleyerek verimli uyarlama saglar

Hakkında

StableSR (Gercek Dunya Goruntu Super Cozunurlugu icin Difuzyon Onceli Kullanma), yuksek kaliteli goruntu buyutme icin onceden egitilmis Stable Diffusion modelinin uretken gucunu kullanan yenilikci bir super cozunurluk modelidir. 2023 yilinda Jianyi Wang ve arastirma ekibi tarafindan gelistirilen StableSR, difuzyon modellerinin goruntu restorasyonunda nasil etkili bir sekilde kullanilabilecegini gosteren onemli bir calismadir. Onceden egitilmis uretken modellerin gorsel priorlerini koruyarak bunlari super cozunurluk gorevine adapte etme yaklasimi ile alanda yeni bir paradigma ortaya koymustur.

Modelin teknik yaklasimi, onceden egitilmis Stable Diffusion modelini dondurup uzerine egitileblir bir zaman adimi tahmincisi ve ozellik sarma modulu ekleyerek calisir. Bu tasarim, Stable Diffusion'in ogrendigi zengin gorsel priorlari korurken, bunlari super cozunurluk gorevine uyarlar. Zaman-adimi-farkindalikli kodlayici (time-aware encoder), dusuk cozunurluklu girdi goruntusunu difuzyon surecinin uygun adimiyla eslestirerek kontrol saglar. Ozellik sarma modulu ise ara katman ozelliklerini manipule ederek restorasyon kalitesini arttirir. Stokastik renk eslestirme teknigi ile uretilen goruntulerin renk tutarliligi ve ton dengesi iyilestirilir ve girdi ile cikti arasinda tutarli bir gorsel deneyim saglanir.

StableSR'in onemli avantajlarindan biri, CFG (Classifier-Free Guidance) olcegi araciligiyla restorasyon sadakati ile uretken yaraticilik arasinda ince ayar yapilabilmesidir. Dusuk CFG degerleri daha sadik ama daha az detayli sonuclar uretirken, yuksek degerler daha zengin dokular ancak potansiyel olarak daha fazla halusinasyon iceren sonuclar verir. Bu esneklik, kullanicilarin farkli kullanim senaryolarina gore optimal ayarlari secmelerini saglar. Ayrica ColorFix teknigi ile uretilen goruntulerin renk paleti orijinal goruntule uyumlu hale getirilir. Bu ozellik, fotografik sadakatin onemli oldugu profesyonel is akislarinda buyuk deger tasir.

Uygulama alanlari genis bir yelpazeyi kapsar. Eski fotograflarin restorasyonu ve iyilestirilmesi, dusuk cozunurluklu web gorsellerinin buyutulmesi, dijital sanat calismalarinda detay artirimi ve baski oncesi goruntu hazirligi en yaygin kullanim senaryolaridir. Gayrimenkul fotografciligi, urun fotografciligi ve sosyal medya icerigi hazirlama gibi ticari uygulamalarda da etkili sonuclar saglar. Yuz, manzara ve mimari fotograf gibi farkli icerik turlerinde tutarli kalite sunar. Arsiv dijitalizasyonu ve muze koleksiyon iyilestirmesi gibi kurumsal kullanim senaryolarinda da basariyla uygulanmaktadir.

Performans acisindan StableSR, diger super cozunurluk yontemlerine kiyasla ozellikle algisal kalite metriklerinde ustun sonuclar elde eder. LPIPS ve FID gibi algiya dayali olcumlerde rekabetci performans sergilerken, gercekci doku uretiminde CNN tabanli yontemleri belirgin sekilde geride birakir. Modelin GPU bellegi gereksinimi, Stable Diffusion omurgasi nedeniyle nispeten yuksektir (8GB ve uzeri onerilir), ancak tile-based isleme destegi buyuk goruntulerin sinirli kaynaklarla islenmesine olanak tanir. Cikti goruntulerin netlik ve detay zenginligi, kaynak tuketimini haklilastirir.

StableSR, difuzyon modellerinin goruntu restorasyonunda kullanilmasina onculuk etmis ve bu alandaki sonraki calismalara temel teskil etmistir. AUTOMATIC1111'in Stable Diffusion WebUI'si ve ComfyUI gibi populer platformlara uzanti olarak entegre edilebilir ve boylece genis bir kullanici kitlesine ulasir. Model, arastirma amacli acik kaynakli olarak sunulmakta olup, difuzyon tabanli super cozunurluk arastirmalarinda referans model olarak kabul edilmektedir. Sonraki SUPIR ve DiffBIR gibi modellere ilham vermesiyle goruntu restorasyonu alanindaki etkisi kalici ve belirleyici olmustur. Kullanicilara sunulan detayli dokumantasyon ve topluluk rehberleri, modelin verimli kullanimi konusunda destek saglamakta ve yeni baslayanlar icin ogrenme surecini kolaylastirmaktadir.

Kullanım Senaryoları

1

Fotograf Buyutme ve Iyilestirme

Dusuk cozunurluklu fotograflari zengin doku detaylari ile yuksek cozunurluuge buyuterek baski veya ekran icin hazirlama

2

Eski Medya Restorasyonu

Eski fotograflar, taranmis belgeler ve arsiv goruntulerni modern kalite standartlarina yukseltme

3

Dijital Sanat Buyutme

Dijital sanat eserlerini ve illustrasyonlari detay kaybetmeden buyuk boyutlara buyutme

4

Arastirma ve Gelistirme

Difuzyon tabanli goruntu restorasyon arastirmalarinda temel model ve referans noktasi olarak kullanma

Artılar ve Eksiler

Artılar

  • Stable Diffusion tabanlı süper çözünürlük modeli
  • Doğal doku oluşturma yeteneği — yapay keskinleştirme yerine gerçekçi detay
  • 4x büyütme kapasitesi
  • Açık kaynak — ComfyUI ve A1111 entegrasyonu mevcut

Eksiler

  • SD modeli yüklediği için yüksek VRAM gereksinimi
  • İşleme süresi geleneksel upscale yöntemlerine göre çok uzun
  • Bazen kaynak görselde olmayan detaylar ekleyebiliyor
  • Yüz bölgelerinde artefaktlar oluşabiliyor

Teknik Detaylar

Parametre

N/A

Mimari

Stable Diffusion with time-aware encoder and controllable feature wrapping

Eğitim Verisi

DIV2K, Flickr2K and OST datasets with synthetic degradation

Lisans

Apache 2.0

Özellikler

  • Stable Diffusion Generative Prior
  • Time-Aware Encoder Module
  • Controllable Feature Wrapping (CFW)
  • Frozen Backbone Fine-Tuning
  • Real-World Degradation Support
  • Adjustable Fidelity-Quality Trade-off

Benchmark Sonuçları

MetrikDeğerKarşılaştırmaKaynak
PSNR (DIV2K-Val, ×4)26.50 dBSwinIR: 27.45 dB (Set5)arXiv 2305.07015
LPIPS (DIV2K-Val)0.250SUPIR: 0.195arXiv 2305.07015
Algısal Kalite (FID)24.70SwinIR: 42.30 (daha yüksek = daha kötü)arXiv 2305.07015
Temel ModelStable Diffusion v2.1SUPIR: SDXLGitHub IceClear/StableSR

Mevcut Platformlar

hugging face
replicate

Sıkça Sorulan Sorular

İlgili Modeller

Real-ESRGAN icon

Real-ESRGAN

Tencent ARC|N/A

Real-ESRGAN, Tencent ARC Lab'da Xintao Wang ve işbirlikçileri tarafından geliştirilen, düşük çözünürlüklü, bozulmuş veya sıkıştırılmış görselleri dikkat çekici detay kurtarmayla yüksek çözünürlüklü çıktılara dönüştüren açık kaynak görsel büyütme ve restorasyon modelidir. 2021'de BSD lisansı altında yayınlanan Real-ESRGAN, sıkıştırma yapıları, gürültü, bulanıklık ve alt örnekleme dahil gerçek dünya görsellerinde bulunan karmaşık ve öngörülemeyen kalite kaybını simüle eden yüksek dereceli bozulma modelleme yaklaşımını tanıtarak orijinal ESRGAN mimarisi üzerine inşa edilmiştir. Model üretici ağı olarak Residual-in-Residual Dense Block'lu U-Net mimarisi kullanır ve keskin, doğal görünümlü büyütülmüş sonuçlar üretmek için algısal kayıp, GAN kaybı ve piksel kaybı kombinasyonuyla eğitilmiştir. Real-ESRGAN 2x, 4x ve daha yüksek büyütme faktörlerini destekler ve genel amaçlı fotoğraf modelinin yanı sıra anime ve illüstrasyon içeriği için özelleştirilmiş model varyantları içerir. Model yalnızca sentetik bozulma desenleri üzerinde eğitilen öncülü ESRGAN'a kıyasla gerçek dünya bozulmalarını çok daha iyi işler. Real-ESRGAN masaüstü araçlar, web servisleri, mobil uygulamalar ve profesyonel görsel düzenleme iş akışları dahil sayısız uygulamaya entegre edilerek en yaygın dağıtılan AI büyütme çözümlerinden biri haline gelmiştir. Model hem CPU hem de GPU'da verimli çalışır ve daha hafif RealESRGAN-x4plus-anime varyantı tüketici donanımı için optimize edilmiştir. Önceden eğitilmiş ağırlıklarla GitHub üzerinde mevcut tamamen açık kaynak bir proje olarak Upscayl ve çeşitli ComfyUI düğümleri gibi popüler araçların omurgası olarak hizmet eder. Real-ESRGAN doğal görünümü korurken ve gerçekçi detay eklerken görsel çözünürlüğünü artırması gereken fotoğrafçılar, içerik üreticileri ve oyun geliştiricileri için vazgeçilmezdir.

Açık Kaynak
4.7
Topaz Gigapixel AI icon

Topaz Gigapixel AI

Topaz Labs|N/A

Topaz Gigapixel AI, Topaz Labs tarafından geliştirilen, profesyonel fotoğrafçılar, grafik tasarımcılar ve görüntü işleme uzmanları için endüstri standardı bir araç olarak konumlanan AI destekli görsel büyütme ve iyileştirme için ticari bir masaüstü uygulamasıdır. Windows ve macOS'ta kullanılabilen yazılım, ince detayları, dokuları ve keskinliği koruyarak ve hatta geliştirerek görselleri yüzde 600'e kadar büyütmek için birden fazla AI modelini birleştiren tescilli bir hibrit sinir ağı mimarisi kullanır. Topaz Gigapixel AI yüzler, standart fotoğrafçılık, bilgisayar grafikleri ve düşük çözünürlüklü kaynaklar dahil farklı içerik türleri için özelleştirilmiş işleme modları içerir ve her mod hedef içeriği için mümkün olan en iyi sonuçları üretmek üzere optimize edilmiştir. Yazılım büyütme sırasında yüz detaylarını iyileştiren akıllı yüz algılama ve geliştirme özelliğine sahiptir ve çok düşük çözünürlüklü kaynak görsellerden bile doğal görünümlü sonuçlar üretir. Topaz Gigapixel AI büyük görsel hacimlerini işlemek için toplu işleme desteği sunar ve Adobe Lightroom ile Photoshop'a eklenti olarak entegre olarak profesyonel fotoğrafçılık iş akışlarına sorunsuz uyum sağlar. Uygulama görselleri GPU hızlandırması kullanarak kullanıcının makinesinde yerel olarak işler ve internet bağlantısı gerektirmeden gizlilik ve hızlı işleme sağlar. Çıktı kalitesi ticari büyütme yazılımları arasında en iyilerden biri olarak kabul edilir ve özellikle doğal dokuları korumada ve birçok AI büyütücüde yaygın olan yapay yumuşatmadan kaçınmada güçlüdür. Tek seferlik satın alma veya abonelik modeliyle tescilli bir ürün olarak Topaz Gigapixel AI özellikle baskıları büyüten profesyonel fotoğrafçılar, mülk görsellerini iyileştiren emlak fotoğrafçıları, kanıt görsellerini geliştiren adli analistler ve tarihi fotoğrafları modern çözünürlük standartlarına restore eden arşivciler tarafından değerlidir.

Tescilli
4.6
Upscayl icon

Upscayl

Upscayl Team|N/A

Upscayl, Real-ESRGAN ve diğer süper çözünürlük modelleri üzerine inşa edilmiş, AI destekli görsel büyütme için ücretsiz ve açık kaynak bir masaüstü uygulamasıdır. Nayam Amarshe ve TGS963 tarafından geliştirilen Upscayl, gelişmiş AI görsel büyütmeyi Windows, macOS ve Linux platformlarında teknik olmayan kullanıcılar için erişilebilir kılan kullanıcı dostu bir grafik arayüz sağlar. Uygulama birden fazla AI büyütme modelini Electron tabanlı bir masaüstü uygulamasında sarmalayarak kullanıcıların herhangi bir komut satırı bilgisi veya Python ortamı kurulumu olmadan yalnızca birkaç tıklamayla görsel çözünürlüğünü artırmasına olanak tanır. Upscayl genel fotoğrafçılık, dijital sanat, anime ve keskinleştirme dahil farklı içerik türleri için optimize edilmiş önceden yüklenmiş birkaç büyütme modeli içerir ve her model hedef içeriğine uygun farklı estetik özellikler üretir. Kullanıcılar 2x, 3x veya 4x büyütme faktörlerini seçebilir ve toplu işleme yoluyla tek tek görselleri veya tüm klasörleri işleyebilir. Uygulama PNG, JPG ve WebP dahil yaygın görsel formatlarını destekler ve çıktı formatı ile kalite ayarları için seçenekler sunar. Upscayl ayrıca özel model yüklemeyi destekleyerek kullanıcıların topluluktan ek NCNN uyumlu büyütme modelleri içe aktarmasına olanak tanır. AGPL-3.0 lisansı altında yayınlanan Upscayl kodu GitHub üzerinde mevcut olan tamamen açık kaynaklıdır ve geniş bir kullanıcı ve katkıda bulunan topluluğu edinmiştir. Uygulama tamamen yerel olarak çalışır ve hassas görseller için gizlilik sağlayarak internet bağlantısı gerektirmez. Upscayl özellikle abonelik veya bulut işleme bağımlılığı olmadan görsel kalitesini artırmak için basit ve ücretsiz bir çözüme ihtiyaç duyan fotoğrafçılar, grafik tasarımcılar ve içerik üreticileri arasında popülerdir.

Açık Kaynak
4.5
CodeFormer icon

CodeFormer

Tencent ARC|N/A

CodeFormer, Nanyang Teknoloji Üniversitesi ve Tencent ARC iş birliğiyle geliştirilen, NeurIPS 2022 konferansında sunulan son teknoloji kör yüz restorasyon modelidir. Model, ciddi biçimde bozulmuş yüz görsellerini yüksek sadakatle restore etmek için ayrık codebook arama mekanizmasına sahip benzersiz bir Transformer tabanlı mimari kullanır. En ayırt edici özelliği, 0.0 ile 1.0 arasında değişen ayarlanabilir w parametresiyle kullanıcılara kimlik koruma ile restorasyon kalitesi arasında hassas ve esnek kontrol imkanı sunmasıdır. Mimari olarak üç temel bileşenden oluşur: yüksek kaliteli yüz veri setlerinden ayrık görsel kodlar öğrenen VQGAN encoder-decoder, bu öğrenilmiş temsilleri kalıcı olarak depolayan ayrık codebook ve restorasyon sırasında optimal kod kombinasyonlarını tahmin eden güçlü Transformer modülü. Bu yaklaşım, modelin ciddi bozulmalarda bile inandırıcı ve gerçekçi yüz detayları üretmesini sağlar çünkü bilgiyi bozuk girdiden değil önceden öğrenilmiş yüksek kaliteli ön bilgilerden alır. CelebA-HQ ve WIDER-Face veri setlerinde yapılan kapsamlı benchmark testlerinde CodeFormer, FID, NIQE ve kimlik benzerliği metriklerinde önceki yöntemlere kıyasla tutarlı biçimde üstün sonuçlar elde etmiştir. Pratik kullanım alanları arasında eski aile fotoğraflarının restorasyonu, yapay zeka ile üretilmiş görsellerdeki yüz kalitesinin iyileştirilmesi, düşük çözünürlüklü video karelerinden yüz detayı çıkarma ve profesyonel fotoğraf rötuşlama yer alır. Açık kaynaklı olan model, ComfyUI, AUTOMATIC1111 WebUI ve Fooocus gibi popüler araçlarla entegre çalışır ve Replicate API ile Hugging Face Spaces üzerinden bulut tabanlı erişim sunar.

Açık Kaynak
4.6

Hızlı Bilgi

ParametreN/A
Tipdiffusion
LisansApache 2.0
Yayınlanma2023-05
MimariStable Diffusion with time-aware encoder and controllable feature wrapping
Puan4.3 / 5
GeliştiriciJianyi Wang

Bağlantılar

Etiketler

stablesr
diffusion
super-resolution
image-upscale
Siteyi Ziyaret Et