SUPIR'i Real-ESRGAN'dan farkli kilan nedir?

SUPIR ve Real-ESRGAN goruntu restorasyonuna temelden farkli yaklasimlar benimser. Real-ESRGAN bozulmus goruntueri temiz versiyonlara eslesmeyi ogrenen GAN tabanli bir mimari kullanarak hizli ve tutarli sonuclar uretir. SUPIR ise bir dil modelinden semantik rehberlikle Stable Diffusion XL'i uretici omurga olarak kullanarak GAN tabanli yontemlerin bulanik sonuclar urettigi ciddi bozulmus goruntulerde foto-gercekci detaylar uretebilir. SUPIR asiri bozulmalarda daha yuksek kalite uretir ancak cok daha fazla GPU bellegi ve isleme suresi gerektirir.

SUPIR icin donanim gereksinimleri nelerdir?

SUPIR, SDXL omurgasi ve cok bilesenli mimarisi nedeniyle onemli donanim gereksinimlerine sahiptir. Tam modeli calistirmak icin en az 24GB VRAM'a sahip bir GPU onerilir — uygun GPU'lar arasinda NVIDIA RTX 4090, A5000, A6000 veya A100 bulunur. Model yarim hassasiyet ve azaltilmis toplu boyutlar gibi optimizasyonlarla 12-16GB VRAM'a sahip GPU'larda azaltilmis ayarlarla calisabilir ancak sonuclar biraz dusebilir. Asiri isleme suresi nedeniyle yalnizca CPU operasyonu pratik degildir.

SUPIR restorasyon icin dil modellerini nasil kullanir?

SUPIR, giris goruntunun aciklayici basliklarini otomatik olarak uretmek icin buyuk bir dil-goruntu modeli olan LLaVA'yi entegre eder. Bu basliklar SDXL difuzyon surecine semantik rehberlik saglayarak modelin restore edilmis goruntude hangi nesnelerin, dokularin ve detaylarin bulunmasi gerektigini anlamasina yardimci olur. Ornegin baslik bir insan yuzu tanimliyorsa model gercekci yuz ozellikleri uretmesi gerektigini bilir. Bu semantik farkindalik SUPIR'i salt piksel duzeyinde restorasyon yaklasimlarindan ayirir ve yanlis detay uretimini onlemeye yardimci olur.

SUPIR bir goruntuyu islemek icin ne kadar surede tamamlar?

Isleme suresi giris goruntu boyutuna, difuzyon adimi sayisina ve GPU donanimina baglidir. RTX 4090 veya A100 gibi ust duzey bir GPU'da standart bir goruntuyu islemek genellikle 30 saniye ile 2 dakika arasinda surer. Daha yuksek kalite icin daha fazla difuzyon adimiyla isleme birkac dakikaya uzayabilir. Bellek optimizasyonu etkinlestirilmis daha az guclu GPU'larda isleme suresi onemli olcude artabilir. Kalite ve hiz arasindaki denge difuzyon adimi sayisi ayarlanarak kontrol edilebilir.

SUPIR acik kaynak mi?

Evet, SUPIR'in kodu ve model agirliklari GitHub'da mevcuttur. Arastirma kodu akademik ve arastirma amaclari icin yayinlanmistir ancak model SDXL ve LLaVA uzerine insa edildigi ve her birinin kendi lisanslama gereksinimleri oldugu icin ticari kullanim icin belirli lisans kosullari dikkatle incelenmelidir. Bagimli modeller — SDXL ve LLaVA — hedeflenen kullanim durumunuza bagli olarak ek kisitlamalar getirebilecek ayri lisanslara sahiptir.

SUPIR goruntuerdeki metni restore edebilir mi?

SUPIR, LLaVA aciklama modelinden gelen semantik anlayisi sayesinde goruntuerdeki metni restore etmeye calisabilir. Model goruntudeki metin ogelerini tandiginda restorasyon sirasinda makul metin karakterleri uretebilir. Ancak metin restorasyonu SUPIR icin bile zorlayici olmayi surdurmektedir — ciddi sekilde bozulmus metin yanlis karakterlerle restore edilebilir ve model dogru metin yeniden yapilandirmasini garanti edemez. Kritik metin restorasyonu icin manuel dogrulama her zaman onerilir.

SUPIR

Açık Kaynak

4.6

Tencent ARC

SUPIR, Tencent ARC araştırmacıları tarafından 2024'te geliştirilen, foto-gerçekçi görsel iyileştirme için büyük ölçekli bir Stable Diffusion modeli olan SDXL'in üretken gücünden yararlanan gelişmiş bir AI görsel restorasyon ve büyütme modelidir. SUPIR Scaling Up to Excellence: Practicing Model Scaling for Photo-Realistic Image Restoration in the Wild ifadesinin kısaltmasıdır. Model giriş görselinde bulunan belirli kalite kaybı türlerini analiz eden ve restorasyon sürecini yönlendirmek için akıllı metin komutları üreten bozulma farkındalıklı bir kodlayıcı tanıtır ve bu sayede difüzyon modeline ne tür içeriğin nasıl restore edilmesi gerektiğini etkili bir şekilde bildirir. Bu akıllı yönlendirme yaklaşımı SUPIR'in basit piksel enterpolasyonunun ötesine geçerek anlamsal olarak anlamlı detay üreten dikkat çekici derecede detaylı ve doğal görünümlü büyütülmüş sonuçlar üretmesini sağlar. Model büyütme sırasında gerçekçi dokular, yüz hatları, metin ve ince desenleri sentezlemek için SDXL'in önceden eğitilmiş ağırlıklarına gömülü geniş görsel bilgiden yararlanır. SUPIR özellikle eski fotoğraflar, ağır sıkıştırılmış web görselleri ve düşük çözünürlüklü çekimler dahil geleneksel büyütme yöntemlerinin başarısız olduğu ciddi şekilde bozulmuş görselleri restore etmede üstün performans gösterir. Model tutarlı içerik ve doğal görünümü koruyarak yüksek büyütme faktörlerini destekler. Salt araştırma lisansı altında yayınlanan SUPIR kod ve ağırlıkları GitHub üzerinde mevcut olan açık kaynaklıdır. SDXL omurgası nedeniyle hesaplama açısından yoğun olsa da model AI destekli görsel restorasyon kalitesinin mevcut sınırlarını temsil eden sonuçlar üretir. SUPIR özellikle arşiv görsellerini restore eden profesyonel fotoğrafçılar, güvenlik görüntülerini iyileştiren adli analistler ve sınırlı kaynak materyalden maksimum kaliteye ihtiyaç duyan dijital sanatçılar için değerlidir.

Görsel Büyütme

Siteyi Ziyaret Et

Öne Çıkan Özellikler

SDXL Uretici Omurga

Stable Diffusion XL'i uretici oncel olarak kullanarak olaganustu algisal kalite ve gercekci detay uretimiyle restorasyon yapabilir

Semantik Farkindali Restorasyon

LLaVA dil modeli ile otomatik goruntu aciklama yaparak icerige uygun detaylar ureten semantik farkindali restorasyon sureci

Asiri Bozulma Yonetimi

Asiri bulaniklik, yogun gurultu ve cok dusuk cozunurluk dahil geleneksel yontemlerin basarisiz oldugu ciddi bozulmalari isle edebilir

Son Teknoloji Kalite

Goruntu restorasyon kalitesinin mevcut sinirini temsil eden, alanda en yuksek algisal kalite sonuclarini elde eden model

Hakkında

SUPIR (Mukemmellige Olcekleme: Vahsi Dogada Foto-Gercekci Goruntu Restorasyonu icin Model Olcekleme Pratigi), yuksek kaliteli goruntu restorasyonu ve buyutme icin buyuk olcekli uretken modellerin gucunu kullanan ileri duzey bir yapay zeka modelidir. 2024 yilinda arastirmacilar tarafindan gelistirilen SUPIR, ozellikle agir bozulmus, dusuk cozunurluklu ve kalitesiz goruntulerin foto-gercekci bir sekilde yeniden olusturulmasinda cigir acacak sonuclar sunmaktadir. Goruntu restorasyonu alaninda model olcekleme prensibini basariyla uygulayan ilk calismalardan biridir.

Modelin teknik altyapisi, SDXL (Stable Diffusion XL) difuzyon modelini temel alir ve bunu goruntu restorasyonuna uyarlamak icin ozel egitim stratejileri ve mimari modifikasyonlar kullanir. SUPIR'in en dikkat cekici ozelligi, metin promptlari araciligiyla restorasyon surecini yonlendirebilme yetenegidir. Kullanicilar, restore edilecek goruntunun icerigini tanimlayan metin girdileri saglayarak modelin daha dogru ve detayli sonuclar uretmesini yonlendirebilir. Bu metin-goruntu eslestirme mekanizmasi, CLIP vizyonu ve dil modelleri araciligiyla gerceklestirilir ve modelin semantik anlayisini onemli olcude guclendirir. Goruntudeki nesnelerin ne oldugunu anlamasi, restorasyon kalitesini belirgin sekilde arttirir.

SUPIR, 2 milyardan fazla parametre iceren buyuk model kapasitesi ile agir bozulmus goruntulerde bile gercekci dokular, keskin kenarlar ve tutarli yapisal detaylar uretebilir. Negative prompting destegi sayesinde, istenmeyen artefaktlarin olusumu kontrol altina alinabilir ve cikti kalitesi daha da iyilestirilebilir. Ayrica farkli restorasyon kalitesi ve hiz dengeleri sunan cesitli ornekleme adimlari ve CFG (Classifier-Free Guidance) olcegi ayarlari ile kullanicilar, ihtiyaclarina gore esneklik saglar. Dusuk adim sayilari hizli sonuclar verirken, yuksek adim sayilari daha detayli ve kaliteli ciktilar olusturur.

Kullanim alanlari profesyonel ve kisisel ihtiyaclari genis bir yelpazede kapsar. Eski aile fotograflarinin restorasyonu, dusuk cozunurluklu guvenlik kamerasi goruntulerin iyilestirilmesi, web'den indirilen kucuk gorsellerin yuksek cozunurluge cikarilmasi ve dijital sanatta detay zenginlestirme en yaygin senaryolardir. Yuz restorasyonunda ozellikle basarili olan SUPIR, portre fotograflarinda goz, agiz ve cilt dokularini dogal bir sekilde yeniden olusturabilir. Emlak fotografciligi, e-ticaret gorsel hazirliginda ve baski oncesi sureclerinde de profesyonel duzey sonuclar saglar. Tarihi fotograf arsivlerinin dijitalize edilmesinde ve muze koleksiyonlarinin iyilestirilmesinde de tercih edilir.

Modelin zorluk gosterebilecegi alanlar da mevcuttur. Buyuk model boyutu nedeniyle yuksek VRAM gereksinimleri (en az 12GB, ideal olarak 24GB ve uzeri GPU bellegi) gerektirir ve islem sureleri diger super cozunurluk modellerine kiyasla daha uzundur. Ancak bu kaynak tuketimi, uretilen sonuclarin gercekcilik ve detay zenginligi ile dengelenmektedir. Toplu isleme icin batchleme ve tile-based islem destegi sunulmaktadir. Hafiza kisitlamasi olan sistemlerde tile boyutunu kucultmek ile makul sonuclar elde etmek mumkundur.

SUPIR, goruntu restorasyonu alaninda buyuk dil ve goruntu modellerinin potansiyelini gostermesi acisindan onemli bir kilometre tasidir. Metin yonlendirmeli restorasyon yaklasimi, kullanicilara goruntu iyilestirme sureci uzerinde benzersiz bir kontrol saglar. Arastirma toplulugunca buyuk ilgi goren model, super cozunurluk ve goruntu restorasyon arastirmalarinin gelecekteki yonunu sekillendirmeye devam etmektedir. GitHub uzerinden acik kaynakli olarak erisileblir olan SUPIR, akademik ve deneysel kullanim icin ideal bir aractir ve difuzyon tabanli restorasyonun sinirlarini zorlayan referans bir calismadir. Gelecekte daha da buyuk modellerin restorasyon kalitesini nasil artirabilecegine dair onemli ipuclari sunan SUPIR, alandaki arastirma ve gelistirme cabalarina yol gostermeye devam etmekte ve yapay zeka destekli goruntu iyilestirme teknolojilerinin evriminde kritik bir rol ustlenmektedir.

Kullanım Senaryoları

Ciddi Goruntu Restorasyonu

Asiri bozulmus, bulanik veya cok dusuk cozunurluklu goruntueri yuksek kaliteyle restore etme

Arsiv Fotograf Kurtarma

Tarihi veya arsiv fotograflarini buyuk olcude iyilestirerek modern kalite standartlarina yaklasmalarini saglama

Adli Goruntu Iyilestirme

Guvenlik kamerasi ve dusuk kaliteli goruntulerdeki detaylari ortaya cikararak adli analiz icin iyilestirme

Profesyonel Baski Hazirligi

Dusuk cozunurluklu goruntueri buyuk baski formatlarinda kullanilabilir kaliteye yukselterek profesyonel baski hazirligi yapma

Artılar ve Eksiler

Artılar

SDXL tabanlı görsel restorasyon ve upscale — fotoğerçekçi sonuçlar
Yüz detayları ve doku bilgisini koruyarak büyütme
Metin prompt'ları ile restorasyon yönlendirmesi
Açık kaynak ve araştırma topluluğunda yaygın kullanım

Eksiler

Çok yüksek VRAM gereksinimi — 24GB+ GPU belleği
İşleme süresi uzun — gerçek zamanlı kullanıma uygun değil
Bazı durumlarda halüsinasyon — var olmayan detaylar ekleyebiliyor
Kurulumu karmaşık — birden fazla model indirmesi gerekiyor

Teknik Detaylar

Parametre

N/A

Mimari

SDXL-based diffusion model with degradation-aware encoder

Eğitim Verisi

Large-scale dataset with synthetic degradation pairs

Lisans

Research Only

Özellikler

SDXL-Based Generative Restoration
LLaVA Semantic Image Captioning
Degradation-Aware Encoding
Extreme Low-çözünürlük Restoration
Photo-Realistic Detail üretimi
Multi-Type Degradation Handling

Benchmark Sonuçları

Metrik	Değer	Karşılaştırma	Kaynak
PSNR (DIV2K-Val, ×4)	27.80 dB	StableSR: 26.50 dB	arXiv 2401.13627
LPIPS (DIV2K-Val)	0.195	StableSR: 0.250	arXiv 2401.13627
Maksimum Büyütme	×4 (SDXL tabanlı)	SwinIR: ×4	GitHub Fanghua-Yu/SUPIR
Desteklenen Giriş	512×512 → 2048×2048	—	SUPIR Docs

Mevcut Platformlar

hugging face

replicate

fal ai

Sıkça Sorulan Sorular

İlgili Modeller

Real-ESRGAN

Tencent ARC|N/A

Real-ESRGAN, Tencent ARC Lab'da Xintao Wang ve işbirlikçileri tarafından geliştirilen, düşük çözünürlüklü, bozulmuş veya sıkıştırılmış görselleri dikkat çekici detay kurtarmayla yüksek çözünürlüklü çıktılara dönüştüren açık kaynak görsel büyütme ve restorasyon modelidir. 2021'de BSD lisansı altında yayınlanan Real-ESRGAN, sıkıştırma yapıları, gürültü, bulanıklık ve alt örnekleme dahil gerçek dünya görsellerinde bulunan karmaşık ve öngörülemeyen kalite kaybını simüle eden yüksek dereceli bozulma modelleme yaklaşımını tanıtarak orijinal ESRGAN mimarisi üzerine inşa edilmiştir. Model üretici ağı olarak Residual-in-Residual Dense Block'lu U-Net mimarisi kullanır ve keskin, doğal görünümlü büyütülmüş sonuçlar üretmek için algısal kayıp, GAN kaybı ve piksel kaybı kombinasyonuyla eğitilmiştir. Real-ESRGAN 2x, 4x ve daha yüksek büyütme faktörlerini destekler ve genel amaçlı fotoğraf modelinin yanı sıra anime ve illüstrasyon içeriği için özelleştirilmiş model varyantları içerir. Model yalnızca sentetik bozulma desenleri üzerinde eğitilen öncülü ESRGAN'a kıyasla gerçek dünya bozulmalarını çok daha iyi işler. Real-ESRGAN masaüstü araçlar, web servisleri, mobil uygulamalar ve profesyonel görsel düzenleme iş akışları dahil sayısız uygulamaya entegre edilerek en yaygın dağıtılan AI büyütme çözümlerinden biri haline gelmiştir. Model hem CPU hem de GPU'da verimli çalışır ve daha hafif RealESRGAN-x4plus-anime varyantı tüketici donanımı için optimize edilmiştir. Önceden eğitilmiş ağırlıklarla GitHub üzerinde mevcut tamamen açık kaynak bir proje olarak Upscayl ve çeşitli ComfyUI düğümleri gibi popüler araçların omurgası olarak hizmet eder. Real-ESRGAN doğal görünümü korurken ve gerçekçi detay eklerken görsel çözünürlüğünü artırması gereken fotoğrafçılar, içerik üreticileri ve oyun geliştiricileri için vazgeçilmezdir.

Açık Kaynak

4.7

Topaz Gigapixel AI

Topaz Labs|N/A

Topaz Gigapixel AI, Topaz Labs tarafından geliştirilen, profesyonel fotoğrafçılar, grafik tasarımcılar ve görüntü işleme uzmanları için endüstri standardı bir araç olarak konumlanan AI destekli görsel büyütme ve iyileştirme için ticari bir masaüstü uygulamasıdır. Windows ve macOS'ta kullanılabilen yazılım, ince detayları, dokuları ve keskinliği koruyarak ve hatta geliştirerek görselleri yüzde 600'e kadar büyütmek için birden fazla AI modelini birleştiren tescilli bir hibrit sinir ağı mimarisi kullanır. Topaz Gigapixel AI yüzler, standart fotoğrafçılık, bilgisayar grafikleri ve düşük çözünürlüklü kaynaklar dahil farklı içerik türleri için özelleştirilmiş işleme modları içerir ve her mod hedef içeriği için mümkün olan en iyi sonuçları üretmek üzere optimize edilmiştir. Yazılım büyütme sırasında yüz detaylarını iyileştiren akıllı yüz algılama ve geliştirme özelliğine sahiptir ve çok düşük çözünürlüklü kaynak görsellerden bile doğal görünümlü sonuçlar üretir. Topaz Gigapixel AI büyük görsel hacimlerini işlemek için toplu işleme desteği sunar ve Adobe Lightroom ile Photoshop'a eklenti olarak entegre olarak profesyonel fotoğrafçılık iş akışlarına sorunsuz uyum sağlar. Uygulama görselleri GPU hızlandırması kullanarak kullanıcının makinesinde yerel olarak işler ve internet bağlantısı gerektirmeden gizlilik ve hızlı işleme sağlar. Çıktı kalitesi ticari büyütme yazılımları arasında en iyilerden biri olarak kabul edilir ve özellikle doğal dokuları korumada ve birçok AI büyütücüde yaygın olan yapay yumuşatmadan kaçınmada güçlüdür. Tek seferlik satın alma veya abonelik modeliyle tescilli bir ürün olarak Topaz Gigapixel AI özellikle baskıları büyüten profesyonel fotoğrafçılar, mülk görsellerini iyileştiren emlak fotoğrafçıları, kanıt görsellerini geliştiren adli analistler ve tarihi fotoğrafları modern çözünürlük standartlarına restore eden arşivciler tarafından değerlidir.

Tescilli

4.6

Upscayl

Upscayl Team|N/A

Upscayl, Real-ESRGAN ve diğer süper çözünürlük modelleri üzerine inşa edilmiş, AI destekli görsel büyütme için ücretsiz ve açık kaynak bir masaüstü uygulamasıdır. Nayam Amarshe ve TGS963 tarafından geliştirilen Upscayl, gelişmiş AI görsel büyütmeyi Windows, macOS ve Linux platformlarında teknik olmayan kullanıcılar için erişilebilir kılan kullanıcı dostu bir grafik arayüz sağlar. Uygulama birden fazla AI büyütme modelini Electron tabanlı bir masaüstü uygulamasında sarmalayarak kullanıcıların herhangi bir komut satırı bilgisi veya Python ortamı kurulumu olmadan yalnızca birkaç tıklamayla görsel çözünürlüğünü artırmasına olanak tanır. Upscayl genel fotoğrafçılık, dijital sanat, anime ve keskinleştirme dahil farklı içerik türleri için optimize edilmiş önceden yüklenmiş birkaç büyütme modeli içerir ve her model hedef içeriğine uygun farklı estetik özellikler üretir. Kullanıcılar 2x, 3x veya 4x büyütme faktörlerini seçebilir ve toplu işleme yoluyla tek tek görselleri veya tüm klasörleri işleyebilir. Uygulama PNG, JPG ve WebP dahil yaygın görsel formatlarını destekler ve çıktı formatı ile kalite ayarları için seçenekler sunar. Upscayl ayrıca özel model yüklemeyi destekleyerek kullanıcıların topluluktan ek NCNN uyumlu büyütme modelleri içe aktarmasına olanak tanır. AGPL-3.0 lisansı altında yayınlanan Upscayl kodu GitHub üzerinde mevcut olan tamamen açık kaynaklıdır ve geniş bir kullanıcı ve katkıda bulunan topluluğu edinmiştir. Uygulama tamamen yerel olarak çalışır ve hassas görseller için gizlilik sağlayarak internet bağlantısı gerektirmez. Upscayl özellikle abonelik veya bulut işleme bağımlılığı olmadan görsel kalitesini artırmak için basit ve ücretsiz bir çözüme ihtiyaç duyan fotoğrafçılar, grafik tasarımcılar ve içerik üreticileri arasında popülerdir.

Açık Kaynak

4.5

CodeFormer

Tencent ARC|N/A

CodeFormer, Nanyang Teknoloji Üniversitesi ve Tencent ARC iş birliğiyle geliştirilen, NeurIPS 2022 konferansında sunulan son teknoloji kör yüz restorasyon modelidir. Model, ciddi biçimde bozulmuş yüz görsellerini yüksek sadakatle restore etmek için ayrık codebook arama mekanizmasına sahip benzersiz bir Transformer tabanlı mimari kullanır. En ayırt edici özelliği, 0.0 ile 1.0 arasında değişen ayarlanabilir w parametresiyle kullanıcılara kimlik koruma ile restorasyon kalitesi arasında hassas ve esnek kontrol imkanı sunmasıdır. Mimari olarak üç temel bileşenden oluşur: yüksek kaliteli yüz veri setlerinden ayrık görsel kodlar öğrenen VQGAN encoder-decoder, bu öğrenilmiş temsilleri kalıcı olarak depolayan ayrık codebook ve restorasyon sırasında optimal kod kombinasyonlarını tahmin eden güçlü Transformer modülü. Bu yaklaşım, modelin ciddi bozulmalarda bile inandırıcı ve gerçekçi yüz detayları üretmesini sağlar çünkü bilgiyi bozuk girdiden değil önceden öğrenilmiş yüksek kaliteli ön bilgilerden alır. CelebA-HQ ve WIDER-Face veri setlerinde yapılan kapsamlı benchmark testlerinde CodeFormer, FID, NIQE ve kimlik benzerliği metriklerinde önceki yöntemlere kıyasla tutarlı biçimde üstün sonuçlar elde etmiştir. Pratik kullanım alanları arasında eski aile fotoğraflarının restorasyonu, yapay zeka ile üretilmiş görsellerdeki yüz kalitesinin iyileştirilmesi, düşük çözünürlüklü video karelerinden yüz detayı çıkarma ve profesyonel fotoğraf rötuşlama yer alır. Açık kaynaklı olan model, ComfyUI, AUTOMATIC1111 WebUI ve Fooocus gibi popüler araçlarla entegre çalışır ve Replicate API ile Hugging Face Spaces üzerinden bulut tabanlı erişim sunar.

Açık Kaynak

4.6