Real-ESRGAN
Real-ESRGAN, Tencent ARC Lab'da Xintao Wang ve işbirlikçileri tarafından geliştirilen, düşük çözünürlüklü, bozulmuş veya sıkıştırılmış görselleri dikkat çekici detay kurtarmayla yüksek çözünürlüklü çıktılara dönüştüren açık kaynak görsel büyütme ve restorasyon modelidir. 2021'de BSD lisansı altında yayınlanan Real-ESRGAN, sıkıştırma yapıları, gürültü, bulanıklık ve alt örnekleme dahil gerçek dünya görsellerinde bulunan karmaşık ve öngörülemeyen kalite kaybını simüle eden yüksek dereceli bozulma modelleme yaklaşımını tanıtarak orijinal ESRGAN mimarisi üzerine inşa edilmiştir. Model üretici ağı olarak Residual-in-Residual Dense Block'lu U-Net mimarisi kullanır ve keskin, doğal görünümlü büyütülmüş sonuçlar üretmek için algısal kayıp, GAN kaybı ve piksel kaybı kombinasyonuyla eğitilmiştir. Real-ESRGAN 2x, 4x ve daha yüksek büyütme faktörlerini destekler ve genel amaçlı fotoğraf modelinin yanı sıra anime ve illüstrasyon içeriği için özelleştirilmiş model varyantları içerir. Model yalnızca sentetik bozulma desenleri üzerinde eğitilen öncülü ESRGAN'a kıyasla gerçek dünya bozulmalarını çok daha iyi işler. Real-ESRGAN masaüstü araçlar, web servisleri, mobil uygulamalar ve profesyonel görsel düzenleme iş akışları dahil sayısız uygulamaya entegre edilerek en yaygın dağıtılan AI büyütme çözümlerinden biri haline gelmiştir. Model hem CPU hem de GPU'da verimli çalışır ve daha hafif RealESRGAN-x4plus-anime varyantı tüketici donanımı için optimize edilmiştir. Önceden eğitilmiş ağırlıklarla GitHub üzerinde mevcut tamamen açık kaynak bir proje olarak Upscayl ve çeşitli ComfyUI düğümleri gibi popüler araçların omurgası olarak hizmet eder. Real-ESRGAN doğal görünümü korurken ve gerçekçi detay eklerken görsel çözünürlüğünü artırması gereken fotoğrafçılar, içerik üreticileri ve oyun geliştiricileri için vazgeçilmezdir.
Öne Çıkan Özellikler
Gercek Dunya Bozulma Modelleme
Bulaniklik, gurultu, sikistirma artefaktlari ve halkalama gibi gercek dunya goruntu bozulmalarini simule eden yuksek dereceli bozulma egitim sureci
Ozellestirilmis Model Varyantlari
Fotograflar, anime/illustrasyon ve yuz iyilestirme icin ayri optimize edilmis modeller sunarak farkli kullanim senaryolarina uygun cozumler saglar
Genis Ekosistem Entegrasyonu
Upscayl, Replicate, Hugging Face ve bircok goruntu isleme aracina entegre edilmis olup en yaygin kullanilan super cozunurluk cozumudur
Hizli ve Verimli Cikarim
Makul donanim gereksinimleriye hizli cikarim hizi sunarak tuketici GPU'larinda bile pratik kullanim icin uygun performans saglar
Hakkında
Real-ESRGAN (Gercek Dunya Gelistirilmis Super Cozunurluk Uretici Celismeli Ag), Tencent ARC Lab'da Xintao Wang ve isbirlikcileri tarafindan gelistirilen, acik kaynakli bir goruntu buyutme ve iyilestirme modelidir. 2021 yilinda tanitian bu model, orijinal ESRGAN'in sinirlamalarini asarak gercek dunya goruntuleri uzerinde ustun performans saglar. Model, sentetik olarak olusturulmus bozulma pipeline'lari kullanarak egitilmistir ve bu sayede bulaniklik, gurultu, sikistirma artefaktlari ve diger gercek dunya bozulmalarini etkili bir sekilde giderebilir. Goruntu buyutme alaninda en cok referans gosterilen ve kullanilan modellerden biri olma ozelligini tasimaktadir.
Real-ESRGAN'in teknik mimarisi, RRDB (Residual in Residual Dense Block) omurgasina dayanir. U-Net tabanli bir ayirt edici ag kullanarak daha iyi doku uretimi ve daha az artefakt elde eder. Modelin en onemli yeniligi, ikinci dereceden bozulma surecini modellemesidir; bu surecte bulaniklik, yeniden boyutlandirma, gurultu ve JPEG sikistirma gibi islemler ardisik olarak uygulanarak gercek dunya kosullarini taklit eden egitim verileri olusturulur. Bu yaklasim, modelin laboratuvar ortaminda degil, gercek hayatta karsilasilan goruntu kalitesi sorunlariyla basa cikabilmesini saglar. Sinc filtreleri ve ring artefaktlari gibi karmasik bozulma turlerini de basariyla modeller ve giderir.
Model, cesitli kullanim alanlarina hitap eden farkli varyantlarla sunulur. RealESRGAN_x4plus genel amacli goruntu buyutme icin optimize edilmisken, RealESRGAN_x4plus_anime ozellikle anime ve cizim tarzi gorseller icin ince ayar yapilmistir. Ayrica RealESRGAN_x2plus gibi 2x buyutme secenekleri de mevcuttur. Video buyutme icin de kullanilabilen model, realesrgan-ncnn-vulkan implementasyonu sayesinde GPU hizlandirmali islem yapabilir ve NVIDIA, AMD ve Intel GPU'larinda verimli calisir. Her varyant, hedef icerik turune ozel egitim ile optimize edilmistir ve kullanicilar ihtiyaclarina gore en uygun modeli secebilirler.
Uygulama alanlari son derece genistir. Fotograf restorasyonu, eski aile fotograflarinin iyilestirilmesi, dusuk cozunurluklu web gorsellerinin buyutulmesi, e-ticaret urun fotograflarinin kalitesinin arttirilmasi ve dijital sanatta detay eklenmesi gibi pek cok senaryoda kullanilir. Sosyal medya icin gorsel iyilestirme, baski oncesi hazirlik ve arsiv materyallerinin dijitallestirme surecleri de yaygin kullanim alanlari arasindadir. Modelin hizi ve kalitesi, onu profesyonel is akislarina entegre etmeyi kolaylastirir. Oyun tekstur buyutme ve duvar kagidi hazirlama gibi gunluk gorevlerde de sikca tercih edilen bir aractir.
Real-ESRGAN, topluluk tarafindan genis capta benimsenmi ve pek cok uygulamaya entegre edilmistir. Upscayl, ChaiNNer ve AUTOMATIC1111'in Stable Diffusion web arayuzu gibi populer araclar Real-ESRGAN'i arka planda kullanir. Python API'si, komut satiri araci ve cesitli platformlar icin onceden derlenmi ikili dosyalar sunulmaktadir. BSD-3 lisansi altinda yayinlanan model, ticari projelerde de serbestce kullanilabilir ve bu durum endustriyel benimsenmesini hizlandirmistir.
Performans acisindan degerlendirildiginde, Real-ESRGAN ozellikle gercek dunya goruntuleri uzerinde diger super cozunurluk modellerine kiyasla daha az artefakt uretir ve daha dogal dokular olusturur. Anime modeli ise cizgi film ve anime gorsellerinde kenar netligini korurken yumusak renk gecislerini basariyla surdurmektedir. GPU destegi sayesinde yuksek cozunurluklu goruntulerde bile makul islem sureleri sunar. PSNR, SSIM ve LPIPS gibi standart metrikler uzerinde rekabetci performans sergileyen model, algisal kalite testlerinde de tutarli sonuclar verir. Modelin surekli guncellenen topluluk destegi ve genis ekosistemi, onu goruntu buyutme alaninda fiili standart haline getirmistir.
Kullanım Senaryoları
Eski Fotograf Restorasyonu
Dusuk cozunurluklu veya bozulmus eski aile fotograflarini ve arsiv goruntuleri restore ederek yuksek kaliteli versiyonlar elde etme
E-Ticaret Goruntu Iyilestirme
Urun fotograflarini buyuterek ve netletirerek e-ticaret platformlarinda daha profesyonel gorsel sunumlar olusturma
Anime ve Illustrasyon Buyutme
Dusuk cozunurluklu anime ve illustrasyon goruntuleri ozel model ile buyuterek keskin ve temiz sonuclar elde etme
Video Kare Buyutme
Eski veya dusuk cozunurluklu videolarin karelerini tek tek buyuterek video kalitesini artirma
Artılar ve Eksiler
Artılar
- Görsel kalitesini koruyarak ve iyileştirerek 8x çözünürlük yükseltme kapasitesi
- Gürültü ve sıkıştırma artifaktlarını etkili biçimde azaltır; gerçekçi dokular oluşturarak daha keskin görseller üretir
- Ucuz GPU'larda bile hızlı çalışır (Nvidia T4'te 2x yükseltme ~1.8 saniye)
- Yüz iyileştirme modu ile portre kalitesini doğal görünümle artırır
- Eski fotoğraflar, düşük çözünürlüklü, bulanık, gürültülü, sıkıştırılmış ve anime görseller dahil geniş yetenek; ücretsiz ve açık kaynak
Eksiler
- Aşırı sıkıştırılmış veya çok düşük kaliteli görsellerde zorlanabilir
- Yoğun karo (tiling) kullanımında blok tutarsızlıkları oluşabilir
- Bağımlılık kurulumları ile yeni başlayanlar için öğrenme eğrisi mevcut
- GPU ağırlıklı masaüstü deneyimi; henüz sağlam mobil portları yok
- AESRGAN gibi dikkat modülasyonlu yeni modeller ince yüz detaylarını daha iyi koruyabilir
Teknik Detaylar
Parametre
N/A
Mimari
U-Net with RRDB (Residual-in-Residual Dense Block) generator
Eğitim Verisi
High-order degradation model simulating real-world image degradations on DIV2K, Flickr2K, OST datasets
Lisans
BSD
Özellikler
- 2x and 4x Super-Resolution
- Real-World Degradation Handling
- Anime-Specific Model Variant
- GFPGAN Face Enhancement Integration
- U-Net Discriminator Architecture
- BSD-3-Clause Open Source License
Benchmark Sonuçları
| Metrik | Değer | Karşılaştırma | Kaynak |
|---|---|---|---|
| Max Scale Factor | 4x (standard), up to 10x | — | GitHub xinntao/Real-ESRGAN |
| PSNR | 24.97 dB | ESRGAN: 24.14 dB | Comparative Analysis (NHSJS 2025) |
| SSIM | 0.76 | ESRGAN: 0.72 | Comparative Analysis (NHSJS 2025) |
Mevcut Platformlar
Haberler ve Referanslar
Sıkça Sorulan Sorular
İlgili Modeller
Topaz Gigapixel AI
Topaz Gigapixel AI, Topaz Labs tarafından geliştirilen, profesyonel fotoğrafçılar, grafik tasarımcılar ve görüntü işleme uzmanları için endüstri standardı bir araç olarak konumlanan AI destekli görsel büyütme ve iyileştirme için ticari bir masaüstü uygulamasıdır. Windows ve macOS'ta kullanılabilen yazılım, ince detayları, dokuları ve keskinliği koruyarak ve hatta geliştirerek görselleri yüzde 600'e kadar büyütmek için birden fazla AI modelini birleştiren tescilli bir hibrit sinir ağı mimarisi kullanır. Topaz Gigapixel AI yüzler, standart fotoğrafçılık, bilgisayar grafikleri ve düşük çözünürlüklü kaynaklar dahil farklı içerik türleri için özelleştirilmiş işleme modları içerir ve her mod hedef içeriği için mümkün olan en iyi sonuçları üretmek üzere optimize edilmiştir. Yazılım büyütme sırasında yüz detaylarını iyileştiren akıllı yüz algılama ve geliştirme özelliğine sahiptir ve çok düşük çözünürlüklü kaynak görsellerden bile doğal görünümlü sonuçlar üretir. Topaz Gigapixel AI büyük görsel hacimlerini işlemek için toplu işleme desteği sunar ve Adobe Lightroom ile Photoshop'a eklenti olarak entegre olarak profesyonel fotoğrafçılık iş akışlarına sorunsuz uyum sağlar. Uygulama görselleri GPU hızlandırması kullanarak kullanıcının makinesinde yerel olarak işler ve internet bağlantısı gerektirmeden gizlilik ve hızlı işleme sağlar. Çıktı kalitesi ticari büyütme yazılımları arasında en iyilerden biri olarak kabul edilir ve özellikle doğal dokuları korumada ve birçok AI büyütücüde yaygın olan yapay yumuşatmadan kaçınmada güçlüdür. Tek seferlik satın alma veya abonelik modeliyle tescilli bir ürün olarak Topaz Gigapixel AI özellikle baskıları büyüten profesyonel fotoğrafçılar, mülk görsellerini iyileştiren emlak fotoğrafçıları, kanıt görsellerini geliştiren adli analistler ve tarihi fotoğrafları modern çözünürlük standartlarına restore eden arşivciler tarafından değerlidir.
Upscayl
Upscayl, Real-ESRGAN ve diğer süper çözünürlük modelleri üzerine inşa edilmiş, AI destekli görsel büyütme için ücretsiz ve açık kaynak bir masaüstü uygulamasıdır. Nayam Amarshe ve TGS963 tarafından geliştirilen Upscayl, gelişmiş AI görsel büyütmeyi Windows, macOS ve Linux platformlarında teknik olmayan kullanıcılar için erişilebilir kılan kullanıcı dostu bir grafik arayüz sağlar. Uygulama birden fazla AI büyütme modelini Electron tabanlı bir masaüstü uygulamasında sarmalayarak kullanıcıların herhangi bir komut satırı bilgisi veya Python ortamı kurulumu olmadan yalnızca birkaç tıklamayla görsel çözünürlüğünü artırmasına olanak tanır. Upscayl genel fotoğrafçılık, dijital sanat, anime ve keskinleştirme dahil farklı içerik türleri için optimize edilmiş önceden yüklenmiş birkaç büyütme modeli içerir ve her model hedef içeriğine uygun farklı estetik özellikler üretir. Kullanıcılar 2x, 3x veya 4x büyütme faktörlerini seçebilir ve toplu işleme yoluyla tek tek görselleri veya tüm klasörleri işleyebilir. Uygulama PNG, JPG ve WebP dahil yaygın görsel formatlarını destekler ve çıktı formatı ile kalite ayarları için seçenekler sunar. Upscayl ayrıca özel model yüklemeyi destekleyerek kullanıcıların topluluktan ek NCNN uyumlu büyütme modelleri içe aktarmasına olanak tanır. AGPL-3.0 lisansı altında yayınlanan Upscayl kodu GitHub üzerinde mevcut olan tamamen açık kaynaklıdır ve geniş bir kullanıcı ve katkıda bulunan topluluğu edinmiştir. Uygulama tamamen yerel olarak çalışır ve hassas görseller için gizlilik sağlayarak internet bağlantısı gerektirmez. Upscayl özellikle abonelik veya bulut işleme bağımlılığı olmadan görsel kalitesini artırmak için basit ve ücretsiz bir çözüme ihtiyaç duyan fotoğrafçılar, grafik tasarımcılar ve içerik üreticileri arasında popülerdir.
CodeFormer
CodeFormer, Nanyang Teknoloji Üniversitesi ve Tencent ARC iş birliğiyle geliştirilen, NeurIPS 2022 konferansında sunulan son teknoloji kör yüz restorasyon modelidir. Model, ciddi biçimde bozulmuş yüz görsellerini yüksek sadakatle restore etmek için ayrık codebook arama mekanizmasına sahip benzersiz bir Transformer tabanlı mimari kullanır. En ayırt edici özelliği, 0.0 ile 1.0 arasında değişen ayarlanabilir w parametresiyle kullanıcılara kimlik koruma ile restorasyon kalitesi arasında hassas ve esnek kontrol imkanı sunmasıdır. Mimari olarak üç temel bileşenden oluşur: yüksek kaliteli yüz veri setlerinden ayrık görsel kodlar öğrenen VQGAN encoder-decoder, bu öğrenilmiş temsilleri kalıcı olarak depolayan ayrık codebook ve restorasyon sırasında optimal kod kombinasyonlarını tahmin eden güçlü Transformer modülü. Bu yaklaşım, modelin ciddi bozulmalarda bile inandırıcı ve gerçekçi yüz detayları üretmesini sağlar çünkü bilgiyi bozuk girdiden değil önceden öğrenilmiş yüksek kaliteli ön bilgilerden alır. CelebA-HQ ve WIDER-Face veri setlerinde yapılan kapsamlı benchmark testlerinde CodeFormer, FID, NIQE ve kimlik benzerliği metriklerinde önceki yöntemlere kıyasla tutarlı biçimde üstün sonuçlar elde etmiştir. Pratik kullanım alanları arasında eski aile fotoğraflarının restorasyonu, yapay zeka ile üretilmiş görsellerdeki yüz kalitesinin iyileştirilmesi, düşük çözünürlüklü video karelerinden yüz detayı çıkarma ve profesyonel fotoğraf rötuşlama yer alır. Açık kaynaklı olan model, ComfyUI, AUTOMATIC1111 WebUI ve Fooocus gibi popüler araçlarla entegre çalışır ve Replicate API ile Hugging Face Spaces üzerinden bulut tabanlı erişim sunar.
SUPIR
SUPIR, Tencent ARC araştırmacıları tarafından 2024'te geliştirilen, foto-gerçekçi görsel iyileştirme için büyük ölçekli bir Stable Diffusion modeli olan SDXL'in üretken gücünden yararlanan gelişmiş bir AI görsel restorasyon ve büyütme modelidir. SUPIR Scaling Up to Excellence: Practicing Model Scaling for Photo-Realistic Image Restoration in the Wild ifadesinin kısaltmasıdır. Model giriş görselinde bulunan belirli kalite kaybı türlerini analiz eden ve restorasyon sürecini yönlendirmek için akıllı metin komutları üreten bozulma farkındalıklı bir kodlayıcı tanıtır ve bu sayede difüzyon modeline ne tür içeriğin nasıl restore edilmesi gerektiğini etkili bir şekilde bildirir. Bu akıllı yönlendirme yaklaşımı SUPIR'in basit piksel enterpolasyonunun ötesine geçerek anlamsal olarak anlamlı detay üreten dikkat çekici derecede detaylı ve doğal görünümlü büyütülmüş sonuçlar üretmesini sağlar. Model büyütme sırasında gerçekçi dokular, yüz hatları, metin ve ince desenleri sentezlemek için SDXL'in önceden eğitilmiş ağırlıklarına gömülü geniş görsel bilgiden yararlanır. SUPIR özellikle eski fotoğraflar, ağır sıkıştırılmış web görselleri ve düşük çözünürlüklü çekimler dahil geleneksel büyütme yöntemlerinin başarısız olduğu ciddi şekilde bozulmuş görselleri restore etmede üstün performans gösterir. Model tutarlı içerik ve doğal görünümü koruyarak yüksek büyütme faktörlerini destekler. Salt araştırma lisansı altında yayınlanan SUPIR kod ve ağırlıkları GitHub üzerinde mevcut olan açık kaynaklıdır. SDXL omurgası nedeniyle hesaplama açısından yoğun olsa da model AI destekli görsel restorasyon kalitesinin mevcut sınırlarını temsil eden sonuçlar üretir. SUPIR özellikle arşiv görsellerini restore eden profesyonel fotoğrafçılar, güvenlik görüntülerini iyileştiren adli analistler ve sınırlı kaynak materyalden maksimum kaliteye ihtiyaç duyan dijital sanatçılar için değerlidir.