BiRefNet icon

BiRefNet

Açık Kaynak
4.5
ZhengPeng7

BiRefNet (Bilateral Reference Network), ZhengPeng7 tarafından geliştirilen, ince yapısal detaylarda piksel düzeyinde doğrulukla ön plan nesnelerini arka planlardan hassas biçimde ayırmak için tasarlanmış yüksek çözünürlüklü ikili görsel segmentasyonu için gelişmiş açık kaynaklı segmentasyon modelidir. Model, çift dallı mimari aracılığıyla hem global anlamsal bilgiyi hem yerel detay özelliklerini kullanan ikili referans çerçevesi sunarak geleneksel segmentasyon yaklaşımlarına kıyasla üstün kenar kalitesi sağlar. BiRefNet, çok ölçekli özellikler çıkarmak için omurga kodlayıcıdan görselleri işler, ardından global bağlamı yerel sınır bilgisiyle çapraz referanslayan ikili referans modülleri uygulayarak saç telleri, dantel desenleri, zincir halkaları ve saydam malzemeler gibi karmaşık yapılar etrafında temiz kenarlara sahip net segmentasyon maskeleri üretir. DIS5K dahil birden fazla benchmark'ta son teknoloji sonuçlar elde eder ve geleneksel modelleri zorlayan karmaşık sınırlara sahip nesneleri ele almada güç gösterir. BiRefNet, olağanüstü kenar kalitesi sayesinde arka plan kaldırma çözümü olarak popülerlik kazanmış ve zorlu görsellerde birçok özel arka plan kaldırma aracını geride bırakmıştır. Yüksek çözünürlüklü giriş işlemeyi destekler ve profesyonel kompozitleme için uygun alfa matlar üretir. Farklı kalite-hız dengeleri için optimize edilmiş çeşitli varyantlarla Hugging Face üzerinden sunulan BiRefNet, Python tabanlı pipeline'lara kolayca entegre olur. Ürün fotoğrafçılığı için hassas arka plan kaldırma, grafik tasarım için nesne izolasyonu, tıbbi görsel segmentasyon ve görsel efekt çalışmaları için yüksek kaliteli kesimler başlıca uygulama alanlarıdır. Açık kaynak lisansıyla yayınlanan BiRefNet, ticari segmentasyon servislerine ücretsiz ve teknik açıdan sofistike bir alternatif sunar.

Arka Plan Kaldırma

Öne Çıkan Özellikler

Iki Tarafli Referans Mimarisi

Yuksek cozunurluklu detay ve semantik baglami paralel isleyerek hem hassas kenarlar hem de dogru segmentasyon saglar

Ustun Kenar Kalitesi

Sac, kurk ve dantel gibi karmasik sinirlarda alt piksel hassasiyetinde duzgun alfa matlama kapasitesi

DIS5K Benchmark Lideri

Dikotomik goruntu segmentasyonu benchmark'inda IS-Net ve U2-Net'i asarak en iyi sonuclari elde etmistir

Yuksek Cozunurluk Destegi

1024x1024 piksel ve uzerinde gorsel isleyebilir, kaliteyi koruyarak buyuk boyutlu gorseller icin uygun

Hakkında

BiRefNet (İki Taraflı Referans Ağı), ön planı arka plandan piksel hassasiyetinde ayırmayı içeren dikotomik görüntü segmentasyonu (DIS) görevleri için özel olarak tasarlanmış yüksek çözünürlüklü bir görüntü segmentasyon modelidir. Nankai Üniversitesi araştırmacıları tarafından geliştirilen BiRefNet, yüksek çözünürlüklü detayları ve semantik bağlamı aynı anda işleyen iki taraflı referans çerçevesi kullanarak zorlu segmentasyon ölçütlerinde en iyi performansı elde eder. Model, özellikle karmaşık sınırlara sahip nesnelerin hassas segmentasyonunda önceki yöntemleri belirgin şekilde geride bırakmış ve dikotomik segmentasyon alanında yeni bir kalite standardı oluşturmuştur.

Modelin mimarisi, iki paralel işleme akışı sürdüren yeni bir iki taraflı referans mekanizması tanıtır. Bir akış, hassas kenar algılama ve ince detay koruma için yüksek çözünürlüklü özellikleri ele alırken, diğeri küresel semantik anlama için alt örneklenmiş özellikleri işler. Bu akışlar birden fazla ölçekte bilgi alışverişi yapar, bu da modelin hem yerel olarak hassas hem de küresel olarak tutarlı segmentasyon kararları almasını sağlar. Çapraz ölçek bilgi akışı, modelin hem mikro düzeyde kenar detaylarını hem de makro düzeyde nesne bütünlüğünü koruyabilmesinin temelini oluşturur. Bu ikili yaklaşım, tek akışlı modellerin kaçırdığı ince yapısal detayları başarıyla yakalar.

BiRefNet, özellikle saç, kürk, dantel, yarı şeffaf malzemeler ve karmaşık doğal yapılar gibi karmaşık sınırlara sahip nesneleri ele almada üstündür. Keskin kenarlı ikili maskeler üreten daha basit segmentasyon modellerinin aksine, BiRefNet alt piksel şeffaklık bilgisini koruyan düzgün ve detaylı alfa mattleri üretir. Bu, onu kenar kalitesinin en önemli olduğu profesyonel fotoğraf düzenleme, kompozitleme ve arka plan kaldırma uygulamaları için özellikle değerli kılar. Üretilen maskeler, doğrudan Photoshop, GIMP veya Figma gibi araçlarda katman maskesi olarak kullanılabilecek kalitededir ve ek düzeltme gerektirmeden profesyonel sonuçlar sağlar.

DIS5K benchmark'ındaki performansı, IS-Net ve U2-Net dahil önceki yöntemlere göre önemli iyileştirmeler göstermektedir. Özellikle ince yapılar, yarı saydam objeler ve karmaşık dokular gibi zorlu kategorilerde fark belirgindir. Model, standart segmentasyon metriklerinde (maxFm, MAE, Sm, Em) sürekli olarak en üst sıralarda yer alır ve akademik toplulukta dikotomik segmentasyon alanındaki referans model olarak kabul edilmektedir. Nicel sonuçların yanı sıra nitel değerlendirmelerde de BiRefNet maskelerinin görsel kalitesi rakiplerinden açıkça üstündür.

Model, açık kaynak topluluğunda önemli ilgi görmüş ve önceden eğitilmiş ağırlıklarla Hugging Face'de mevcuttur. Çeşitli arka plan kaldırma araçları ve görsel düzenleme uygulamalarına entegre edilmiştir. Birden fazla giriş çözünürlüğünü destekler ve segmentasyon kalitesini koruyarak 1024x1024 veya daha yüksek çözünürlükte görselleri işleyebilir. ComfyUI ve Automatic1111 gibi popüler AI görsel üretim platformlarına eklenti olarak entegre edilmiştir ve yaratıcı profesyonellerin günlük iş akışlarında aktif olarak kullanılmaktadır.

BiRefNet'in pratik uygulamaları, e-ticaret ürün görseli hazırlama, dijital pazarlama içerik üretimi, video post-prodüksiyon ve artırılmış gerçeklik uygulamalarını kapsar. Özellikle saç ve kürk gibi karmaşık dokuların bulunduğu portre fotoğraflarında arka plan kaldırma kalitesi, rakip çözümlerin çoğundan belirgin şekilde üstündür. Modelin PyTorch tabanlı uygulaması, araştırmacıların ve geliştiricilerin mimariyi kendi özel kullanım durumlarına uyarlamasını ve alan spesifik ince ayar yapmasını kolaylaştırır.

Endüstriyel kullanım açısından BiRefNet, fotoğraf stüdyoları ve baskı merkezleri tarafından yüksek çözünürlüklü baskı materyalleri için arka plan kaldırma aracı olarak benimsenmiştir. Reklam kampanyaları için ürün görsellerinin hazırlanmasında, katalog tasarımında ve dergi kapağı kompozisyonlarında kullanılır. Video prodüksiyonunda ise kare kare segmentasyon yapılarak yeşil perde gerektirmeden arka plan değişimi gerçekleştirilebilir. Modelin yüksek çözünürlük desteği, büyük formatlı baskı ve billboard görselleri için bile yeterli kaliteyi garantiler.

Kullanım Senaryoları

1

Profesyonel Foto Duzenleme

Yuksek kaliteli arka plan kaldirma ve nesne izolasyonu ile profesyonel fotografcilik is akislari

2

Gorsel Kompozitleme

Farkli gorsellerden nesne cikarip birIestirerek dogal gorunen kompozit gorseller olusturma

3

Film ve VFX

Film post-produksiyonunda yesil perde olmadan yuksek kaliteli arka plan degistirme ve matting

4

Urun Fotografciligi

E-ticaret urun gorsellerinde ince detaylari koruyarak profesyonel duzey arka plan kaldirma

Artılar ve Eksiler

Artılar

  • Bilateral referans ağ mimarisi ile yüksek doğruluklu segmentasyon
  • İnce detaylar ve kenar bölgelerinde güçlü performans
  • Dikotomi (iki referans) yaklaşımı ile zengin özellik çıkarımı
  • Açık kaynak — Hugging Face'te demo mevcut

Eksiler

  • GPU gereksinimi yüksek — gerçek zamanlı kullanım sınırlı
  • Video işleme desteği varsayılan olarak yok
  • Ticari entegrasyon için ek çalışma gerektiriyor
  • MODNet ve RemBG kadar yaygın topluluk desteği yok

Teknik Detaylar

Parametre

N/A

Mimari

Bilateral reference network with localization and reconstruction modules

Eğitim Verisi

DIS5K dataset (5,470 high-resolution images with fine-grained masks)

Lisans

MIT

Özellikler

  • Bilateral Reference Framework
  • DIS Segmentation
  • Alpha Matting
  • Multi-Scale Processing
  • High-Resolution Support
  • Sub-Pixel Accuracy

Benchmark Sonuçları

MetrikDeğerKarşılaştırmaKaynak
Max F-measure (DIS-TE4)0.900InSPyReNet: 0.876BiRefNet Paper (CAAI AIR 2024)
MAE (DIS-TE)0.037InSPyReNet: 0.042BiRefNet Paper (CAAI AIR 2024)
IoU Score (DIS-VD)0.92BRIA RMBG: 0.93Papers With Code - DIS5K Benchmark
İşleme Hızı (1024x1024, A100)~0.15sBiRefNet GitHub

Mevcut Platformlar

hugging face
replicate
fal ai

Sıkça Sorulan Sorular

İlgili Modeller

Segment Anything (SAM) icon

Segment Anything (SAM)

Meta|636M

Segment Anything Model (SAM), Meta AI'nin noktalar, sınırlayıcı kutular, maskeler veya metin açıklamaları dahil giriş promptlarına dayalı olarak herhangi bir görseldeki herhangi bir nesneyi segmente etmek için tasarlanmış yönlendirilebilir görsel segmentasyon temel modelidir. Nisan 2023'te 11 milyon görselden 1 milyardan fazla maske içeren SA-1B veri setiyle birlikte yayınlanan SAM, göreve özel ince ayar gerektirmeden çeşitli görevleri ele alan genel amaçlı segmentasyon modeli oluşturur. Mimari üç bileşenden oluşur: giriş görsellerini gömmelere işleyen Vision Transformer görsel kodlayıcı, farklı prompt türlerini ele alan esnek prompt kodlayıcı ve gerçek zamanlı segmentasyon maskeleri üreten hafif maske çözücü. SAM'ın sıfır atışlı aktarım yeteneği, eğitim sırasında görmediği nesneleri segmente edebileceği anlamına gelir ve onu tıbbi görüntülemeden uydu fotoğrafçılığına, yaratıcı içerik düzenlemeye kadar her görsel alana uygulanabilir kılar. Model, görseldeki her şeyi segmente eden otomatik maske üretimi, hassas nesne seçimi için etkileşimli nokta tabanlı segmentasyon ve bölge hedefleme için kutu yönlendirmeli segmentasyonu destekler. SAM, video desteğiyle SAM 2, kenar dağıtımı için EfficientSAM ve daha hızlı çıkarım için FastSAM dahil türev çalışmalara ilham vermiştir. Uygulamalar arka plan kaldırma, tıbbi görsel açıklama, otonom sürüş algısı, tarımsal izleme, CBS haritalama ve etkileşimli düzenleme araçlarını kapsar. Apache 2.0 lisansıyla tamamen açık kaynaklı olan SAM, PyTorch implementasyonları ve Meta'nın depolarından ücretsiz erişilebilir modelleriyle segmentasyon yaklaşımını temelden değiştiren en etkili bilgisayar görüşü modellerinden biri haline gelmiştir.

Açık Kaynak
4.8
RemBG icon

RemBG

Daniel Gatis|N/A

RemBG, Daniel Gatis tarafından geliştirilen, görsellerden otomatik arka plan kaldırma için basit ve verimli bir çözüm sunan, manuel seçim veya profesyonel düzenleme becerisi gerektirmeden ön plan öğelerini izole eden popüler bir açık kaynak araçtır. Araç, genel nesneler, insan figürleri, anime karakterleri ve kıyafetler gibi farklı kullanım alanları için optimize edilmiş U2-Net, IS-Net, SAM ve çeşitli özelleşmiş varyantlar dahil birden fazla önceden eğitilmiş segmentasyon modelinden yararlanır. RemBG, anlamsal segmentasyon uygulayarak ön plan öğelerini belirler ve öğeleri arka planlarından temiz biçimde ayıran hassas alfa mat maskeleri üreterek hemen kullanıma hazır şeffaf PNG çıktıları oluşturur. Uçuşan saçlar, yarı saydam kumaşlar, ince takılar ve düzensiz sınırlara sahip nesneler gibi karmaşık kenar durumlarını başarıyla ele alır. Pip ile kurulabilen Python kütüphanesi, toplu işleme için komut satırı arayüzü ve üretim dağıtımı için API entegrasyonları olarak sunulur. Verileri harici sunuculara göndermeden yerel olarak işleyebildiğinden gizlilik duyarlı uygulamalar için uygundur. Yaygın kullanım alanları e-ticaret ürün fotoğrafı hazırlama, sosyal medya içerik oluşturma, vesikalık fotoğraf işleme, grafik tasarım kompozitleme, emlak fotoğrafçılığı ve pazarlama materyali oluşturmadır. JPEG, PNG ve WebP formatlarını destekler ve tekli görseller ile toplu dizin işleme yapabilir. GitHub'da milyonlarca indirmeyle en çok yıldız alan arka plan kaldırma depolarından biri olan RemBG, MIT lisansıyla ücretli servislere ücretsiz ve ticari olarak uygulanabilir bir alternatif sunar.

Açık Kaynak
4.6
BRIA RMBG icon

BRIA RMBG

BRIA AI|N/A

BRIA RMBG, sorumlu ve ticari olarak lisanslı üretken yapay zeka çözümlerinde uzmanlaşmış İsrailli startup BRIA AI tarafından geliştirilen son teknoloji arka plan kaldırma modelidir. Model, ince saç detayları, saydam nesneler, karmaşık kenarlar, duman ve cam dahil zorlu senaryoları dikkat çekici hassasiyetle ele alarak ön plan öğelerini arka planlardan olağanüstü doğrulukla ayırır. BRIA RMBG, münhasıran lisanslı ve etik olarak temin edilmiş veriler üzerinde eğitilmiş tescilli bir mimari üzerine inşa edilmiştir ve internet'ten toplanan verilerle eğitilen modellerden farklılaşarak tam ticari güvenlik ve fikri mülkiyet uyumluluğu sağlar. İnce kenar detaylarını ve doğal saydamlık gradyanlarını koruyan yüksek kaliteli alfa matlar üreterek profesyonel iş akışlarına uygun temiz kesimler sağlar. RMBG 1.4 ve RMBG 2.0 sürümlerinde sunulan model, DIS5K ve HRS10K dahil arka plan kaldırma benchmark'larında sürekli en iyi performans gösterenler arasında yer alır. Hem araştırma hem ticari kullanım için izin verici lisansla Hugging Face üzerinden ve BRIA'nın ölçeklenebilir bulut işleme sunan ticari API platformu aracılığıyla erişilebilir. Python SDK, REST API ve popüler görsel işleme pipeline'larıyla uyumluluk dahil entegrasyon seçenekleri mevcuttur. Uygulamalar e-ticaret ürün fotoğrafçılığı, grafik tasarım kompozitleme, video konferans sanal arka planları, otomotiv ve emlak fotoğrafçılığı, sosyal medya içerik oluşturma ve belge sayısallaştırmayı kapsar. Modern GPU'larda milisaniyeler içinde işlem yapan model, gerçek zamanlı uygulamalar ve yüksek hacimli toplu işleme için uygundur. BRIA RMBG, mevcut en ticari güvenilir ve teknik açıdan gelişmiş arka plan kaldırma çözümlerinden biri olarak kendini kanıtlamıştır.

Açık Kaynak
4.7
MODNet icon

MODNet

ZHKKKe|N/A

MODNet (Matting Objective Decomposition Network), ZHKKKe tarafından geliştirilen, önceden tanımlanmış trimap veya ek kullanıcı girdisi gerektirmeden gerçek zamanlı insan portresi arka plan kaldırma için tasarlanmış açık kaynaklı bir portre matlama modelidir. Manuel trimap gerektiren geleneksel matlama yaklaşımlarının aksine MODNet, karmaşık matlama hedefini üç alt göreve ayrıştırarak tam otomatik portre matlaması gerçekleştirir: kişi bölgesini tanımlayan anlamsal tahmin, saç ve giysi sınırlarındaki kenar kalitesini iyileştiren detay tahmini ve her iki sinyali yüksek kaliteli alfa matına birleştiren anlamsal-detay füzyonu. Bu ayrıştırma, gerçek zamanlı hızlarda verimli tek geçişli çıkarım sağlayarak gecikmenin kritik olduğu video konferans, canlı yayın ve mobil fotoğrafçılık uygulamaları için pratik kılar. Model, segmentasyon tabanlı yaklaşımlar için zorlayıcı olan saç telleri, kumaş kenarları ve ince sınır detaylarını ele almada güçlü, pürüzsüz ve doğru alfa matlar üretir. Hem görsel hem video girişini destekleyen MODNet, titreşim olmadan kararlı video matlama için zamansal tutarlılık optimizasyonları sunar. Mobil cihazlarda ve kenar donanımda çalışacak kadar hafiftir; ONNX dışa aktarma desteğiyle iOS, Android ve WebAssembly aracılığıyla web tarayıcılarında dağıtım mümkündür. Yaygın uygulamalar video görüşme arka plan değiştirme, portre modu fotoğrafçılık, sosyal medya içerik oluşturma, sanal deneme sistemleri ve film post-prodüksiyonunda yeşil ekran alternatifleridir. Apache 2.0 lisansıyla yayınlanan MODNet, hem araştırma hem üretim portre matlama uygulamalarında yaygın biçimde benimsenmiş ücretsiz ve verimli bir çözüm sunar.

Açık Kaynak
4.3

Hızlı Bilgi

ParametreN/A
Tiphybrid
LisansMIT
Yayınlanma2024-01
MimariBilateral reference network with localization and reconstruction modules
Puan4.5 / 5
GeliştiriciZhengPeng7

Bağlantılar

Etiketler

birefnet
segmentation
precise
background-removal
Siteyi Ziyaret Et