SAM uc bileisenden olusur: Gorseli islsyen ViT tabanli gorsel kodlayici, kullanici girislerini (nokta, kutu, metin) islsyen prompt kodlayici ve segmentasyon maskeleri ureten maske kod cozucu. Gorsel bir kez kodlandiktan sonra, farkli promptlarla milisaniyeler icinde birden fazla maske uretilebilir.

SAM hangi veri setinde egitilmistir?

SAM, simdiye kadar olusturulmus en buyuk segmentasyon veri seti olan SA-1B'de egitilmistir. Bu veri seti 11 milyon gorsel uzerinde 1.1 milyardan fazla yuksek kaliteli segmentasyon maskesi icerir. Veri, model destekli anotasyon ve insan dogrulamasi kombinasyonuyla olusturulmustur.

SAM acik kaynak midir?

Evet, SAM Apache 2.0 lisansi altinda tamamen acik kaynak olarak yayinlanmistir. Kaynak kodu, onceden egitilmis modeller ve demo uygulamasi GitHub uzerinde mevcuttur. Hem arastirma hem de ticari kullanim icin serbestce kullanilabiIir ve genis bir turev calisma ekosistemi oluSmustur.

SAM ile klasik segmentasyon yontemleri arasindaki fark nedir?

Klasik segmentasyon yontemleri belirli nesne kategorileri icin egitilir ve yeni kategoriler icin yeniden egitim gerektirir. SAM ise sifir atisli olarak herhangi bir nesneyi segmente edebilir. Ayrica kullanici promptlariyla etkilesimli segmentasyon destekler, bu da onu cok daha esnek ve genel amacli kilmaktadir.

SAM icin hangi donanim gereklidir?

SAM'in ViT-H (en buyuk) modeli icin inference sirasinda minimum 8GB VRAM'li bir GPU onerilir. ViT-B (en kucuk) modeli 4GB VRAM ile calisabilir. Gorsel kodlama adimi en yogun islemdir (~150ms GPU'da), ancak ardindan her prompt icin maske uretimi ~50ms surer.

SAM video segmentasyonu yapabilir mi?

Orijinal SAM tek gorsel segmentasyonu icin tasarlanmistir ve video segmentasyonu icin dogrudan destek sunmaz. Ancak SAM 2 (Segment Anything 2), video segmentasyonu destegi ile yayinlanmistir ve gercek zamanli video nesne takibi ve segmentasyonu yapabilmektedir.

Segment Anything (SAM)

Açık Kaynak

4.8

Öne Çıkan Özellikler

Evrensel Segmentasyon

Herhangi bir goruntudc herhangi bir nesneyi segmente edebilen sifir atisli, goreve bagimsiz segmentasyon kapasitesi

Promptlanabilir Arayuz

Nokta tiklama, kutu cizme veya metin girisi ile kullanici dostu ve esnek segmentasyon deneyimi sunar

Gercek Zamanli Maske Uretimi

Gorsel bir kez islendikten sonra her yeni prompt icin milisaniyeler icinde segmentasyon maskesi uretir

Devasa Egitim Verisi

11 milyon gorsel uzerinde 1.1 milyardan fazla maske ile egitilmis, bu sayede hemen her gorsel alanda basarili

Hakkında

Segment Anything Model (SAM), Meta AI Research tarafından geliştirilen ve Nisan 2023'te yayınlanan görüntü segmentasyonu için temel bir AI modelidir. SAM, noktalar, kutular veya metin promptları kullanarak herhangi bir görüntüde herhangi bir nesneyi segmente edebilen promptlanabilir segmentasyon sistemi kavramını tanıtmıştır. Bu sıfır atışlı yetenek, büyük dil modellerinin doğal dil işleme için başardıklarına benzer şekilde bilgisayarla görmede bir paradigma değişikliğine işaret etmiştir ve modeli bilgisayarla görme tarihinin en etkili yayınlarından biri haline getirmiştir.

SAM, şimdiye kadar oluşturulmuş en büyük segmentasyon veri seti olan SA-1B veri setinde eğitilmiştir. Bu veri seti, 11 milyon görsel üzerinde 1,1 milyardan fazla maske içerir ve bu ölçek, önceki tüm segmentasyon veri setlerini katbekat aşar. Eğitim verileri, model destekli anotasyonu insan doğrulamasıyla birleştiren yenilikçi bir veri motoru aracılığıyla toplanmıştır. Bu devasa ölçekteki eğitim verisi, SAM'in göreve özel ince ayar gerektirmeden neredeyse her görsel alanda genelleme yapmasını sağlar ve modelin çok çeşitli nesneleri, dokuları ve sahne türlerini başarıyla segmente etmesine olanak tanır. Veri motorunun yinelemeli tasarımı, modelin kalitesini sürekli artırarak daha iyi anotasyonlar ve daha güçlü genelleme yeteneği sağlamıştır.

Mimari olarak SAM üç bileşenden oluşur: MAE ile ön eğitilmiş Vision Transformer (ViT) tabanlı bir görsel kodlayıcı, noktalar, kutular ve metin girişlerini işleyen esnek bir prompt kodlayıcı ve gerçek zamanlı segmentasyon maskeleri üreten hafif bir maske kod çözücü. Görsel kodlayıcı her görseli yalnızca bir kez işler ve ardından birden fazla prompt neredeyse anında farklı maskeler üretebilir, bu da etkileşimli segmentasyonu pratik hale getirir. ViT-H, ViT-L ve ViT-B olmak üzere üç farklı boyutta sunulan model, performans ve hesaplama maliyeti arasında denge kurma imkânı sunar ve farklı donanım konfigürasyonlarına uyum sağlar.

SAM'in en dikkat çekici özelliklerinden biri, belirsizlik farkındalığıdır. Tek bir prompt için birden fazla geçerli segmentasyon olasılığı bulunduğunda, model birden fazla maske önerisi üretir ve her biri için güven skoru sağlar. Bu özellik, örtüşen nesneler, karmaşık sahneler ve belirsiz sınırlar gibi zorlu durumlarla başa çıkmayı kolaylaştırır. Ayrıca SAM, otomatik maske üretimi modunda bir görüntüdeki tüm nesneleri hiçbir prompt gerekmeden segmente edebilir ve bu mod veri seti oluşturma ile kapsamlı sahne analizi için son derece yararlıdır.

SAM, tıbbi görüntüleme, otonom sürüş, tarım, uydu görüntüsü analizi, artırılmış gerçeklik ve yaratıcı uygulamalar dahil olmak üzere sektörler arasında geniş ölçüde benimsenmiştir. Tıp alanında tümör segmentasyonu, organ sınırlandırma ve hücre sayımı gibi görevlerde ince ayar yapılarak kullanılmaktadır. Tarımda bitki hastalığı tespiti ve mahsul analizi, uzaktan algılamada bina ve yol segmentasyonu gibi çeşitli alanlarda uygulanmaktadır. Robotik alanında nesne kavrama ve sahne anlama görevleri için temel model olarak kullanılmakta, otonom araçlarda ise yol öğelerinin ve engellerin segmentasyonu için adapte edilmektedir.

Apache 2.0 lisansı altındaki açık kaynak yayını, türev çalışmalar, ince ayarlı varyantlar ve entegre uygulamalardan oluşan geniş bir ekosistem ortaya çıkarmıştır. GitHub, Hugging Face ve çeşitli bulut platformları üzerinden mevcut olan SAM, şimdiye kadar yayınlanan en erişilebilir ve etkili bilgisayarla görme modellerinden biridir. Araştırma topluluğu, SAM üzerine yüzlerce makale yayınlamış ve modelin yeteneklerini genişleten çok sayıda türev proje geliştirmiştir. FastSAM, MobileSAM ve EfficientSAM gibi hafifletilmiş varyantlar, modelin mobil ve edge cihazlarda da kullanılmasını mümkün kılmıştır.

Kullanım Senaryoları

Tibbi Goruntuleme

Rontgen, MR ve CT taramalarinda organ ve lezyon segmentasyonu icin tibbi arastirma ve teshis destegi

E-Ticaret Gorsel Isleme

Urun gorsellerinden nesne izolasyonu, arka plan kaldirma ve otomatik urun maskeleme islemleri

Otonom Suruş

Yol, arac, yaya ve trafik isaretlerinin gercek zamanli segmentasyonu icin surucu destek sistemleri

Yaratici Tasarim

Fotograflardan nesne cikarma, kompozisyon olusturma ve gorsel duzenleme is akislari icin hassas segmentasyon

Artılar ve Eksiler

Artılar

Zero-shot yeteneği ile kutudan çıkar çıkmaz çok çeşitli görsel ve videolarda çalışır
Veri anotasyonu ve hızlı prototipleme için zaman ve maliyeti dramatik şekilde azaltır
Yaygın nesneler ve sahneler için yüksek kaliteli maskeler üretir; etkileşimli uygulamalar için hızlı decoder
Kapsamlı yeniden eğitim gerektirmeden alanlar arası genellenebilirlik; Meta desteği ile güçlü topluluk ve hızlı evrim (SAM → SAM 2 → SAM 3)

Eksiler

Semantik anlama yeteneği yok; segmente eder ama sınıflandırmaz, ne segmente ettiğinizi bilmek için başka modeller gerekir
Uzmanlaşmış verilerde (tıbbi, endüstriyel kusurlar) fine-tuning olmadan düşük performans
Düşük kaliteli promptlar verildiğinde arka plana sapan veya nesne parçalarıyla sınırlı kalan sonuçlar üretir
Karmaşık sahneler için ön bilgi gerektiren daha fazla manuel prompt gerekir; kullanıcı deneyimini olumsuz etkileyebilir
SAM 2: uzun sekanslar, benzer nesnelerin karışması ve çoklu nesne işlemede performans düşüşü

Teknik Detaylar

Parametre

636M

Mimari

ViT-based image encoder + prompt encoder + lightweight mask decoder

Eğitim Verisi

SA-1B dataset (11M images, 1.1B masks, largest segmentation dataset)

Lisans

Apache 2.0

Özellikler

Zero-Shot Segmentation
Point Prompt
Box Prompt
Text Prompt
Gerçek zamanlı Inference
SA-1B Dataset

Benchmark Sonuçları

Metrik	Değer	Karşılaştırma	Kaynak
Training Dataset	SA-1B: 11M images, 1.1B masks	—	Meta AI / SAM Paper (ICCV 2023)
Mask Quality (IoU >90%)	94%	—	SAM Paper (ICCV 2023)
Mask Quality (IoU >75%)	97%	—	SAM Paper (ICCV 2023)
Zero-Shot Performance	Best on 16 of 23 datasets	—	SAM Paper (ICCV 2023)

Mevcut Platformlar

hugging face

replicate

fal ai

Sıkça Sorulan Sorular

İlgili Modeller

RemBG

Daniel Gatis|N/A

RemBG, Daniel Gatis tarafından geliştirilen, görsellerden otomatik arka plan kaldırma için basit ve verimli bir çözüm sunan, manuel seçim veya profesyonel düzenleme becerisi gerektirmeden ön plan öğelerini izole eden popüler bir açık kaynak araçtır. Araç, genel nesneler, insan figürleri, anime karakterleri ve kıyafetler gibi farklı kullanım alanları için optimize edilmiş U2-Net, IS-Net, SAM ve çeşitli özelleşmiş varyantlar dahil birden fazla önceden eğitilmiş segmentasyon modelinden yararlanır. RemBG, anlamsal segmentasyon uygulayarak ön plan öğelerini belirler ve öğeleri arka planlarından temiz biçimde ayıran hassas alfa mat maskeleri üreterek hemen kullanıma hazır şeffaf PNG çıktıları oluşturur. Uçuşan saçlar, yarı saydam kumaşlar, ince takılar ve düzensiz sınırlara sahip nesneler gibi karmaşık kenar durumlarını başarıyla ele alır. Pip ile kurulabilen Python kütüphanesi, toplu işleme için komut satırı arayüzü ve üretim dağıtımı için API entegrasyonları olarak sunulur. Verileri harici sunuculara göndermeden yerel olarak işleyebildiğinden gizlilik duyarlı uygulamalar için uygundur. Yaygın kullanım alanları e-ticaret ürün fotoğrafı hazırlama, sosyal medya içerik oluşturma, vesikalık fotoğraf işleme, grafik tasarım kompozitleme, emlak fotoğrafçılığı ve pazarlama materyali oluşturmadır. JPEG, PNG ve WebP formatlarını destekler ve tekli görseller ile toplu dizin işleme yapabilir. GitHub'da milyonlarca indirmeyle en çok yıldız alan arka plan kaldırma depolarından biri olan RemBG, MIT lisansıyla ücretli servislere ücretsiz ve ticari olarak uygulanabilir bir alternatif sunar.

Açık Kaynak

4.6

BRIA RMBG

BRIA AI|N/A

BRIA RMBG, sorumlu ve ticari olarak lisanslı üretken yapay zeka çözümlerinde uzmanlaşmış İsrailli startup BRIA AI tarafından geliştirilen son teknoloji arka plan kaldırma modelidir. Model, ince saç detayları, saydam nesneler, karmaşık kenarlar, duman ve cam dahil zorlu senaryoları dikkat çekici hassasiyetle ele alarak ön plan öğelerini arka planlardan olağanüstü doğrulukla ayırır. BRIA RMBG, münhasıran lisanslı ve etik olarak temin edilmiş veriler üzerinde eğitilmiş tescilli bir mimari üzerine inşa edilmiştir ve internet'ten toplanan verilerle eğitilen modellerden farklılaşarak tam ticari güvenlik ve fikri mülkiyet uyumluluğu sağlar. İnce kenar detaylarını ve doğal saydamlık gradyanlarını koruyan yüksek kaliteli alfa matlar üreterek profesyonel iş akışlarına uygun temiz kesimler sağlar. RMBG 1.4 ve RMBG 2.0 sürümlerinde sunulan model, DIS5K ve HRS10K dahil arka plan kaldırma benchmark'larında sürekli en iyi performans gösterenler arasında yer alır. Hem araştırma hem ticari kullanım için izin verici lisansla Hugging Face üzerinden ve BRIA'nın ölçeklenebilir bulut işleme sunan ticari API platformu aracılığıyla erişilebilir. Python SDK, REST API ve popüler görsel işleme pipeline'larıyla uyumluluk dahil entegrasyon seçenekleri mevcuttur. Uygulamalar e-ticaret ürün fotoğrafçılığı, grafik tasarım kompozitleme, video konferans sanal arka planları, otomotiv ve emlak fotoğrafçılığı, sosyal medya içerik oluşturma ve belge sayısallaştırmayı kapsar. Modern GPU'larda milisaniyeler içinde işlem yapan model, gerçek zamanlı uygulamalar ve yüksek hacimli toplu işleme için uygundur. BRIA RMBG, mevcut en ticari güvenilir ve teknik açıdan gelişmiş arka plan kaldırma çözümlerinden biri olarak kendini kanıtlamıştır.

Açık Kaynak

4.7

BiRefNet

ZhengPeng7|N/A

BiRefNet (Bilateral Reference Network), ZhengPeng7 tarafından geliştirilen, ince yapısal detaylarda piksel düzeyinde doğrulukla ön plan nesnelerini arka planlardan hassas biçimde ayırmak için tasarlanmış yüksek çözünürlüklü ikili görsel segmentasyonu için gelişmiş açık kaynaklı segmentasyon modelidir. Model, çift dallı mimari aracılığıyla hem global anlamsal bilgiyi hem yerel detay özelliklerini kullanan ikili referans çerçevesi sunarak geleneksel segmentasyon yaklaşımlarına kıyasla üstün kenar kalitesi sağlar. BiRefNet, çok ölçekli özellikler çıkarmak için omurga kodlayıcıdan görselleri işler, ardından global bağlamı yerel sınır bilgisiyle çapraz referanslayan ikili referans modülleri uygulayarak saç telleri, dantel desenleri, zincir halkaları ve saydam malzemeler gibi karmaşık yapılar etrafında temiz kenarlara sahip net segmentasyon maskeleri üretir. DIS5K dahil birden fazla benchmark'ta son teknoloji sonuçlar elde eder ve geleneksel modelleri zorlayan karmaşık sınırlara sahip nesneleri ele almada güç gösterir. BiRefNet, olağanüstü kenar kalitesi sayesinde arka plan kaldırma çözümü olarak popülerlik kazanmış ve zorlu görsellerde birçok özel arka plan kaldırma aracını geride bırakmıştır. Yüksek çözünürlüklü giriş işlemeyi destekler ve profesyonel kompozitleme için uygun alfa matlar üretir. Farklı kalite-hız dengeleri için optimize edilmiş çeşitli varyantlarla Hugging Face üzerinden sunulan BiRefNet, Python tabanlı pipeline'lara kolayca entegre olur. Ürün fotoğrafçılığı için hassas arka plan kaldırma, grafik tasarım için nesne izolasyonu, tıbbi görsel segmentasyon ve görsel efekt çalışmaları için yüksek kaliteli kesimler başlıca uygulama alanlarıdır. Açık kaynak lisansıyla yayınlanan BiRefNet, ticari segmentasyon servislerine ücretsiz ve teknik açıdan sofistike bir alternatif sunar.

Açık Kaynak

4.5

MODNet

ZHKKKe|N/A

MODNet (Matting Objective Decomposition Network), ZHKKKe tarafından geliştirilen, önceden tanımlanmış trimap veya ek kullanıcı girdisi gerektirmeden gerçek zamanlı insan portresi arka plan kaldırma için tasarlanmış açık kaynaklı bir portre matlama modelidir. Manuel trimap gerektiren geleneksel matlama yaklaşımlarının aksine MODNet, karmaşık matlama hedefini üç alt göreve ayrıştırarak tam otomatik portre matlaması gerçekleştirir: kişi bölgesini tanımlayan anlamsal tahmin, saç ve giysi sınırlarındaki kenar kalitesini iyileştiren detay tahmini ve her iki sinyali yüksek kaliteli alfa matına birleştiren anlamsal-detay füzyonu. Bu ayrıştırma, gerçek zamanlı hızlarda verimli tek geçişli çıkarım sağlayarak gecikmenin kritik olduğu video konferans, canlı yayın ve mobil fotoğrafçılık uygulamaları için pratik kılar. Model, segmentasyon tabanlı yaklaşımlar için zorlayıcı olan saç telleri, kumaş kenarları ve ince sınır detaylarını ele almada güçlü, pürüzsüz ve doğru alfa matlar üretir. Hem görsel hem video girişini destekleyen MODNet, titreşim olmadan kararlı video matlama için zamansal tutarlılık optimizasyonları sunar. Mobil cihazlarda ve kenar donanımda çalışacak kadar hafiftir; ONNX dışa aktarma desteğiyle iOS, Android ve WebAssembly aracılığıyla web tarayıcılarında dağıtım mümkündür. Yaygın uygulamalar video görüşme arka plan değiştirme, portre modu fotoğrafçılık, sosyal medya içerik oluşturma, sanal deneme sistemleri ve film post-prodüksiyonunda yeşil ekran alternatifleridir. Apache 2.0 lisansıyla yayınlanan MODNet, hem araştırma hem üretim portre matlama uygulamalarında yaygın biçimde benimsenmiş ücretsiz ve verimli bir çözüm sunar.

Açık Kaynak

4.3

Hızlı Bilgi

Parametre636M

Tiptransformer

LisansApache 2.0

Yayınlanma2023-04

MimariViT-based image encoder + prompt encoder + lightweight mask decoder

Puan4.8 / 5

GeliştiriciMeta

Bağlantılar

Resmi Site GitHub arXiv Paper HuggingFace

Etiketler

sam

Segment Anything (SAM)

Öne Çıkan Özellikler

Evrensel Segmentasyon

Promptlanabilir Arayuz

Gercek Zamanli Maske Uretimi

Devasa Egitim Verisi

Hakkında

Kullanım Senaryoları

Tibbi Goruntuleme

E-Ticaret Gorsel Isleme

Otonom Suruş

Yaratici Tasarim

Artılar ve Eksiler

Artılar

Eksiler

Teknik Detaylar

Özellikler

Benchmark Sonuçları

Mevcut Platformlar

Sıkça Sorulan Sorular

SAM nasil calisir?

SAM hangi veri setinde egitilmistir?

SAM acik kaynak midir?

SAM ile klasik segmentasyon yontemleri arasindaki fark nedir?

SAM icin hangi donanim gereklidir?

SAM video segmentasyonu yapabilir mi?

İlgili Modeller

RemBG

BRIA RMBG

BiRefNet

MODNet

Hızlı Bilgi

Bağlantılar

Etiketler