Segment Anything (SAM)
Segment Anything Model (SAM), Meta AI'nin noktalar, sınırlayıcı kutular, maskeler veya metin açıklamaları dahil giriş promptlarına dayalı olarak herhangi bir görseldeki herhangi bir nesneyi segmente etmek için tasarlanmış yönlendirilebilir görsel segmentasyon temel modelidir. Nisan 2023'te 11 milyon görselden 1 milyardan fazla maske içeren SA-1B veri setiyle birlikte yayınlanan SAM, göreve özel ince ayar gerektirmeden çeşitli görevleri ele alan genel amaçlı segmentasyon modeli oluşturur. Mimari üç bileşenden oluşur: giriş görsellerini gömmelere işleyen Vision Transformer görsel kodlayıcı, farklı prompt türlerini ele alan esnek prompt kodlayıcı ve gerçek zamanlı segmentasyon maskeleri üreten hafif maske çözücü. SAM'ın sıfır atışlı aktarım yeteneği, eğitim sırasında görmediği nesneleri segmente edebileceği anlamına gelir ve onu tıbbi görüntülemeden uydu fotoğrafçılığına, yaratıcı içerik düzenlemeye kadar her görsel alana uygulanabilir kılar. Model, görseldeki her şeyi segmente eden otomatik maske üretimi, hassas nesne seçimi için etkileşimli nokta tabanlı segmentasyon ve bölge hedefleme için kutu yönlendirmeli segmentasyonu destekler. SAM, video desteğiyle SAM 2, kenar dağıtımı için EfficientSAM ve daha hızlı çıkarım için FastSAM dahil türev çalışmalara ilham vermiştir. Uygulamalar arka plan kaldırma, tıbbi görsel açıklama, otonom sürüş algısı, tarımsal izleme, CBS haritalama ve etkileşimli düzenleme araçlarını kapsar. Apache 2.0 lisansıyla tamamen açık kaynaklı olan SAM, PyTorch implementasyonları ve Meta'nın depolarından ücretsiz erişilebilir modelleriyle segmentasyon yaklaşımını temelden değiştiren en etkili bilgisayar görüşü modellerinden biri haline gelmiştir.
Öne Çıkan Özellikler
Evrensel Segmentasyon
Herhangi bir goruntudc herhangi bir nesneyi segmente edebilen sifir atisli, goreve bagimsiz segmentasyon kapasitesi
Promptlanabilir Arayuz
Nokta tiklama, kutu cizme veya metin girisi ile kullanici dostu ve esnek segmentasyon deneyimi sunar
Gercek Zamanli Maske Uretimi
Gorsel bir kez islendikten sonra her yeni prompt icin milisaniyeler icinde segmentasyon maskesi uretir
Devasa Egitim Verisi
11 milyon gorsel uzerinde 1.1 milyardan fazla maske ile egitilmis, bu sayede hemen her gorsel alanda basarili
Hakkında
Segment Anything Model (SAM), Meta AI Research tarafından geliştirilen ve Nisan 2023'te yayınlanan görüntü segmentasyonu için temel bir AI modelidir. SAM, noktalar, kutular veya metin promptları kullanarak herhangi bir görüntüde herhangi bir nesneyi segmente edebilen promptlanabilir segmentasyon sistemi kavramını tanıtmıştır. Bu sıfır atışlı yetenek, büyük dil modellerinin doğal dil işleme için başardıklarına benzer şekilde bilgisayarla görmede bir paradigma değişikliğine işaret etmiştir ve modeli bilgisayarla görme tarihinin en etkili yayınlarından biri haline getirmiştir.
SAM, şimdiye kadar oluşturulmuş en büyük segmentasyon veri seti olan SA-1B veri setinde eğitilmiştir. Bu veri seti, 11 milyon görsel üzerinde 1,1 milyardan fazla maske içerir ve bu ölçek, önceki tüm segmentasyon veri setlerini katbekat aşar. Eğitim verileri, model destekli anotasyonu insan doğrulamasıyla birleştiren yenilikçi bir veri motoru aracılığıyla toplanmıştır. Bu devasa ölçekteki eğitim verisi, SAM'in göreve özel ince ayar gerektirmeden neredeyse her görsel alanda genelleme yapmasını sağlar ve modelin çok çeşitli nesneleri, dokuları ve sahne türlerini başarıyla segmente etmesine olanak tanır. Veri motorunun yinelemeli tasarımı, modelin kalitesini sürekli artırarak daha iyi anotasyonlar ve daha güçlü genelleme yeteneği sağlamıştır.
Mimari olarak SAM üç bileşenden oluşur: MAE ile ön eğitilmiş Vision Transformer (ViT) tabanlı bir görsel kodlayıcı, noktalar, kutular ve metin girişlerini işleyen esnek bir prompt kodlayıcı ve gerçek zamanlı segmentasyon maskeleri üreten hafif bir maske kod çözücü. Görsel kodlayıcı her görseli yalnızca bir kez işler ve ardından birden fazla prompt neredeyse anında farklı maskeler üretebilir, bu da etkileşimli segmentasyonu pratik hale getirir. ViT-H, ViT-L ve ViT-B olmak üzere üç farklı boyutta sunulan model, performans ve hesaplama maliyeti arasında denge kurma imkânı sunar ve farklı donanım konfigürasyonlarına uyum sağlar.
SAM'in en dikkat çekici özelliklerinden biri, belirsizlik farkındalığıdır. Tek bir prompt için birden fazla geçerli segmentasyon olasılığı bulunduğunda, model birden fazla maske önerisi üretir ve her biri için güven skoru sağlar. Bu özellik, örtüşen nesneler, karmaşık sahneler ve belirsiz sınırlar gibi zorlu durumlarla başa çıkmayı kolaylaştırır. Ayrıca SAM, otomatik maske üretimi modunda bir görüntüdeki tüm nesneleri hiçbir prompt gerekmeden segmente edebilir ve bu mod veri seti oluşturma ile kapsamlı sahne analizi için son derece yararlıdır.
SAM, tıbbi görüntüleme, otonom sürüş, tarım, uydu görüntüsü analizi, artırılmış gerçeklik ve yaratıcı uygulamalar dahil olmak üzere sektörler arasında geniş ölçüde benimsenmiştir. Tıp alanında tümör segmentasyonu, organ sınırlandırma ve hücre sayımı gibi görevlerde ince ayar yapılarak kullanılmaktadır. Tarımda bitki hastalığı tespiti ve mahsul analizi, uzaktan algılamada bina ve yol segmentasyonu gibi çeşitli alanlarda uygulanmaktadır. Robotik alanında nesne kavrama ve sahne anlama görevleri için temel model olarak kullanılmakta, otonom araçlarda ise yol öğelerinin ve engellerin segmentasyonu için adapte edilmektedir.
Apache 2.0 lisansı altındaki açık kaynak yayını, türev çalışmalar, ince ayarlı varyantlar ve entegre uygulamalardan oluşan geniş bir ekosistem ortaya çıkarmıştır. GitHub, Hugging Face ve çeşitli bulut platformları üzerinden mevcut olan SAM, şimdiye kadar yayınlanan en erişilebilir ve etkili bilgisayarla görme modellerinden biridir. Araştırma topluluğu, SAM üzerine yüzlerce makale yayınlamış ve modelin yeteneklerini genişleten çok sayıda türev proje geliştirmiştir. FastSAM, MobileSAM ve EfficientSAM gibi hafifletilmiş varyantlar, modelin mobil ve edge cihazlarda da kullanılmasını mümkün kılmıştır.
Kullanım Senaryoları
Tibbi Goruntuleme
Rontgen, MR ve CT taramalarinda organ ve lezyon segmentasyonu icin tibbi arastirma ve teshis destegi
E-Ticaret Gorsel Isleme
Urun gorsellerinden nesne izolasyonu, arka plan kaldirma ve otomatik urun maskeleme islemleri
Otonom Suruş
Yol, arac, yaya ve trafik isaretlerinin gercek zamanli segmentasyonu icin surucu destek sistemleri
Yaratici Tasarim
Fotograflardan nesne cikarma, kompozisyon olusturma ve gorsel duzenleme is akislari icin hassas segmentasyon
Artılar ve Eksiler
Artılar
- Zero-shot yeteneği ile kutudan çıkar çıkmaz çok çeşitli görsel ve videolarda çalışır
- Veri anotasyonu ve hızlı prototipleme için zaman ve maliyeti dramatik şekilde azaltır
- Yaygın nesneler ve sahneler için yüksek kaliteli maskeler üretir; etkileşimli uygulamalar için hızlı decoder
- Kapsamlı yeniden eğitim gerektirmeden alanlar arası genellenebilirlik; Meta desteği ile güçlü topluluk ve hızlı evrim (SAM → SAM 2 → SAM 3)
Eksiler
- Semantik anlama yeteneği yok; segmente eder ama sınıflandırmaz, ne segmente ettiğinizi bilmek için başka modeller gerekir
- Uzmanlaşmış verilerde (tıbbi, endüstriyel kusurlar) fine-tuning olmadan düşük performans
- Düşük kaliteli promptlar verildiğinde arka plana sapan veya nesne parçalarıyla sınırlı kalan sonuçlar üretir
- Karmaşık sahneler için ön bilgi gerektiren daha fazla manuel prompt gerekir; kullanıcı deneyimini olumsuz etkileyebilir
- SAM 2: uzun sekanslar, benzer nesnelerin karışması ve çoklu nesne işlemede performans düşüşü
Teknik Detaylar
Parametre
636M
Mimari
ViT-based image encoder + prompt encoder + lightweight mask decoder
Eğitim Verisi
SA-1B dataset (11M images, 1.1B masks, largest segmentation dataset)
Lisans
Apache 2.0
Özellikler
- Zero-Shot Segmentation
- Point Prompt
- Box Prompt
- Text Prompt
- Gerçek zamanlı Inference
- SA-1B Dataset
Benchmark Sonuçları
| Metrik | Değer | Karşılaştırma | Kaynak |
|---|---|---|---|
| Training Dataset | SA-1B: 11M images, 1.1B masks | — | Meta AI / SAM Paper (ICCV 2023) |
| Mask Quality (IoU >90%) | 94% | — | SAM Paper (ICCV 2023) |
| Mask Quality (IoU >75%) | 97% | — | SAM Paper (ICCV 2023) |
| Zero-Shot Performance | Best on 16 of 23 datasets | — | SAM Paper (ICCV 2023) |
Mevcut Platformlar
Sıkça Sorulan Sorular
İlgili Modeller
RemBG
RemBG, Daniel Gatis tarafından geliştirilen, görsellerden otomatik arka plan kaldırma için basit ve verimli bir çözüm sunan, manuel seçim veya profesyonel düzenleme becerisi gerektirmeden ön plan öğelerini izole eden popüler bir açık kaynak araçtır. Araç, genel nesneler, insan figürleri, anime karakterleri ve kıyafetler gibi farklı kullanım alanları için optimize edilmiş U2-Net, IS-Net, SAM ve çeşitli özelleşmiş varyantlar dahil birden fazla önceden eğitilmiş segmentasyon modelinden yararlanır. RemBG, anlamsal segmentasyon uygulayarak ön plan öğelerini belirler ve öğeleri arka planlarından temiz biçimde ayıran hassas alfa mat maskeleri üreterek hemen kullanıma hazır şeffaf PNG çıktıları oluşturur. Uçuşan saçlar, yarı saydam kumaşlar, ince takılar ve düzensiz sınırlara sahip nesneler gibi karmaşık kenar durumlarını başarıyla ele alır. Pip ile kurulabilen Python kütüphanesi, toplu işleme için komut satırı arayüzü ve üretim dağıtımı için API entegrasyonları olarak sunulur. Verileri harici sunuculara göndermeden yerel olarak işleyebildiğinden gizlilik duyarlı uygulamalar için uygundur. Yaygın kullanım alanları e-ticaret ürün fotoğrafı hazırlama, sosyal medya içerik oluşturma, vesikalık fotoğraf işleme, grafik tasarım kompozitleme, emlak fotoğrafçılığı ve pazarlama materyali oluşturmadır. JPEG, PNG ve WebP formatlarını destekler ve tekli görseller ile toplu dizin işleme yapabilir. GitHub'da milyonlarca indirmeyle en çok yıldız alan arka plan kaldırma depolarından biri olan RemBG, MIT lisansıyla ücretli servislere ücretsiz ve ticari olarak uygulanabilir bir alternatif sunar.
BRIA RMBG
BRIA RMBG, sorumlu ve ticari olarak lisanslı üretken yapay zeka çözümlerinde uzmanlaşmış İsrailli startup BRIA AI tarafından geliştirilen son teknoloji arka plan kaldırma modelidir. Model, ince saç detayları, saydam nesneler, karmaşık kenarlar, duman ve cam dahil zorlu senaryoları dikkat çekici hassasiyetle ele alarak ön plan öğelerini arka planlardan olağanüstü doğrulukla ayırır. BRIA RMBG, münhasıran lisanslı ve etik olarak temin edilmiş veriler üzerinde eğitilmiş tescilli bir mimari üzerine inşa edilmiştir ve internet'ten toplanan verilerle eğitilen modellerden farklılaşarak tam ticari güvenlik ve fikri mülkiyet uyumluluğu sağlar. İnce kenar detaylarını ve doğal saydamlık gradyanlarını koruyan yüksek kaliteli alfa matlar üreterek profesyonel iş akışlarına uygun temiz kesimler sağlar. RMBG 1.4 ve RMBG 2.0 sürümlerinde sunulan model, DIS5K ve HRS10K dahil arka plan kaldırma benchmark'larında sürekli en iyi performans gösterenler arasında yer alır. Hem araştırma hem ticari kullanım için izin verici lisansla Hugging Face üzerinden ve BRIA'nın ölçeklenebilir bulut işleme sunan ticari API platformu aracılığıyla erişilebilir. Python SDK, REST API ve popüler görsel işleme pipeline'larıyla uyumluluk dahil entegrasyon seçenekleri mevcuttur. Uygulamalar e-ticaret ürün fotoğrafçılığı, grafik tasarım kompozitleme, video konferans sanal arka planları, otomotiv ve emlak fotoğrafçılığı, sosyal medya içerik oluşturma ve belge sayısallaştırmayı kapsar. Modern GPU'larda milisaniyeler içinde işlem yapan model, gerçek zamanlı uygulamalar ve yüksek hacimli toplu işleme için uygundur. BRIA RMBG, mevcut en ticari güvenilir ve teknik açıdan gelişmiş arka plan kaldırma çözümlerinden biri olarak kendini kanıtlamıştır.
BiRefNet
BiRefNet (Bilateral Reference Network), ZhengPeng7 tarafından geliştirilen, ince yapısal detaylarda piksel düzeyinde doğrulukla ön plan nesnelerini arka planlardan hassas biçimde ayırmak için tasarlanmış yüksek çözünürlüklü ikili görsel segmentasyonu için gelişmiş açık kaynaklı segmentasyon modelidir. Model, çift dallı mimari aracılığıyla hem global anlamsal bilgiyi hem yerel detay özelliklerini kullanan ikili referans çerçevesi sunarak geleneksel segmentasyon yaklaşımlarına kıyasla üstün kenar kalitesi sağlar. BiRefNet, çok ölçekli özellikler çıkarmak için omurga kodlayıcıdan görselleri işler, ardından global bağlamı yerel sınır bilgisiyle çapraz referanslayan ikili referans modülleri uygulayarak saç telleri, dantel desenleri, zincir halkaları ve saydam malzemeler gibi karmaşık yapılar etrafında temiz kenarlara sahip net segmentasyon maskeleri üretir. DIS5K dahil birden fazla benchmark'ta son teknoloji sonuçlar elde eder ve geleneksel modelleri zorlayan karmaşık sınırlara sahip nesneleri ele almada güç gösterir. BiRefNet, olağanüstü kenar kalitesi sayesinde arka plan kaldırma çözümü olarak popülerlik kazanmış ve zorlu görsellerde birçok özel arka plan kaldırma aracını geride bırakmıştır. Yüksek çözünürlüklü giriş işlemeyi destekler ve profesyonel kompozitleme için uygun alfa matlar üretir. Farklı kalite-hız dengeleri için optimize edilmiş çeşitli varyantlarla Hugging Face üzerinden sunulan BiRefNet, Python tabanlı pipeline'lara kolayca entegre olur. Ürün fotoğrafçılığı için hassas arka plan kaldırma, grafik tasarım için nesne izolasyonu, tıbbi görsel segmentasyon ve görsel efekt çalışmaları için yüksek kaliteli kesimler başlıca uygulama alanlarıdır. Açık kaynak lisansıyla yayınlanan BiRefNet, ticari segmentasyon servislerine ücretsiz ve teknik açıdan sofistike bir alternatif sunar.
MODNet
MODNet (Matting Objective Decomposition Network), ZHKKKe tarafından geliştirilen, önceden tanımlanmış trimap veya ek kullanıcı girdisi gerektirmeden gerçek zamanlı insan portresi arka plan kaldırma için tasarlanmış açık kaynaklı bir portre matlama modelidir. Manuel trimap gerektiren geleneksel matlama yaklaşımlarının aksine MODNet, karmaşık matlama hedefini üç alt göreve ayrıştırarak tam otomatik portre matlaması gerçekleştirir: kişi bölgesini tanımlayan anlamsal tahmin, saç ve giysi sınırlarındaki kenar kalitesini iyileştiren detay tahmini ve her iki sinyali yüksek kaliteli alfa matına birleştiren anlamsal-detay füzyonu. Bu ayrıştırma, gerçek zamanlı hızlarda verimli tek geçişli çıkarım sağlayarak gecikmenin kritik olduğu video konferans, canlı yayın ve mobil fotoğrafçılık uygulamaları için pratik kılar. Model, segmentasyon tabanlı yaklaşımlar için zorlayıcı olan saç telleri, kumaş kenarları ve ince sınır detaylarını ele almada güçlü, pürüzsüz ve doğru alfa matlar üretir. Hem görsel hem video girişini destekleyen MODNet, titreşim olmadan kararlı video matlama için zamansal tutarlılık optimizasyonları sunar. Mobil cihazlarda ve kenar donanımda çalışacak kadar hafiftir; ONNX dışa aktarma desteğiyle iOS, Android ve WebAssembly aracılığıyla web tarayıcılarında dağıtım mümkündür. Yaygın uygulamalar video görüşme arka plan değiştirme, portre modu fotoğrafçılık, sosyal medya içerik oluşturma, sanal deneme sistemleri ve film post-prodüksiyonunda yeşil ekran alternatifleridir. Apache 2.0 lisansıyla yayınlanan MODNet, hem araştırma hem üretim portre matlama uygulamalarında yaygın biçimde benimsenmiş ücretsiz ve verimli bir çözüm sunar.