Segment Anything 2 (SAM 2) icon

Segment Anything 2 (SAM 2)

Açık Kaynak
4.8
Meta

Segment Anything 2 (SAM 2), Meta AI tarafından geliştirilen ve görüntü ile video segmentasyonunu streaming bellek modülüyle güçlendirilmiş tek bir Transformer tabanlı mimaride birleştiren evrensel bir segmentasyon modelidir. Orijinal SAM'in çığır açıcı başarısını video alanına taşıyan SAM 2, kullanıcıların tek bir karede nokta, sınırlayıcı kutu veya maske gibi basit promptlar sağlayarak herhangi bir nesneyi video kareleri boyunca segmente etmesine olanak tanır. Model, bellek dikkat mekanizması sayesinde segmentasyonu tüm video boyunca otomatik olarak yayar ve oklüzyonlar ile nesne yeniden görünmeleri sırasında bile zamansal tutarlılığı korur. Yaklaşık 300 milyon parametreyle SAM 2, çeşitli segmentasyon kıyaslamalarında son teknoloji doğruluk sunarken gerçek zamanlı performans sağlar. Mimari, hem görüntüleri hem de tek tek video karelerini paylaşımlı bir görüntü kodlayıcı aracılığıyla işleyerek statik ve dinamik içerik için çok yönlü bir çözüm sunar. SAM 2, 50.000 video üzerinde 600.000'den fazla masklet açıklaması içeren bugüne kadarki en büyük video segmentasyon veri seti olan SA-V üzerinde eğitilmiştir. Apache 2.0 lisansı altında yayınlanan model tamamen açık kaynaklıdır ve önceden eğitilmiş ağırlıklarla GitHub üzerinden erişilebilir. Video düzenleme, görsel efektler, otonom sürüş algısı, tıbbi görüntüleme, artırılmış gerçeklik ve robotik gibi geniş bir uygulama yelpazesine hizmet eder.

Segmentasyon

Öne Çıkan Özellikler

Video Segmentasyonu

Tek bir prompt ile video boyunca nesneleri takip ederek tum karelerde otomatik segmentasyon maskesi olusturur

Gercek Zamanli Performans

Video segmentasyonunu gercek zamanli olarak yapabilecek hizda optimize edilmis, verimli mimari

Hafiza Mekanizmasi

Onceki karelerin bilgisini hafizada tutarak tutarli nesne takibi ve okluzyon durumlarinda yeniden algilama

Evrensel Segmentasyon

Hem gorsel hem de video icin tek bir unified model, herhangi bir nesneyi egitim olmadan segmente edebilir

Hakkında

Segment Anything Model 2 (SAM 2), Meta AI tarafından geliştirilen evrensel bir segmentasyon modelidir. İlk SAM modelinin büyük başarısı üzerine inşa edilen SAM 2, hem görüntü hem de video segmentasyonunu tek bir birleşik mimaride sunar. Herhangi bir görüntüdeki veya videodaki nesneleri, prompt (nokta, kutu veya metin) vererek hassas biçimde ayırabilir. Bu birleşik yaklaşım, segmentasyon teknolojisinde önemli bir ilerlemeyi temsil eder ve statik görseller ile dinamik video içerikleri arasındaki boşluğu kapatarak bilgisayarla görmede yeni bir dönem başlatır.

SAM 2'nin en devrimci yeniliği, video segmentasyonu desteğidir. Bir video karesinde bir nesneyi işaretlediğinizde, model bu nesneyi tüm video boyunca otomatik olarak takip eder ve her karede tutarlı segmentasyon maskesi üretir. Bu özellik, video düzenleme, nesne takibi ve artırılmış gerçeklik uygulamaları için oyun değiştiricidir. Model, nesne tıkanması (occlusion), boyut değişimi, hızlı hareket ve sahne değişiklikleri gibi zorlu video senaryolarıyla başarıyla başa çıkar. Bellek mekanizması sayesinde geçmiş karelerdeki bilgiyi koruyarak uzun videolarda bile tutarlı takip sağlar ve nesne geçici olarak görüş alanından çıksa bile yeniden algılayabilir.

Modelin "promptable" yapısı, onu son derece esnek kılar. Bir noktaya tıklayarak, bir kutu çizerek veya metin açıklaması vererek segmentasyon başlatılabilir. Eğitim verilerinde görmediği nesne türlerini bile segmentleyebilir (zero-shot generalization). Tıbbi görüntüleme, uydu fotoğrafları, endüstriyel kalite kontrol ve robotik gibi özel alanlarda da başarıyla uygulanmaktadır. Ayrıca birden fazla nesneyi aynı anda takip edebilir, bu da karmaşık sahnelerin analizini ve çoklu nesne etkileşimlerinin izlenmesini mümkün kılar.

Mimari açıdan SAM 2, orijinal SAM'in görsel kodlayıcısını bir bellek modülü ve zamansal dikkat mekanizmasıyla genişletir. Streaming mimarisi sayesinde video karelerini sırayla işlerken, bellek bankası aracılığıyla önceki karelerdeki bilgiyi korur. Bu tasarım, modelin gerçek zamanlı video segmentasyonu yapabilmesini sağlarken bellek kullanımını da makul seviyelerde tutar. Hiyerarşik görsel kodlayıcı, farklı ölçeklerdeki özellikleri yakalayarak hem küçük hem de büyük nesnelerin doğru segmentasyonunu garanti eder. Dikkat mekanizması, zamansal bağımlılıkları modelleyerek video boyunca tutarlılığı korur.

SA-V (Segment Anything Video) veri kümesiyle eğitilen SAM 2, 51.000'den fazla gerçek dünya videosundaki 600.000'i aşkın maskeletme anotasyonu kullanır. Bu kapsamlı eğitim verisi, modelin çeşitli video senaryolarında güçlü genelleme yapmasını sağlar. Eğitim süreci, hem görüntü hem de video verileri üzerinde birleşik bir stratejiye dayanır, bu da modelin her iki modalitede de yüksek performans göstermesini mümkün kılar. Görüntü segmentasyonunda orijinal SAM'le karşılaştırılabilir veya daha iyi sonuçlar üretirken, video segmentasyonunda ise önceki yöntemleri açık ara geride bırakır.

Apache 2.0 lisansı ile açık kaynak olarak yayınlanan SAM 2, Hugging Face ve GitHub üzerinden erişilebilir. Araştırma topluluğu tarafından hızla çeşitli uygulamalara adapte edilmektedir. Video düzenleme yazılımları, otonom sürüş sistemleri, robotik uygulamalar, tıbbi video analizi ve interaktif medya araçları gibi geniş bir kullanım yelpazesinde SAM 2 tabanlı çözümler geliştirilmektedir. Model, bilgisayarla görme alanında bir sonraki kuşak segmentasyon standardını belirlemekte ve endüstriyel uygulamalardan yaratıcı iş akışlarına kadar her alanda dönüştürücü bir etki yaratmaktadır.

Endüstriyel uygulamalar açısından SAM 2, özellikle video gözetim ve güvenlik sistemlerinde nesne takibi için kullanılmaktadır. Üretim hatlarında kalite kontrol süreçlerinde kusurlu ürünlerin video akışında otomatik olarak tespit edilmesi ve takip edilmesi, SAM 2'nin güçlü yanlarından biridir. Spor analitiğinde oyuncu hareketlerinin ve top pozisyonlarının video boyunca takip edilmesi, detaylı performans analizi yapılmasını sağlar. Eğitim alanında ise interaktif ders materyallerinde nesne etkileşiminin görselleştirilmesi için adapte edilmektedir.

Kullanım Senaryoları

1

Video Nesne Takibi

Video icindeki nesneleri secip tum video boyunca otomatik takip ve segmentasyon yapma

2

Video Duzenleme

Video icindeki belirli nesnelerin maskelenmesi, degistirilmesi veya efekt uygulanmasi icin hassas segmentasyon

3

Otonom Suruş Algisi

Arac, yaya ve yol ogelelerinin gercek zamanli video segmentasyonu ile cevre algisi sistemi

4

Spor Analizi

Spor videolarinda oyuncu ve top takibi ile performans analizi ve taktik gorselIestirme

Artılar ve Eksiler

Artılar

  • Meta'nın herhangi bir nesneyi segmentleyebilen evrensel modeli
  • Hem görsel hem video segmentasyonunu tek modelde birleştiriyor
  • Zero-shot performans — eğitim olmadan yeni nesne türlerini segmentleme
  • Gerçek zamanlı etkileşimli segmentasyon desteği
  • SA-V veri seti ile eğitilmiş — 50K+ video, 600K+ maskeli kare

Eksiler

  • Semantik anlama yeteneği yok — ne olduğunu bilmeden segmentliyor
  • İnce ve karmaşık sınırlarda hâlâ hatalar oluşabiliyor
  • Video segmentasyonunda uzun süreli takipte drift sorunu
  • Yüksek GPU gereksinimi — büyük modellerde 16GB+ VRAM

Teknik Detaylar

Parametre

300M

Mimari

Transformer + Streaming Memory

Eğitim Verisi

SA-V dataset

Lisans

Apache 2.0

Özellikler

  • Video Segmentation
  • Real-Time Tracking
  • Memory Bank
  • Occlusion Handling
  • Promptable Interface
  • Unified Image-Video Model

Benchmark Sonuçları

MetrikDeğerKarşılaştırmaKaynak
DAVIS 2017 J&F90.7%+2.6% over previous bestSAM 2 Paper (Meta AI)
Video Processing Speed (Hiera-B+)43.8 FPSOn A100 GPUSAM 2 Paper / Ultralytics Docs
Speed vs SAM6x fasterOriginal SAMMeta AI SAM 2 Announcement
Training Dataset (SA-V)51K+ videos, 600K+ mask annotationsSAM 2 Paper (Meta AI)

Mevcut Platformlar

GitHub
HuggingFace
PyPI

Haberler ve Referanslar

Sıkça Sorulan Sorular

İlgili Modeller

GroundingDINO icon

GroundingDINO

IDEA Research|172M

Grounding DINO, IDEA Research tarafından geliştirilen ve doğal dil metin açıklamalarına dayalı olarak bir görüntüdeki herhangi bir nesneyi bulan ve tanımlayan güçlü bir açık küme nesne algılama modelidir. Sabit kategori algılamadan dile dayalı görsel anlamaya doğru bir paradigma değişimini temsil eder. 172 milyon parametresiyle model, DINO algılama mimarisini metin grounding yetenekleriyle birleştirerek eğitim sırasında hiç görülmemiş nesneleri basitçe kelimelerle tanımlayarak algılamayı mümkün kılar. COCO'nun 80 sınıfı gibi sabit kategoriler üzerinde eğitilmiş geleneksel nesne algılayıcılardan farklı olarak Grounding DINO, 'raftaki kırmızı ayakkabılar' veya 'binadaki çatlamış pencere' gibi serbest biçimli metin sorguları kabul ederek rastgele nesneleri, parçaları, malzemeleri veya görsel kavramları bulabilir. Mimari, çapraz modalite dikkat katmanları aracılığıyla görüntü kodlayıcıdan görsel özellikleri metin kodlayıcıdan metinsel özelliklerle birleştirir ve görsel bölgeleri semantik açıklamalarıyla hizalamayı öğrenir. Grounding DINO, sıfır atış nesne algılama kıyaslamalarında son teknoloji sonuçlar elde eder ve SAM (Segment Anything Model) ile birleştirildiğinde herhangi bir görsel kavramın metin güdümlü segmentasyonu için güçlü bir boru hattı oluşturur. Apache 2.0 lisansı altında tamamen açık kaynaklı olan model, bilgisayarlı görü araştırma ve üretim sistemlerinde yaygın olarak kullanılır. Temel uygulamalar arasında otomatik görüntü açıklama ve etiketleme, görsel arama motorları, sözlü komutları anlayan robotik manipülasyon sistemleri, içerik moderasyon sistemleri ve görüntü içeriklerini tanımlayan erişilebilirlik araçları yer alır.

Açık Kaynak
4.6

Hızlı Bilgi

Parametre300M
TipTransformer
LisansApache 2.0
Yayınlanma2024-07
MimariTransformer + Streaming Memory
Versiyon2.0
Puan4.8 / 5
GeliştiriciMeta

Bağlantılar

Etiketler

segmentation
meta
video
real-time
Siteyi Ziyaret Et