Segment Anything 2 (SAM 2)
Segment Anything 2 (SAM 2), Meta AI tarafından geliştirilen ve görüntü ile video segmentasyonunu streaming bellek modülüyle güçlendirilmiş tek bir Transformer tabanlı mimaride birleştiren evrensel bir segmentasyon modelidir. Orijinal SAM'in çığır açıcı başarısını video alanına taşıyan SAM 2, kullanıcıların tek bir karede nokta, sınırlayıcı kutu veya maske gibi basit promptlar sağlayarak herhangi bir nesneyi video kareleri boyunca segmente etmesine olanak tanır. Model, bellek dikkat mekanizması sayesinde segmentasyonu tüm video boyunca otomatik olarak yayar ve oklüzyonlar ile nesne yeniden görünmeleri sırasında bile zamansal tutarlılığı korur. Yaklaşık 300 milyon parametreyle SAM 2, çeşitli segmentasyon kıyaslamalarında son teknoloji doğruluk sunarken gerçek zamanlı performans sağlar. Mimari, hem görüntüleri hem de tek tek video karelerini paylaşımlı bir görüntü kodlayıcı aracılığıyla işleyerek statik ve dinamik içerik için çok yönlü bir çözüm sunar. SAM 2, 50.000 video üzerinde 600.000'den fazla masklet açıklaması içeren bugüne kadarki en büyük video segmentasyon veri seti olan SA-V üzerinde eğitilmiştir. Apache 2.0 lisansı altında yayınlanan model tamamen açık kaynaklıdır ve önceden eğitilmiş ağırlıklarla GitHub üzerinden erişilebilir. Video düzenleme, görsel efektler, otonom sürüş algısı, tıbbi görüntüleme, artırılmış gerçeklik ve robotik gibi geniş bir uygulama yelpazesine hizmet eder.
Öne Çıkan Özellikler
Video Segmentasyonu
Tek bir prompt ile video boyunca nesneleri takip ederek tum karelerde otomatik segmentasyon maskesi olusturur
Gercek Zamanli Performans
Video segmentasyonunu gercek zamanli olarak yapabilecek hizda optimize edilmis, verimli mimari
Hafiza Mekanizmasi
Onceki karelerin bilgisini hafizada tutarak tutarli nesne takibi ve okluzyon durumlarinda yeniden algilama
Evrensel Segmentasyon
Hem gorsel hem de video icin tek bir unified model, herhangi bir nesneyi egitim olmadan segmente edebilir
Hakkında
Segment Anything Model 2 (SAM 2), Meta AI tarafından geliştirilen evrensel bir segmentasyon modelidir. İlk SAM modelinin büyük başarısı üzerine inşa edilen SAM 2, hem görüntü hem de video segmentasyonunu tek bir birleşik mimaride sunar. Herhangi bir görüntüdeki veya videodaki nesneleri, prompt (nokta, kutu veya metin) vererek hassas biçimde ayırabilir. Bu birleşik yaklaşım, segmentasyon teknolojisinde önemli bir ilerlemeyi temsil eder ve statik görseller ile dinamik video içerikleri arasındaki boşluğu kapatarak bilgisayarla görmede yeni bir dönem başlatır.
SAM 2'nin en devrimci yeniliği, video segmentasyonu desteğidir. Bir video karesinde bir nesneyi işaretlediğinizde, model bu nesneyi tüm video boyunca otomatik olarak takip eder ve her karede tutarlı segmentasyon maskesi üretir. Bu özellik, video düzenleme, nesne takibi ve artırılmış gerçeklik uygulamaları için oyun değiştiricidir. Model, nesne tıkanması (occlusion), boyut değişimi, hızlı hareket ve sahne değişiklikleri gibi zorlu video senaryolarıyla başarıyla başa çıkar. Bellek mekanizması sayesinde geçmiş karelerdeki bilgiyi koruyarak uzun videolarda bile tutarlı takip sağlar ve nesne geçici olarak görüş alanından çıksa bile yeniden algılayabilir.
Modelin "promptable" yapısı, onu son derece esnek kılar. Bir noktaya tıklayarak, bir kutu çizerek veya metin açıklaması vererek segmentasyon başlatılabilir. Eğitim verilerinde görmediği nesne türlerini bile segmentleyebilir (zero-shot generalization). Tıbbi görüntüleme, uydu fotoğrafları, endüstriyel kalite kontrol ve robotik gibi özel alanlarda da başarıyla uygulanmaktadır. Ayrıca birden fazla nesneyi aynı anda takip edebilir, bu da karmaşık sahnelerin analizini ve çoklu nesne etkileşimlerinin izlenmesini mümkün kılar.
Mimari açıdan SAM 2, orijinal SAM'in görsel kodlayıcısını bir bellek modülü ve zamansal dikkat mekanizmasıyla genişletir. Streaming mimarisi sayesinde video karelerini sırayla işlerken, bellek bankası aracılığıyla önceki karelerdeki bilgiyi korur. Bu tasarım, modelin gerçek zamanlı video segmentasyonu yapabilmesini sağlarken bellek kullanımını da makul seviyelerde tutar. Hiyerarşik görsel kodlayıcı, farklı ölçeklerdeki özellikleri yakalayarak hem küçük hem de büyük nesnelerin doğru segmentasyonunu garanti eder. Dikkat mekanizması, zamansal bağımlılıkları modelleyerek video boyunca tutarlılığı korur.
SA-V (Segment Anything Video) veri kümesiyle eğitilen SAM 2, 51.000'den fazla gerçek dünya videosundaki 600.000'i aşkın maskeletme anotasyonu kullanır. Bu kapsamlı eğitim verisi, modelin çeşitli video senaryolarında güçlü genelleme yapmasını sağlar. Eğitim süreci, hem görüntü hem de video verileri üzerinde birleşik bir stratejiye dayanır, bu da modelin her iki modalitede de yüksek performans göstermesini mümkün kılar. Görüntü segmentasyonunda orijinal SAM'le karşılaştırılabilir veya daha iyi sonuçlar üretirken, video segmentasyonunda ise önceki yöntemleri açık ara geride bırakır.
Apache 2.0 lisansı ile açık kaynak olarak yayınlanan SAM 2, Hugging Face ve GitHub üzerinden erişilebilir. Araştırma topluluğu tarafından hızla çeşitli uygulamalara adapte edilmektedir. Video düzenleme yazılımları, otonom sürüş sistemleri, robotik uygulamalar, tıbbi video analizi ve interaktif medya araçları gibi geniş bir kullanım yelpazesinde SAM 2 tabanlı çözümler geliştirilmektedir. Model, bilgisayarla görme alanında bir sonraki kuşak segmentasyon standardını belirlemekte ve endüstriyel uygulamalardan yaratıcı iş akışlarına kadar her alanda dönüştürücü bir etki yaratmaktadır.
Endüstriyel uygulamalar açısından SAM 2, özellikle video gözetim ve güvenlik sistemlerinde nesne takibi için kullanılmaktadır. Üretim hatlarında kalite kontrol süreçlerinde kusurlu ürünlerin video akışında otomatik olarak tespit edilmesi ve takip edilmesi, SAM 2'nin güçlü yanlarından biridir. Spor analitiğinde oyuncu hareketlerinin ve top pozisyonlarının video boyunca takip edilmesi, detaylı performans analizi yapılmasını sağlar. Eğitim alanında ise interaktif ders materyallerinde nesne etkileşiminin görselleştirilmesi için adapte edilmektedir.
Kullanım Senaryoları
Video Nesne Takibi
Video icindeki nesneleri secip tum video boyunca otomatik takip ve segmentasyon yapma
Video Duzenleme
Video icindeki belirli nesnelerin maskelenmesi, degistirilmesi veya efekt uygulanmasi icin hassas segmentasyon
Otonom Suruş Algisi
Arac, yaya ve yol ogelelerinin gercek zamanli video segmentasyonu ile cevre algisi sistemi
Spor Analizi
Spor videolarinda oyuncu ve top takibi ile performans analizi ve taktik gorselIestirme
Artılar ve Eksiler
Artılar
- Meta'nın herhangi bir nesneyi segmentleyebilen evrensel modeli
- Hem görsel hem video segmentasyonunu tek modelde birleştiriyor
- Zero-shot performans — eğitim olmadan yeni nesne türlerini segmentleme
- Gerçek zamanlı etkileşimli segmentasyon desteği
- SA-V veri seti ile eğitilmiş — 50K+ video, 600K+ maskeli kare
Eksiler
- Semantik anlama yeteneği yok — ne olduğunu bilmeden segmentliyor
- İnce ve karmaşık sınırlarda hâlâ hatalar oluşabiliyor
- Video segmentasyonunda uzun süreli takipte drift sorunu
- Yüksek GPU gereksinimi — büyük modellerde 16GB+ VRAM
Teknik Detaylar
Parametre
300M
Mimari
Transformer + Streaming Memory
Eğitim Verisi
SA-V dataset
Lisans
Apache 2.0
Özellikler
- Video Segmentation
- Real-Time Tracking
- Memory Bank
- Occlusion Handling
- Promptable Interface
- Unified Image-Video Model
Benchmark Sonuçları
| Metrik | Değer | Karşılaştırma | Kaynak |
|---|---|---|---|
| DAVIS 2017 J&F | 90.7% | +2.6% over previous best | SAM 2 Paper (Meta AI) |
| Video Processing Speed (Hiera-B+) | 43.8 FPS | On A100 GPU | SAM 2 Paper / Ultralytics Docs |
| Speed vs SAM | 6x faster | Original SAM | Meta AI SAM 2 Announcement |
| Training Dataset (SA-V) | 51K+ videos, 600K+ mask annotations | — | SAM 2 Paper (Meta AI) |