SAM 2, gorsel ve video segmentasyonunu birlestiren unified bir model olarak calisir. Video modunda bir hafiza mekanizmasi kullanarak onceki karelerin bilgisini saklar ve nesneleri kareler arasi tutarli sekilde takip eder. Kullanici tek bir karede nesneyi isaretledikten sonra model tum video boyunca takip ve segmentasyon yapar.

SAM 2 ile SAM 1 arasindaki fark nedir?

SAM 2'nin en buyuk yeniligi video segmentasyon destegi ve hafiza mekanizmasidlr. SAM 1 yalnizca tek gorsel segmentasyonu yapabilirken, SAM 2 video kareleri arasinda nesne takibi ve tutarli segmentasyon saglar. Ayrica SAM 2, gorsel segmentasyonunda da SAM 1'e gore daha hizli ve daha dogru sonuclar uretir.

SAM 2 gercek zamanli calisir mi?

Evet, SAM 2 gercek zamanli video segmentasyonu yapabilecek sekilde optimize edilmistir. Modern GPU'larda video karelerini yeterli hizda isleyerek canli uygulamalar ve etkilesimli video duzenleme senaryolari icin kullanilabiIir. Kesin FPS degeri GPU modeline ve video cozunurlugune baglidir.

SAM 2 acik kaynak midir?

Evet, SAM 2 Meta AI tarafindan Apache 2.0 lisansi altinda acik kaynak olarak yayinlanmistir. Model agirliklari, kaynak kodu ve demo uygulamasi GitHub uzerinde mevcuttur. Hem arastirma hem de ticari kullanim icin serbestce kullanilabilir ve genis bir turev calisma ekosistemi oluSmustur.

SAM 2 hangi veri setinde egitilmistir?

SAM 2, SA-V (Segment Anything - Video) adli yeni bir video segmentasyon veri setinde egitilmistir. Bu veri seti, SA-1B gorsel veri setine ek olarak binlerce video uzerinde milyonlarca nesne maskesi ve takip anotasyonu icerir. Bu devasa veri, modelin genis bir yelpazede video segmentasyonu yapmasini saglar.

SAM 2 okluzyon durumlarini nasil ele alir?

SAM 2'nin hafiza mekanizmasi, bir nesne gecici olarak gorUs alaninin disina ciktiginda veya baska bir nesnenin arkasina gizlendiginde bilgiyi korur. Nesne yeniden gorunur hale geldiginde model onu hafizadaki bilgiye dayanarak yeniden tanimlar ve segmentasyona devam eder.

Segment Anything 2 (SAM 2)

Açık Kaynak

4.8

Öne Çıkan Özellikler

Video Segmentasyonu

Tek bir prompt ile video boyunca nesneleri takip ederek tum karelerde otomatik segmentasyon maskesi olusturur

Gercek Zamanli Performans

Video segmentasyonunu gercek zamanli olarak yapabilecek hizda optimize edilmis, verimli mimari

Hafiza Mekanizmasi

Onceki karelerin bilgisini hafizada tutarak tutarli nesne takibi ve okluzyon durumlarinda yeniden algilama

Evrensel Segmentasyon

Hem gorsel hem de video icin tek bir unified model, herhangi bir nesneyi egitim olmadan segmente edebilir

Hakkında

Segment Anything Model 2 (SAM 2), Meta AI tarafından geliştirilen evrensel bir segmentasyon modelidir. İlk SAM modelinin büyük başarısı üzerine inşa edilen SAM 2, hem görüntü hem de video segmentasyonunu tek bir birleşik mimaride sunar. Herhangi bir görüntüdeki veya videodaki nesneleri, prompt (nokta, kutu veya metin) vererek hassas biçimde ayırabilir. Bu birleşik yaklaşım, segmentasyon teknolojisinde önemli bir ilerlemeyi temsil eder ve statik görseller ile dinamik video içerikleri arasındaki boşluğu kapatarak bilgisayarla görmede yeni bir dönem başlatır.

SAM 2'nin en devrimci yeniliği, video segmentasyonu desteğidir. Bir video karesinde bir nesneyi işaretlediğinizde, model bu nesneyi tüm video boyunca otomatik olarak takip eder ve her karede tutarlı segmentasyon maskesi üretir. Bu özellik, video düzenleme, nesne takibi ve artırılmış gerçeklik uygulamaları için oyun değiştiricidir. Model, nesne tıkanması (occlusion), boyut değişimi, hızlı hareket ve sahne değişiklikleri gibi zorlu video senaryolarıyla başarıyla başa çıkar. Bellek mekanizması sayesinde geçmiş karelerdeki bilgiyi koruyarak uzun videolarda bile tutarlı takip sağlar ve nesne geçici olarak görüş alanından çıksa bile yeniden algılayabilir.

Modelin "promptable" yapısı, onu son derece esnek kılar. Bir noktaya tıklayarak, bir kutu çizerek veya metin açıklaması vererek segmentasyon başlatılabilir. Eğitim verilerinde görmediği nesne türlerini bile segmentleyebilir (zero-shot generalization). Tıbbi görüntüleme, uydu fotoğrafları, endüstriyel kalite kontrol ve robotik gibi özel alanlarda da başarıyla uygulanmaktadır. Ayrıca birden fazla nesneyi aynı anda takip edebilir, bu da karmaşık sahnelerin analizini ve çoklu nesne etkileşimlerinin izlenmesini mümkün kılar.

Mimari açıdan SAM 2, orijinal SAM'in görsel kodlayıcısını bir bellek modülü ve zamansal dikkat mekanizmasıyla genişletir. Streaming mimarisi sayesinde video karelerini sırayla işlerken, bellek bankası aracılığıyla önceki karelerdeki bilgiyi korur. Bu tasarım, modelin gerçek zamanlı video segmentasyonu yapabilmesini sağlarken bellek kullanımını da makul seviyelerde tutar. Hiyerarşik görsel kodlayıcı, farklı ölçeklerdeki özellikleri yakalayarak hem küçük hem de büyük nesnelerin doğru segmentasyonunu garanti eder. Dikkat mekanizması, zamansal bağımlılıkları modelleyerek video boyunca tutarlılığı korur.

SA-V (Segment Anything Video) veri kümesiyle eğitilen SAM 2, 51.000'den fazla gerçek dünya videosundaki 600.000'i aşkın maskeletme anotasyonu kullanır. Bu kapsamlı eğitim verisi, modelin çeşitli video senaryolarında güçlü genelleme yapmasını sağlar. Eğitim süreci, hem görüntü hem de video verileri üzerinde birleşik bir stratejiye dayanır, bu da modelin her iki modalitede de yüksek performans göstermesini mümkün kılar. Görüntü segmentasyonunda orijinal SAM'le karşılaştırılabilir veya daha iyi sonuçlar üretirken, video segmentasyonunda ise önceki yöntemleri açık ara geride bırakır.

Apache 2.0 lisansı ile açık kaynak olarak yayınlanan SAM 2, Hugging Face ve GitHub üzerinden erişilebilir. Araştırma topluluğu tarafından hızla çeşitli uygulamalara adapte edilmektedir. Video düzenleme yazılımları, otonom sürüş sistemleri, robotik uygulamalar, tıbbi video analizi ve interaktif medya araçları gibi geniş bir kullanım yelpazesinde SAM 2 tabanlı çözümler geliştirilmektedir. Model, bilgisayarla görme alanında bir sonraki kuşak segmentasyon standardını belirlemekte ve endüstriyel uygulamalardan yaratıcı iş akışlarına kadar her alanda dönüştürücü bir etki yaratmaktadır.

Endüstriyel uygulamalar açısından SAM 2, özellikle video gözetim ve güvenlik sistemlerinde nesne takibi için kullanılmaktadır. Üretim hatlarında kalite kontrol süreçlerinde kusurlu ürünlerin video akışında otomatik olarak tespit edilmesi ve takip edilmesi, SAM 2'nin güçlü yanlarından biridir. Spor analitiğinde oyuncu hareketlerinin ve top pozisyonlarının video boyunca takip edilmesi, detaylı performans analizi yapılmasını sağlar. Eğitim alanında ise interaktif ders materyallerinde nesne etkileşiminin görselleştirilmesi için adapte edilmektedir.

Kullanım Senaryoları

Video Nesne Takibi

Video icindeki nesneleri secip tum video boyunca otomatik takip ve segmentasyon yapma

Video Duzenleme

Video icindeki belirli nesnelerin maskelenmesi, degistirilmesi veya efekt uygulanmasi icin hassas segmentasyon

Otonom Suruş Algisi

Arac, yaya ve yol ogelelerinin gercek zamanli video segmentasyonu ile cevre algisi sistemi

Spor Analizi

Spor videolarinda oyuncu ve top takibi ile performans analizi ve taktik gorselIestirme

Artılar ve Eksiler

Artılar

Meta'nın herhangi bir nesneyi segmentleyebilen evrensel modeli
Hem görsel hem video segmentasyonunu tek modelde birleştiriyor
Zero-shot performans — eğitim olmadan yeni nesne türlerini segmentleme
Gerçek zamanlı etkileşimli segmentasyon desteği
SA-V veri seti ile eğitilmiş — 50K+ video, 600K+ maskeli kare

Eksiler

Semantik anlama yeteneği yok — ne olduğunu bilmeden segmentliyor
İnce ve karmaşık sınırlarda hâlâ hatalar oluşabiliyor
Video segmentasyonunda uzun süreli takipte drift sorunu
Yüksek GPU gereksinimi — büyük modellerde 16GB+ VRAM

Teknik Detaylar

Parametre

300M

Mimari

Transformer + Streaming Memory

Eğitim Verisi

SA-V dataset

Lisans

Apache 2.0

Özellikler

Video Segmentation
Gerçek zamanlı Tracking
Memory Bank
Occlusion Handling
Promptable Interface
Unified Image-Video Model

Benchmark Sonuçları

Metrik	Değer	Karşılaştırma	Kaynak
DAVIS 2017 J&F	90.7%	+2.6% over previous best	SAM 2 Paper (Meta AI)
Video Processing Speed (Hiera-B+)	43.8 FPS	On A100 GPU	SAM 2 Paper / Ultralytics Docs
Speed vs SAM	6x faster	Original SAM	Meta AI SAM 2 Announcement
Training Dataset (SA-V)	51K+ videos, 600K+ mask annotations	—	SAM 2 Paper (Meta AI)

Mevcut Platformlar

GitHub

HuggingFace

PyPI

Haberler ve Referanslar

Meta, SAM 2 evrensel segmentasyon modelini yayınladı

Meta AI Blog · 2024-07

SAM 2, video segmentasyonunda yeni bir standart belirledi

VentureBeat · 2024-07

Sıkça Sorulan Sorular

İlgili Modeller

GroundingDINO

IDEA Research|172M

Grounding DINO, IDEA Research tarafından geliştirilen ve doğal dil metin açıklamalarına dayalı olarak bir görüntüdeki herhangi bir nesneyi bulan ve tanımlayan güçlü bir açık küme nesne algılama modelidir. Sabit kategori algılamadan dile dayalı görsel anlamaya doğru bir paradigma değişimini temsil eder. 172 milyon parametresiyle model, DINO algılama mimarisini metin grounding yetenekleriyle birleştirerek eğitim sırasında hiç görülmemiş nesneleri basitçe kelimelerle tanımlayarak algılamayı mümkün kılar. COCO'nun 80 sınıfı gibi sabit kategoriler üzerinde eğitilmiş geleneksel nesne algılayıcılardan farklı olarak Grounding DINO, 'raftaki kırmızı ayakkabılar' veya 'binadaki çatlamış pencere' gibi serbest biçimli metin sorguları kabul ederek rastgele nesneleri, parçaları, malzemeleri veya görsel kavramları bulabilir. Mimari, çapraz modalite dikkat katmanları aracılığıyla görüntü kodlayıcıdan görsel özellikleri metin kodlayıcıdan metinsel özelliklerle birleştirir ve görsel bölgeleri semantik açıklamalarıyla hizalamayı öğrenir. Grounding DINO, sıfır atış nesne algılama kıyaslamalarında son teknoloji sonuçlar elde eder ve SAM (Segment Anything Model) ile birleştirildiğinde herhangi bir görsel kavramın metin güdümlü segmentasyonu için güçlü bir boru hattı oluşturur. Apache 2.0 lisansı altında tamamen açık kaynaklı olan model, bilgisayarlı görü araştırma ve üretim sistemlerinde yaygın olarak kullanılır. Temel uygulamalar arasında otomatik görüntü açıklama ve etiketleme, görsel arama motorları, sözlü komutları anlayan robotik manipülasyon sistemleri, içerik moderasyon sistemleri ve görüntü içeriklerini tanımlayan erişilebilirlik araçları yer alır.

Açık Kaynak

4.6

Hızlı Bilgi

Parametre300M

TipTransformer

LisansApache 2.0

Yayınlanma2024-07

MimariTransformer + Streaming Memory

Versiyon2.0

Puan4.8 / 5

GeliştiriciMeta

Bağlantılar

Resmi Site GitHub arXiv Paper

Etiketler

segmentation