GroundingDINO
Grounding DINO, IDEA Research tarafından geliştirilen ve doğal dil metin açıklamalarına dayalı olarak bir görüntüdeki herhangi bir nesneyi bulan ve tanımlayan güçlü bir açık küme nesne algılama modelidir. Sabit kategori algılamadan dile dayalı görsel anlamaya doğru bir paradigma değişimini temsil eder. 172 milyon parametresiyle model, DINO algılama mimarisini metin grounding yetenekleriyle birleştirerek eğitim sırasında hiç görülmemiş nesneleri basitçe kelimelerle tanımlayarak algılamayı mümkün kılar. COCO'nun 80 sınıfı gibi sabit kategoriler üzerinde eğitilmiş geleneksel nesne algılayıcılardan farklı olarak Grounding DINO, 'raftaki kırmızı ayakkabılar' veya 'binadaki çatlamış pencere' gibi serbest biçimli metin sorguları kabul ederek rastgele nesneleri, parçaları, malzemeleri veya görsel kavramları bulabilir. Mimari, çapraz modalite dikkat katmanları aracılığıyla görüntü kodlayıcıdan görsel özellikleri metin kodlayıcıdan metinsel özelliklerle birleştirir ve görsel bölgeleri semantik açıklamalarıyla hizalamayı öğrenir. Grounding DINO, sıfır atış nesne algılama kıyaslamalarında son teknoloji sonuçlar elde eder ve SAM (Segment Anything Model) ile birleştirildiğinde herhangi bir görsel kavramın metin güdümlü segmentasyonu için güçlü bir boru hattı oluşturur. Apache 2.0 lisansı altında tamamen açık kaynaklı olan model, bilgisayarlı görü araştırma ve üretim sistemlerinde yaygın olarak kullanılır. Temel uygulamalar arasında otomatik görüntü açıklama ve etiketleme, görsel arama motorları, sözlü komutları anlayan robotik manipülasyon sistemleri, içerik moderasyon sistemleri ve görüntü içeriklerini tanımlayan erişilebilirlik araçları yer alır.
Öne Çıkan Özellikler
Metin Tabanlı Nesne Algılama
Doğal dil açıklamalarıyla herhangi bir nesneyi algılayabilen açık küme (open-set) nesne algılama teknolojisi.
SAM ile Entegrasyon
Segment Anything Model ile birleşerek metin yönlendirmeli piksel seviyesinde segmentasyon sağlayan Grounded-SAM pipeline'ı.
Sıfır Örnekli Algılama
Önceden eğitilmemiş nesne kategorilerini bile algılayarak ek eğitim gerektirmeden çalışma kapasitesi.
Çoklu Nesne Eş Zamanlı Algılama
Tek bir metin açıklamasıyla birden fazla farklı nesneyi aynı anda algılayarak verimli toplu işleme sağlar.
Hakkında
Grounding DINO, metin tabanlı açık kümeli nesne algılama (open-set object detection) için geliştirilmiş çok güçlü bir yapay zeka modelidir. IDEA Research tarafından geliştirilen bu model, geleneksel nesne algılama modellerinin aksine önceden tanımlanmış sınıflarla sınırlı değildir. Herhangi bir metin açıklamasını girdi olarak alabilir ve görüntüde bu açıklamaya uyan nesneleri tespit ederek konumlandırır. Bu açık kelime dağarcığı yaklaşımı, bilgisayarlı görme alanında paradigma değiştirici bir yenilik olarak kabul edilmektedir.
Grounding DINO'nun temelinde, DINO (DETR with Improved deNOising anchOr boxes) dedektörü ile doğal dil işleme modüllerinin birleşimine dayanan bir mimari vardır. Swin Transformer omurgası üzerine inşa edilen model, görsel ve dilsel bilgiyi çapraz dikkat (cross-attention) mekanizmaları aracılığıyla bir arada işler. Bu sayede "kırmızı elbiseli kadın" veya "masanın üstündeki kahve fincanı" gibi detaylı açıklamalarla nesne tespiti yapılabilir. Modelin metin anlama kapasitesi, basit nesne isimlerinin ötesine geçerek ilişkisel ve tanımlayıcı sorguları da destekler. Uzamsal ilişkiler ve nesne nitelikleri de sorgu kapsamında değerlendirilebilir.
COCO ve LVIS benchmark'larında zero-shot nesne tespitinde güçlü sonuçlar elde eden Grounding DINO, önceden tanımlanmış sınıflara bağlı kalmadan doğal dilde ifade edilen herhangi bir nesneyi bulabilir. Bu esneklik, veri etiketleme, içerik moderasyonu ve görsel arama gibi uygulamalarda büyük zaman tasarrufu sağlar. Geleneksel algılama modellerinin aksine, yeni nesne kategorileri için yeniden eğitim gerektirmez ve bu sayede dağıtım süresini dramatik biçimde kısaltır. Özel veri setleri ile ince ayar yapılarak domain-spesifik performans daha da artırılabilir.
Model, Segment Anything (SAM) ile birleştirildiğinde metin tabanlı segmentasyon yapılabilir ve bu kombinasyon Grounded-SAM olarak bilinir. Bu güçlü iş birliği, otonom sürüş, robotik manipülasyon, görüntü düzenleme, otomatik veri etiketleme ve video analizi gibi alanlarda kapsamlı bir iş akışı oluşturur. Kullanıcılar metin ile nesne tespiti yapıp ardından piksel düzeyinde segmentasyon elde edebilir ve bu segmentasyonları downstream görevlerde kullanabilir.
Grounding DINO, sıfır-atışlı (zero-shot) algılama yeteneğine sahiptir ve özel eğitim gerektirmeden yeni nesne kategorilerini tanıyabilir. Bu özellik, hızla değişen üretim hatlarında kalite kontrol, perakende raf analizi, güvenlik kamerası görüntülerinin otomatik değerlendirmesi, tarımsal izleme ve tıbbi görüntü taraması gibi endüstriyel uygulamalarda kritik avantaj sağlar. Nesne sayma ve lokalizasyon doğruluğu, birçok süpervizyonlu modelle karşılaştırılabilir düzeydedir.
Açık kaynak olarak GitHub üzerinden erişilebilen model, pip ile kolayca kurulabilir ve Python API'si üzerinden kullanılabilir. Hugging Face üzerinden model ağırlıkları indirilebilir ve ONNX formatına dönüştürülerek farklı donanım platformlarında optimize edilebilir. TensorRT ile GPU çıkarımı hızlandırılabilir ve batch işleme desteği sayesinde büyük görüntü koleksiyonları verimli şekilde analiz edilebilir.
Otonom araçlar, robotik, video analizi, içerik moderasyonu, tıbbi görüntüleme, tarımsal izleme ve erişilebilirlik uygulamaları gibi geniş bir kullanım alanına sahip olan Grounding DINO, bilgisayarlı görme ekosisteminin en çok yönlü ve etkili modellerinden biri olarak konumlanmaktadır. Perakende sektöründe ürün tanıma, inşaat sektöründe güvenlik ekipmanı denetimi ve üretim hatlarında kalite kontrol gibi endüstriyel kullanım senaryolarında da hızla benimsenmektedir. Modelin açık kelime dağarcığı yaklaşımı, geleneksel nesne algılama paradigmasını temelden değiştirmiş ve bilgisayarlı görme alanında yeni araştırma yönlerinin açılmasına katkıda bulunmuştur.
Kullanım Senaryoları
Otomatik Veri Etiketleme
Makine öğrenimi veri setlerinde nesneleri otomatik etiketleyerek manuel etiketleme süresini azaltma.
Akıllı Görüntü Düzenleme
Görsellerdeki belirli nesneleri metin ile seçerek otomatik düzenleme ve manipülasyon yapma.
Robotik Görü Sistemleri
Robotların çevresindeki nesneleri doğal dil komutlarıyla tanımasını ve etkileşime girmesini sağlama.
İçerik Moderasyonu
Sosyal medya ve web platformlarında uygunsuz içerikleri otomatik algılama ve filtreleme.
Artılar ve Eksiler
Artılar
- Herhangi bir COCO eğitim verisi olmadan COCO tespitinde sıfır atış transferinde 52.5 AP elde eder
- Açık küme tespit: doğal dil sorguları dahil kullanıcının belirttiği herhangi bir ifadeyi sıfır atışla lokalize eder
- Özellik geliştirici, dil yönlendirmeli sorgu seçimi ve çapraz modalite kod çözücü ile sıkı füzyon sunar
- Çeşitli alanlarda ortalama 26.1 AP ile ODinW sıfır atış kıyaslamasında yeni rekor kırar
Eksiler
- Erken füzyon mimarisi model halüsinasyonlarını artırabilir, görüntülerde olmayan nesneleri tahmin edebilir
- Daha az ön eğitim verisi nedeniyle nadir ve alışılmadık nesne kategorilerinde GLIP'ten daha düşük performans
- Örnek segmentasyon maskeleri olmadan yalnızca sınırlayıcı kutular üretir
- Ağır hesaplamalı özellik geliştirici, gerçek zamanlı uç cihaz uygulamaları için pratik değildir
- Temel dil modellerinden ve web kaynaklı eğitim verilerinden önyargıları devralabilir
Teknik Detaylar
Parametre
172M
Mimari
DINO + Text Grounding
Eğitim Verisi
O365, GoldG, Cap4M
Lisans
Apache 2.0
Özellikler
- Open-set detection
- Text-prompted
- SAM compatible
- Zero-shot
- Multi-object detection
- Bounding box output
Benchmark Sonuçları
| Metrik | Değer | Karşılaştırma | Kaynak |
|---|---|---|---|
| Zero-Shot AP (COCO val2017) | 52.5 | GLIP-L: 49.8 | GroundingDINO Paper (ECCV 2024) |
| Zero-Shot AP (LVIS minival) | 27.4 | GLIP-L: 26.9 | GroundingDINO Paper |
| İşleme Hızı (A100) | ~12 FPS (Swin-T backbone) | GLIP: ~8 FPS | GitHub Repository |
| Parametre Sayısı | 172M (Swin-T), 341M (Swin-B) | — | Hugging Face Model Card |