GroundingDINO icon

GroundingDINO

Açık Kaynak
4.6
IDEA Research

Grounding DINO, IDEA Research tarafından geliştirilen ve doğal dil metin açıklamalarına dayalı olarak bir görüntüdeki herhangi bir nesneyi bulan ve tanımlayan güçlü bir açık küme nesne algılama modelidir. Sabit kategori algılamadan dile dayalı görsel anlamaya doğru bir paradigma değişimini temsil eder. 172 milyon parametresiyle model, DINO algılama mimarisini metin grounding yetenekleriyle birleştirerek eğitim sırasında hiç görülmemiş nesneleri basitçe kelimelerle tanımlayarak algılamayı mümkün kılar. COCO'nun 80 sınıfı gibi sabit kategoriler üzerinde eğitilmiş geleneksel nesne algılayıcılardan farklı olarak Grounding DINO, 'raftaki kırmızı ayakkabılar' veya 'binadaki çatlamış pencere' gibi serbest biçimli metin sorguları kabul ederek rastgele nesneleri, parçaları, malzemeleri veya görsel kavramları bulabilir. Mimari, çapraz modalite dikkat katmanları aracılığıyla görüntü kodlayıcıdan görsel özellikleri metin kodlayıcıdan metinsel özelliklerle birleştirir ve görsel bölgeleri semantik açıklamalarıyla hizalamayı öğrenir. Grounding DINO, sıfır atış nesne algılama kıyaslamalarında son teknoloji sonuçlar elde eder ve SAM (Segment Anything Model) ile birleştirildiğinde herhangi bir görsel kavramın metin güdümlü segmentasyonu için güçlü bir boru hattı oluşturur. Apache 2.0 lisansı altında tamamen açık kaynaklı olan model, bilgisayarlı görü araştırma ve üretim sistemlerinde yaygın olarak kullanılır. Temel uygulamalar arasında otomatik görüntü açıklama ve etiketleme, görsel arama motorları, sözlü komutları anlayan robotik manipülasyon sistemleri, içerik moderasyon sistemleri ve görüntü içeriklerini tanımlayan erişilebilirlik araçları yer alır.

Nesne Algılama
Segmentasyon

Öne Çıkan Özellikler

Metin Tabanlı Nesne Algılama

Doğal dil açıklamalarıyla herhangi bir nesneyi algılayabilen açık küme (open-set) nesne algılama teknolojisi.

SAM ile Entegrasyon

Segment Anything Model ile birleşerek metin yönlendirmeli piksel seviyesinde segmentasyon sağlayan Grounded-SAM pipeline'ı.

Sıfır Örnekli Algılama

Önceden eğitilmemiş nesne kategorilerini bile algılayarak ek eğitim gerektirmeden çalışma kapasitesi.

Çoklu Nesne Eş Zamanlı Algılama

Tek bir metin açıklamasıyla birden fazla farklı nesneyi aynı anda algılayarak verimli toplu işleme sağlar.

Hakkında

Grounding DINO, metin tabanlı açık kümeli nesne algılama (open-set object detection) için geliştirilmiş çok güçlü bir yapay zeka modelidir. IDEA Research tarafından geliştirilen bu model, geleneksel nesne algılama modellerinin aksine önceden tanımlanmış sınıflarla sınırlı değildir. Herhangi bir metin açıklamasını girdi olarak alabilir ve görüntüde bu açıklamaya uyan nesneleri tespit ederek konumlandırır. Bu açık kelime dağarcığı yaklaşımı, bilgisayarlı görme alanında paradigma değiştirici bir yenilik olarak kabul edilmektedir.

Grounding DINO'nun temelinde, DINO (DETR with Improved deNOising anchOr boxes) dedektörü ile doğal dil işleme modüllerinin birleşimine dayanan bir mimari vardır. Swin Transformer omurgası üzerine inşa edilen model, görsel ve dilsel bilgiyi çapraz dikkat (cross-attention) mekanizmaları aracılığıyla bir arada işler. Bu sayede "kırmızı elbiseli kadın" veya "masanın üstündeki kahve fincanı" gibi detaylı açıklamalarla nesne tespiti yapılabilir. Modelin metin anlama kapasitesi, basit nesne isimlerinin ötesine geçerek ilişkisel ve tanımlayıcı sorguları da destekler. Uzamsal ilişkiler ve nesne nitelikleri de sorgu kapsamında değerlendirilebilir.

COCO ve LVIS benchmark'larında zero-shot nesne tespitinde güçlü sonuçlar elde eden Grounding DINO, önceden tanımlanmış sınıflara bağlı kalmadan doğal dilde ifade edilen herhangi bir nesneyi bulabilir. Bu esneklik, veri etiketleme, içerik moderasyonu ve görsel arama gibi uygulamalarda büyük zaman tasarrufu sağlar. Geleneksel algılama modellerinin aksine, yeni nesne kategorileri için yeniden eğitim gerektirmez ve bu sayede dağıtım süresini dramatik biçimde kısaltır. Özel veri setleri ile ince ayar yapılarak domain-spesifik performans daha da artırılabilir.

Model, Segment Anything (SAM) ile birleştirildiğinde metin tabanlı segmentasyon yapılabilir ve bu kombinasyon Grounded-SAM olarak bilinir. Bu güçlü iş birliği, otonom sürüş, robotik manipülasyon, görüntü düzenleme, otomatik veri etiketleme ve video analizi gibi alanlarda kapsamlı bir iş akışı oluşturur. Kullanıcılar metin ile nesne tespiti yapıp ardından piksel düzeyinde segmentasyon elde edebilir ve bu segmentasyonları downstream görevlerde kullanabilir.

Grounding DINO, sıfır-atışlı (zero-shot) algılama yeteneğine sahiptir ve özel eğitim gerektirmeden yeni nesne kategorilerini tanıyabilir. Bu özellik, hızla değişen üretim hatlarında kalite kontrol, perakende raf analizi, güvenlik kamerası görüntülerinin otomatik değerlendirmesi, tarımsal izleme ve tıbbi görüntü taraması gibi endüstriyel uygulamalarda kritik avantaj sağlar. Nesne sayma ve lokalizasyon doğruluğu, birçok süpervizyonlu modelle karşılaştırılabilir düzeydedir.

Açık kaynak olarak GitHub üzerinden erişilebilen model, pip ile kolayca kurulabilir ve Python API'si üzerinden kullanılabilir. Hugging Face üzerinden model ağırlıkları indirilebilir ve ONNX formatına dönüştürülerek farklı donanım platformlarında optimize edilebilir. TensorRT ile GPU çıkarımı hızlandırılabilir ve batch işleme desteği sayesinde büyük görüntü koleksiyonları verimli şekilde analiz edilebilir.

Otonom araçlar, robotik, video analizi, içerik moderasyonu, tıbbi görüntüleme, tarımsal izleme ve erişilebilirlik uygulamaları gibi geniş bir kullanım alanına sahip olan Grounding DINO, bilgisayarlı görme ekosisteminin en çok yönlü ve etkili modellerinden biri olarak konumlanmaktadır. Perakende sektöründe ürün tanıma, inşaat sektöründe güvenlik ekipmanı denetimi ve üretim hatlarında kalite kontrol gibi endüstriyel kullanım senaryolarında da hızla benimsenmektedir. Modelin açık kelime dağarcığı yaklaşımı, geleneksel nesne algılama paradigmasını temelden değiştirmiş ve bilgisayarlı görme alanında yeni araştırma yönlerinin açılmasına katkıda bulunmuştur.

Kullanım Senaryoları

1

Otomatik Veri Etiketleme

Makine öğrenimi veri setlerinde nesneleri otomatik etiketleyerek manuel etiketleme süresini azaltma.

2

Akıllı Görüntü Düzenleme

Görsellerdeki belirli nesneleri metin ile seçerek otomatik düzenleme ve manipülasyon yapma.

3

Robotik Görü Sistemleri

Robotların çevresindeki nesneleri doğal dil komutlarıyla tanımasını ve etkileşime girmesini sağlama.

4

İçerik Moderasyonu

Sosyal medya ve web platformlarında uygunsuz içerikleri otomatik algılama ve filtreleme.

Artılar ve Eksiler

Artılar

  • Herhangi bir COCO eğitim verisi olmadan COCO tespitinde sıfır atış transferinde 52.5 AP elde eder
  • Açık küme tespit: doğal dil sorguları dahil kullanıcının belirttiği herhangi bir ifadeyi sıfır atışla lokalize eder
  • Özellik geliştirici, dil yönlendirmeli sorgu seçimi ve çapraz modalite kod çözücü ile sıkı füzyon sunar
  • Çeşitli alanlarda ortalama 26.1 AP ile ODinW sıfır atış kıyaslamasında yeni rekor kırar

Eksiler

  • Erken füzyon mimarisi model halüsinasyonlarını artırabilir, görüntülerde olmayan nesneleri tahmin edebilir
  • Daha az ön eğitim verisi nedeniyle nadir ve alışılmadık nesne kategorilerinde GLIP'ten daha düşük performans
  • Örnek segmentasyon maskeleri olmadan yalnızca sınırlayıcı kutular üretir
  • Ağır hesaplamalı özellik geliştirici, gerçek zamanlı uç cihaz uygulamaları için pratik değildir
  • Temel dil modellerinden ve web kaynaklı eğitim verilerinden önyargıları devralabilir

Teknik Detaylar

Parametre

172M

Mimari

DINO + Text Grounding

Eğitim Verisi

O365, GoldG, Cap4M

Lisans

Apache 2.0

Özellikler

  • Open-set detection
  • Text-prompted
  • SAM compatible
  • Zero-shot
  • Multi-object detection
  • Bounding box output

Benchmark Sonuçları

MetrikDeğerKarşılaştırmaKaynak
Zero-Shot AP (COCO val2017)52.5GLIP-L: 49.8GroundingDINO Paper (ECCV 2024)
Zero-Shot AP (LVIS minival)27.4GLIP-L: 26.9GroundingDINO Paper
İşleme Hızı (A100)~12 FPS (Swin-T backbone)GLIP: ~8 FPSGitHub Repository
Parametre Sayısı172M (Swin-T), 341M (Swin-B)Hugging Face Model Card

Mevcut Platformlar

GitHub
HuggingFace

Sıkça Sorulan Sorular

İlgili Modeller

YOLOv10 icon

YOLOv10

Tsinghua University|8M-68M

YOLOv10, Tsinghua Üniversitesi araştırmacıları tarafından geliştirilen YOLO (You Only Look Once) gerçek zamanlı nesne algılama serisinin onuncu büyük iterasyonudur. Model, önceki tüm YOLO sürümlerinde bulunan son işleme darboğazını ortadan kaldıran, NMS gerektirmeyen (Non-Maximum Suppression free) temelden yeniden tasarlanmış bir mimari sunarak tutarlı gecikme ile gerçek uçtan uca nesne algılama sağlar. YOLOv10, eğitim sırasında bire-çok ve bire-bir etiket atamalarını birleştiren çift atama eğitim stratejisi kullanır ve gereksiz tahminler olmadan verimli çıkarım sürdürürken zengin denetim sinyalleri elde eder. Geliştirilmiş özellik birleştirmeli CSPNet omurgası üzerine inşa edilen model, Nano'dan (8M parametre) Ekstra Büyük'e (68M parametre) kadar altı ölçek varyantında sunularak uç cihazlar, mobil platformlar ve yüksek performanslı sunucularda dağıtıma olanak tanır. Her varyant hedef donanım profili için optimize edilmiştir ve kendi sınıfında en iyi doğruluk-gecikme dengesini sunar. YOLOv10, COCO kıyaslamasında son teknoloji performans elde ederek önceki YOLO sürümlerini ve RT-DETR gibi rakip modelleri önemli ölçüde düşük hesaplama maliyetiyle geride bırakır. AGPL-3.0 lisansı altında açık kaynak olarak yayınlanan model, eğitim, doğrulama ve dağıtım için Ultralytics ekosistemiyle sorunsuz entegre olur. Otonom sürüş, endüstriyel kalite kontrol, güvenlik gözetleme, perakende analitik ve robotik gibi alanlarda yaygın olarak kullanılır.

Açık Kaynak
4.7

Hızlı Bilgi

Parametre172M
TipTransformer
LisansApache 2.0
Yayınlanma2023-03
MimariDINO + Text Grounding
Puan4.6 / 5
GeliştiriciIDEA Research

Bağlantılar

Etiketler

detection
grounding
text-prompted
open-set
Siteyi Ziyaret Et