Grounding DINO nedir ve nasıl çalışır?

Grounding DINO, metin açıklamalarıyla nesneleri algılayan açık küme (open-set) bir nesne algılama modelidir. DINO nesne algılama modelini dil tabanlı grounding ile birleştirerek çalışır. Herhangi bir metin açıklamasıyla eşleşen nesneleri görüntüde bulabilir ve konumlandırabilir.

Grounding DINO ile SAM birlikte nasıl kullanılır?

Grounding DINO öncelikle metin açıklamasına göre nesneleri tespit eder ve bounding box üretir. Ardından SAM bu bounding box'ları kullanarak piksel düzeyinde segmentasyon maskeleri oluşturur. Bu pipeline 'Grounded-SAM' olarak bilinir ve otomatik etiketleme ile düzenleme için kullanılır.

Grounding DINO Türkçe metin açıklamalarıyla çalışıyor mu?

Grounding DINO esas olarak İngilizce metin açıklamalarıyla eğitilmiştir. Türkçe açıklamalar için önce çeviriye ihtiyaç duyulabilir veya çok dilli CLIP tabanlı varyantlar tercih edilebilir. En iyi sonuçlar İngilizce açıklamalarla elde edilmektedir.

Grounding DINO çalıştırmak için ne tür donanım gerekiyor?

Grounding DINO en az 6GB VRAM'e sahip bir GPU ile çalışabilir. Büyük görüntüler ve çoklu nesne algılama için daha fazla VRAM gerekebilir. CPU modunda da çalıştırılabilir ancak çıkarım süresi önemli ölçüde artar ve gerçek zamanlı kullanım zorlaşır.

Grounding DINO geleneksel nesne algılama modellerinden ne farkı var?

Geleneksel nesne algılama modelleri (YOLO, R-CNN) sabit nesne kategorileriyle eğitilir. Grounding DINO ise açık küme algılama yaparak önceden tanımlanmamış nesneleri bile metin açıklamalarıyla bulabilir. Bu, etiketleme maliyetini düşürür ve esneklik sağlar.

Grounding DINO ticari projelerde kullanılabilir mi?

Grounding DINO açık kaynak olarak Apache 2.0 lisansı altında yayınlanmıştır ve ticari projelerde kullanılabilir. Ancak SAM ile birlikte kullanıldığında SAM'ın lisans koşullarını da kontrol etmeniz gerekir. Her iki model de geniş bir topluluk tarafından desteklenmektedir.

GroundingDINO

Açık Kaynak

4.6

IDEA Research

Grounding DINO, IDEA Research tarafından geliştirilen ve doğal dil metin açıklamalarına dayalı olarak bir görüntüdeki herhangi bir nesneyi bulan ve tanımlayan güçlü bir açık küme nesne algılama modelidir. Sabit kategori algılamadan dile dayalı görsel anlamaya doğru bir paradigma değişimini temsil eder. 172 milyon parametresiyle model, DINO algılama mimarisini metin grounding yetenekleriyle birleştirerek eğitim sırasında hiç görülmemiş nesneleri basitçe kelimelerle tanımlayarak algılamayı mümkün kılar. COCO'nun 80 sınıfı gibi sabit kategoriler üzerinde eğitilmiş geleneksel nesne algılayıcılardan farklı olarak Grounding DINO, 'raftaki kırmızı ayakkabılar' veya 'binadaki çatlamış pencere' gibi serbest biçimli metin sorguları kabul ederek rastgele nesneleri, parçaları, malzemeleri veya görsel kavramları bulabilir. Mimari, çapraz modalite dikkat katmanları aracılığıyla görüntü kodlayıcıdan görsel özellikleri metin kodlayıcıdan metinsel özelliklerle birleştirir ve görsel bölgeleri semantik açıklamalarıyla hizalamayı öğrenir. Grounding DINO, sıfır atış nesne algılama kıyaslamalarında son teknoloji sonuçlar elde eder ve SAM (Segment Anything Model) ile birleştirildiğinde herhangi bir görsel kavramın metin güdümlü segmentasyonu için güçlü bir boru hattı oluşturur. Apache 2.0 lisansı altında tamamen açık kaynaklı olan model, bilgisayarlı görü araştırma ve üretim sistemlerinde yaygın olarak kullanılır. Temel uygulamalar arasında otomatik görüntü açıklama ve etiketleme, görsel arama motorları, sözlü komutları anlayan robotik manipülasyon sistemleri, içerik moderasyon sistemleri ve görüntü içeriklerini tanımlayan erişilebilirlik araçları yer alır.

Nesne Algılama

Segmentasyon

Siteyi Ziyaret Et

Öne Çıkan Özellikler

Metin Tabanlı Nesne Algılama

Doğal dil açıklamalarıyla herhangi bir nesneyi algılayabilen açık küme (open-set) nesne algılama teknolojisi.

SAM ile Entegrasyon

Segment Anything Model ile birleşerek metin yönlendirmeli piksel seviyesinde segmentasyon sağlayan Grounded-SAM pipeline'ı.

Sıfır Örnekli Algılama

Önceden eğitilmemiş nesne kategorilerini bile algılayarak ek eğitim gerektirmeden çalışma kapasitesi.

Çoklu Nesne Eş Zamanlı Algılama

Tek bir metin açıklamasıyla birden fazla farklı nesneyi aynı anda algılayarak verimli toplu işleme sağlar.

Hakkında

Grounding DINO, metin tabanlı açık kümeli nesne algılama (open-set object detection) için geliştirilmiş çok güçlü bir yapay zeka modelidir. IDEA Research tarafından geliştirilen bu model, geleneksel nesne algılama modellerinin aksine önceden tanımlanmış sınıflarla sınırlı değildir. Herhangi bir metin açıklamasını girdi olarak alabilir ve görüntüde bu açıklamaya uyan nesneleri tespit ederek konumlandırır. Bu açık kelime dağarcığı yaklaşımı, bilgisayarlı görme alanında paradigma değiştirici bir yenilik olarak kabul edilmektedir.

Grounding DINO'nun temelinde, DINO (DETR with Improved deNOising anchOr boxes) dedektörü ile doğal dil işleme modüllerinin birleşimine dayanan bir mimari vardır. Swin Transformer omurgası üzerine inşa edilen model, görsel ve dilsel bilgiyi çapraz dikkat (cross-attention) mekanizmaları aracılığıyla bir arada işler. Bu sayede "kırmızı elbiseli kadın" veya "masanın üstündeki kahve fincanı" gibi detaylı açıklamalarla nesne tespiti yapılabilir. Modelin metin anlama kapasitesi, basit nesne isimlerinin ötesine geçerek ilişkisel ve tanımlayıcı sorguları da destekler. Uzamsal ilişkiler ve nesne nitelikleri de sorgu kapsamında değerlendirilebilir.

COCO ve LVIS benchmark'larında zero-shot nesne tespitinde güçlü sonuçlar elde eden Grounding DINO, önceden tanımlanmış sınıflara bağlı kalmadan doğal dilde ifade edilen herhangi bir nesneyi bulabilir. Bu esneklik, veri etiketleme, içerik moderasyonu ve görsel arama gibi uygulamalarda büyük zaman tasarrufu sağlar. Geleneksel algılama modellerinin aksine, yeni nesne kategorileri için yeniden eğitim gerektirmez ve bu sayede dağıtım süresini dramatik biçimde kısaltır. Özel veri setleri ile ince ayar yapılarak domain-spesifik performans daha da artırılabilir.

Model, Segment Anything (SAM) ile birleştirildiğinde metin tabanlı segmentasyon yapılabilir ve bu kombinasyon Grounded-SAM olarak bilinir. Bu güçlü iş birliği, otonom sürüş, robotik manipülasyon, görüntü düzenleme, otomatik veri etiketleme ve video analizi gibi alanlarda kapsamlı bir iş akışı oluşturur. Kullanıcılar metin ile nesne tespiti yapıp ardından piksel düzeyinde segmentasyon elde edebilir ve bu segmentasyonları downstream görevlerde kullanabilir.

Grounding DINO, sıfır-atışlı (zero-shot) algılama yeteneğine sahiptir ve özel eğitim gerektirmeden yeni nesne kategorilerini tanıyabilir. Bu özellik, hızla değişen üretim hatlarında kalite kontrol, perakende raf analizi, güvenlik kamerası görüntülerinin otomatik değerlendirmesi, tarımsal izleme ve tıbbi görüntü taraması gibi endüstriyel uygulamalarda kritik avantaj sağlar. Nesne sayma ve lokalizasyon doğruluğu, birçok süpervizyonlu modelle karşılaştırılabilir düzeydedir.

Açık kaynak olarak GitHub üzerinden erişilebilen model, pip ile kolayca kurulabilir ve Python API'si üzerinden kullanılabilir. Hugging Face üzerinden model ağırlıkları indirilebilir ve ONNX formatına dönüştürülerek farklı donanım platformlarında optimize edilebilir. TensorRT ile GPU çıkarımı hızlandırılabilir ve batch işleme desteği sayesinde büyük görüntü koleksiyonları verimli şekilde analiz edilebilir.

Otonom araçlar, robotik, video analizi, içerik moderasyonu, tıbbi görüntüleme, tarımsal izleme ve erişilebilirlik uygulamaları gibi geniş bir kullanım alanına sahip olan Grounding DINO, bilgisayarlı görme ekosisteminin en çok yönlü ve etkili modellerinden biri olarak konumlanmaktadır. Perakende sektöründe ürün tanıma, inşaat sektöründe güvenlik ekipmanı denetimi ve üretim hatlarında kalite kontrol gibi endüstriyel kullanım senaryolarında da hızla benimsenmektedir. Modelin açık kelime dağarcığı yaklaşımı, geleneksel nesne algılama paradigmasını temelden değiştirmiş ve bilgisayarlı görme alanında yeni araştırma yönlerinin açılmasına katkıda bulunmuştur.

Kullanım Senaryoları

Otomatik Veri Etiketleme

Makine öğrenimi veri setlerinde nesneleri otomatik etiketleyerek manuel etiketleme süresini azaltma.

Akıllı Görüntü Düzenleme

Görsellerdeki belirli nesneleri metin ile seçerek otomatik düzenleme ve manipülasyon yapma.

Robotik Görü Sistemleri

Robotların çevresindeki nesneleri doğal dil komutlarıyla tanımasını ve etkileşime girmesini sağlama.

İçerik Moderasyonu

Sosyal medya ve web platformlarında uygunsuz içerikleri otomatik algılama ve filtreleme.

Artılar ve Eksiler

Artılar

Herhangi bir COCO eğitim verisi olmadan COCO tespitinde sıfır atış transferinde 52.5 AP elde eder
Açık küme tespit: doğal dil sorguları dahil kullanıcının belirttiği herhangi bir ifadeyi sıfır atışla lokalize eder
Özellik geliştirici, dil yönlendirmeli sorgu seçimi ve çapraz modalite kod çözücü ile sıkı füzyon sunar
Çeşitli alanlarda ortalama 26.1 AP ile ODinW sıfır atış kıyaslamasında yeni rekor kırar

Eksiler

Erken füzyon mimarisi model halüsinasyonlarını artırabilir, görüntülerde olmayan nesneleri tahmin edebilir
Daha az ön eğitim verisi nedeniyle nadir ve alışılmadık nesne kategorilerinde GLIP'ten daha düşük performans
Örnek segmentasyon maskeleri olmadan yalnızca sınırlayıcı kutular üretir
Ağır hesaplamalı özellik geliştirici, gerçek zamanlı uç cihaz uygulamaları için pratik değildir
Temel dil modellerinden ve web kaynaklı eğitim verilerinden önyargıları devralabilir

Teknik Detaylar

Parametre

172M

Mimari

DINO + Text Grounding

Eğitim Verisi

O365, GoldG, Cap4M

Lisans

Apache 2.0

Özellikler

Open-set detection
Text-prompted
SAM compatible
Zero-shot
Multi-object detection
Bounding box output

Benchmark Sonuçları

Metrik	Değer	Karşılaştırma	Kaynak
Zero-Shot AP (COCO val2017)	52.5	GLIP-L: 49.8	GroundingDINO Paper (ECCV 2024)
Zero-Shot AP (LVIS minival)	27.4	GLIP-L: 26.9	GroundingDINO Paper
İşleme Hızı (A100)	~12 FPS (Swin-T backbone)	GLIP: ~8 FPS	GitHub Repository
Parametre Sayısı	172M (Swin-T), 341M (Swin-B)	—	Hugging Face Model Card

Mevcut Platformlar

GitHub

HuggingFace

Sıkça Sorulan Sorular

İlgili Modeller

YOLOv10

Tsinghua University|8M-68M

YOLOv10, Tsinghua Üniversitesi araştırmacıları tarafından geliştirilen YOLO (You Only Look Once) gerçek zamanlı nesne algılama serisinin onuncu büyük iterasyonudur. Model, önceki tüm YOLO sürümlerinde bulunan son işleme darboğazını ortadan kaldıran, NMS gerektirmeyen (Non-Maximum Suppression free) temelden yeniden tasarlanmış bir mimari sunarak tutarlı gecikme ile gerçek uçtan uca nesne algılama sağlar. YOLOv10, eğitim sırasında bire-çok ve bire-bir etiket atamalarını birleştiren çift atama eğitim stratejisi kullanır ve gereksiz tahminler olmadan verimli çıkarım sürdürürken zengin denetim sinyalleri elde eder. Geliştirilmiş özellik birleştirmeli CSPNet omurgası üzerine inşa edilen model, Nano'dan (8M parametre) Ekstra Büyük'e (68M parametre) kadar altı ölçek varyantında sunularak uç cihazlar, mobil platformlar ve yüksek performanslı sunucularda dağıtıma olanak tanır. Her varyant hedef donanım profili için optimize edilmiştir ve kendi sınıfında en iyi doğruluk-gecikme dengesini sunar. YOLOv10, COCO kıyaslamasında son teknoloji performans elde ederek önceki YOLO sürümlerini ve RT-DETR gibi rakip modelleri önemli ölçüde düşük hesaplama maliyetiyle geride bırakır. AGPL-3.0 lisansı altında açık kaynak olarak yayınlanan model, eğitim, doğrulama ve dağıtım için Ultralytics ekosistemiyle sorunsuz entegre olur. Otonom sürüş, endüstriyel kalite kontrol, güvenlik gözetleme, perakende analitik ve robotik gibi alanlarda yaygın olarak kullanılır.

Açık Kaynak

4.7