Depth Anything v2 icon

Depth Anything v2

Açık Kaynak
4.6
TikTok / ByteDance

Depth Anything v2, TikTok ve ByteDance araştırmacıları tarafından orijinal Depth Anything'in önemli bir yükseltmesi olarak geliştirilen son teknoloji monoküler derinlik tahmini modelidir. Model, stereo çiftlere veya özel derinlik sensörlerine ihtiyaç duymadan tek RGB görüntülerden hassas derinlik haritaları çıkarır. DPT (Dense Prediction Transformer) kod çözücü başlığıyla birleştirilmiş DINOv2 görüş temel modeli omurgası üzerine inşa edilen Depth Anything v2, selefine kıyasla ince ayrıntı koruma ve kenar keskinliğinde kayda değer iyileştirmeler sağlar. Model, farklı dağıtım senaryoları için doğruluk ve çıkarım hızı arasında esnek dengeler sunan 25 milyon ile 335 milyon parametre arasında değişen üç ölçek varyantında sunulur. V2'deki önemli bir yenilik, hassas derinlik sensörlerinden üretilen büyük ölçekli sentetik eğitim verilerinin sözde etiketli gerçek görüntülerle birleştirilmesidir ve bu yaklaşım önceki monoküler derinlik modellerindeki gürültü ve artefaktları önemli ölçüde azaltır. Model hem göreceli hem de metrik derinlik tahminleri üretir ve 3D sahne rekonstrüksiyonu, artırılmış gerçeklik, otonom navigasyon ve robotik gibi çeşitli uygulamalar için uygundur. Apache 2.0 lisansı altında tamamen açık kaynaklıdır ve Hugging Face üzerinden önceden eğitilmiş kontrol noktalarıyla erişilebilir. Stable Diffusion ve FLUX için ControlNet derinlik koşullandırma dahil yaratıcı AI iş akışlarıyla doğal olarak entegre olur ve sanatçıların derinlik farkındalı kompozisyonlar üretmesini sağlar.

Derinlik Tahmini

Öne Çıkan Özellikler

Evrensel Derinlik Tahmini

Herhangi bir goruntuden yuksek kaliteli derinlik haritasi ureten, alana bagimsiz monokultr derinlik tahmini

Coklu Model Boyutu

Small, Base ve Large boyutlarinda modeller sunarak mobil cihazlardan sunuculara genis donanim destegi

Gercek Zamanli Performans

Video karelerini gercek zamanli isleyebilecek hizda derinlik tahmini yapabilen optimize edilmis mimari

Ustun Dogruluk

Onceki monokultr derinlik tahmin modellerini birden fazla benchmark'ta onemli olcude asan sonuclar

Hakkında

Depth Anything v2, tek bir görüntüden derinlik haritası çıkaran (monoküler derinlik tahmini) en gelişmiş modellerden biridir. Orijinal Depth Anything modelinin başarısı üzerine geliştirilen v2 sürümü, özellikle ince detaylar ve kenar doğruluğu konusunda önemli iyileştirmeler sunar. Hong Kong Üniversitesi ve TikTok araştırma ekibi tarafından geliştirilen bu model, derinlik tahmini alanında yeni bir performans standardı belirlemiş ve monoküler derinlik tahminin pratik uygulamalardaki güvenilirliğini önemli ölçüde artırmıştır.

Model, sentetik ve gerçek dünya verilerinin akıllı kombinasyonuyla eğitilmiştir. Etiketli sentetik veri ile etiketsiz gerçek dünya verisinden yararlanan bu yaklaşım, modelin hem doğru derinlik değerleri üretmesini hem de çeşitli gerçek dünya sahnelerine genelleme yapabilmesini sağlar. İç mekân, dış mekân, doğal ve kentsel ortamlar dahil olmak üzere her türlü sahnede tutarlı sonuçlar verir. V2'nin eğitim stratejisi, sentetik verilerin yüksek kaliteli derinlik etiketlerinden yararlanırken, gerçek dünya verilerinin çeşitliliğiyle modelin genelleme kapasitesini güçlendirir. Bu hibrit eğitim yaklaşımı, hem mutlak derinlik doğruluğunu hem de göreceli derinlik sıralamasını iyileştirir.

Depth Anything v2'nin önceki sürüme göre en belirgin iyileştirmeleri kenar hassasiyeti ve ince detay korumasında görülür. Nesne sınırları, ince yapılar ve karmaşık geometriler daha keskin ve daha doğru derinlik geçişleriyle temsil edilir. Bu iyileştirme, özellikle 3D sahne yeniden oluşturma ve artırılmış gerçeklik gibi kenar kalitesinin kritik olduğu uygulamalarda büyük fark yaratır. Ayrıca model, yansıtıcı yüzeyler, şeffaf objeler ve tekrarlayan dokular gibi geleneksel olarak zorlu senaryolarda da gelişmiş performans sergiler. Gökyüzü, su yüzeyleri ve cam gibi belirsiz derinlik ipuçları sunan bölgelerde bile tutarlı tahminler üretir.

Small, Base ve Large olmak üzere üç model boyutunda sunulur. En küçük varyant gerçek zamanlı uygulamalar için uygunken, Large varyant en yüksek doğruluğu sağlar. DINOv2 tabanlı görsel kodlayıcısı, modelin güçlü özellik çıkarma kapasitesinin temelini oluşturur ve öz denetimli ön eğitimden elde edilen zengin görsel temsilleri kullanır. Her boyut, farklı hesaplama bütçeleri ve gecikme gereksinimleri için optimize edilmiştir, bu da geliştiricilerin uygulama ihtiyaçlarına göre en uygun dengeyi seçmesine olanak tanır.

Depth Anything v2'nin pratik kullanım alanları son derece geniştir. 3D sahne oluşturma, artırılmış gerçeklik efektleri, robotik navigasyon, otonom araç algılama ve fotoğraf düzenleme en yaygın uygulamalar arasındadır. Fotoğraf uygulamalarında portre modu arka plan bulanıklaştırma, derinliğe dayalı odak efektleri ve katmanlı düzenleme özellikleri için temel girdi sağlar. NeRF ve Gaussian Splatting gibi 3D yeniden oluşturma tekniklerine girdi olarak kullanılarak bu tekniklerin kalitesini önemli ölçüde artırır. Video oyunlarında ve film yapımında sanal kamera efektleri ve derinlik tabanlı post-prodüksiyon için de kullanılmaktadır.

Açık kaynak olarak yayınlanmış olan model, Hugging Face üzerinden erişilebilir ve PyTorch, ONNX ve TensorRT formatlarında kullanılabilir. Gradio tabanlı demo arayüzü ile hızlıca test edilebilir. Video derinlik tahmini için kare kare işleme desteği sunar ve zamansal tutarlılık teknikleriyle birleştirilerek düzgün video derinlik haritaları elde edilebilir. Model, bilgisayarla görme araştırma topluluğunda hızla standart bir derinlik tahmini çözümü olarak kabul görmüş ve çok sayıda aşağı akış uygulamasına temel oluşturmuştur.

Otonom araç sistemlerinde Depth Anything v2, LiDAR sensörlerinin maliyetli olduğu durumlarda kamera tabanlı derinlik algılama çözümü olarak kullanılmaktadır. Robotik navigasyonda engel tespiti ve yol planlama için gerçek zamanlı derinlik bilgisi sağlar. Mimari ve iç mekân tasarımı alanında mevcut alanların 3D modellemesi için pratik bir araç olarak kullanılır. Artırılmış gerçeklik uygulamalarında sanal nesnelerin gerçek dünya derinliğine doğru şekilde yerleştirilmesi için kritik bir bileşen olarak hizmet eder.

Kullanım Senaryoları

1

3D Sahne Yeniden Olusturma

Tek bir fotograftan 3D sahne geometrisi cikararak sanal ortamlar ve 3D modeller olusturma

2

Artirilmis Gerceklik

AR uygulamalarinda sanal nesnelerin gercek dunya sahnesine derinlik uyumlu yerlestirilmesi

3

Robotik Navigasyon

Robotlarin cevrelerindeki nesnelerin mesafesini tahmin ederek engelden kacinma ve yol planlama

4

Fotografik Derinlik Efektleri

Portre modu, bokeh efekti ve derinlik tabanli gorsel duzenleme icin derinlik haritasi olusturma

Artılar ve Eksiler

Artılar

  • Stable Diffusion tabanlı modellere göre 10 kattan fazla hızlı ve daha doğru derinlik tahmini
  • ViT-B modeli bile daha büyük MiDaS ViT-L modelini geride bırakır; hesaplama kısıtlı ortamlar için verimli
  • KITTI ve NYUv2 gibi yaygın benchmark'larda eğitim görsellerini görmeden bile üstün performans (gerçek zero-shot)
  • 25M'den 1.3B'ye kadar farklı ölçeklerde modeller ile geniş senaryo desteği
  • Öğretmen modelin ürettiği sözde-etiketlerin kalitesi mevcut gerçek dünya veri setlerindeki manuel etiketlerden üstün

Eksiler

  • Sentetik ve gerçek dünya verisi arasındaki dağılım farkı genellenebilirliği sınırlayabilir
  • Render motorlarının ürettiği sentetik veri setlerinin sahne çeşitliliği yetersiz olabilir
  • Döndürülmüş görsellerde zorlanır; yansımaları ve resimleri yanlış yorumlayabilir
  • Güçlü kenarlarda hallüsinasyon derinliği ve ince yapıları kaçırma gibi yaygın hata durumları
  • Bağlantısız nesneler arasında yanlış göreceli derinlik ve sınırlı çözünürlükten kaynaklanan bulanık arka planlar

Teknik Detaylar

Parametre

25M-335M

Mimari

DINOv2 + DPT

Eğitim Verisi

Synthetic + real-world depth data

Lisans

Apache 2.0

Özellikler

  • Monocular Depth Estimation
  • Multi-Scale Architecture
  • Real-Time Inference
  • Multi-Size Models
  • Zero-Shot Generalization
  • Metric Depth Support

Benchmark Sonuçları

MetrikDeğerKarşılaştırmaKaynak
Absolute Relative Error (NYUv2)0.043Depth Anything v1: 0.056Depth Anything v2 Paper (arXiv:2406.09414)
delta1 Doğruluk (NYUv2)0.982MiDaS v3.1: 0.955Depth Anything v2 Paper (arXiv:2406.09414)
Desteklenen Çözünürlük518×518 (native), arbitrary inputHugging Face Model Card
İşleme Hızı (A100)~30 FPS (ViT-S), ~12 FPS (ViT-L)ZoeDepth: ~8 FPSGitHub Repository Benchmarks

Mevcut Platformlar

GitHub
HuggingFace

Sıkça Sorulan Sorular

Hızlı Bilgi

Parametre25M-335M
TipVision Transformer
LisansApache 2.0
Yayınlanma2024-06
MimariDINOv2 + DPT
Versiyon2
Puan4.6 / 5
GeliştiriciTikTok / ByteDance

Bağlantılar

Etiketler

depth
estimation
3d
computer-vision
Siteyi Ziyaret Et