Depth Anything v2
Depth Anything v2, TikTok ve ByteDance araştırmacıları tarafından orijinal Depth Anything'in önemli bir yükseltmesi olarak geliştirilen son teknoloji monoküler derinlik tahmini modelidir. Model, stereo çiftlere veya özel derinlik sensörlerine ihtiyaç duymadan tek RGB görüntülerden hassas derinlik haritaları çıkarır. DPT (Dense Prediction Transformer) kod çözücü başlığıyla birleştirilmiş DINOv2 görüş temel modeli omurgası üzerine inşa edilen Depth Anything v2, selefine kıyasla ince ayrıntı koruma ve kenar keskinliğinde kayda değer iyileştirmeler sağlar. Model, farklı dağıtım senaryoları için doğruluk ve çıkarım hızı arasında esnek dengeler sunan 25 milyon ile 335 milyon parametre arasında değişen üç ölçek varyantında sunulur. V2'deki önemli bir yenilik, hassas derinlik sensörlerinden üretilen büyük ölçekli sentetik eğitim verilerinin sözde etiketli gerçek görüntülerle birleştirilmesidir ve bu yaklaşım önceki monoküler derinlik modellerindeki gürültü ve artefaktları önemli ölçüde azaltır. Model hem göreceli hem de metrik derinlik tahminleri üretir ve 3D sahne rekonstrüksiyonu, artırılmış gerçeklik, otonom navigasyon ve robotik gibi çeşitli uygulamalar için uygundur. Apache 2.0 lisansı altında tamamen açık kaynaklıdır ve Hugging Face üzerinden önceden eğitilmiş kontrol noktalarıyla erişilebilir. Stable Diffusion ve FLUX için ControlNet derinlik koşullandırma dahil yaratıcı AI iş akışlarıyla doğal olarak entegre olur ve sanatçıların derinlik farkındalı kompozisyonlar üretmesini sağlar.
Öne Çıkan Özellikler
Evrensel Derinlik Tahmini
Herhangi bir goruntuden yuksek kaliteli derinlik haritasi ureten, alana bagimsiz monokultr derinlik tahmini
Coklu Model Boyutu
Small, Base ve Large boyutlarinda modeller sunarak mobil cihazlardan sunuculara genis donanim destegi
Gercek Zamanli Performans
Video karelerini gercek zamanli isleyebilecek hizda derinlik tahmini yapabilen optimize edilmis mimari
Ustun Dogruluk
Onceki monokultr derinlik tahmin modellerini birden fazla benchmark'ta onemli olcude asan sonuclar
Hakkında
Depth Anything v2, tek bir görüntüden derinlik haritası çıkaran (monoküler derinlik tahmini) en gelişmiş modellerden biridir. Orijinal Depth Anything modelinin başarısı üzerine geliştirilen v2 sürümü, özellikle ince detaylar ve kenar doğruluğu konusunda önemli iyileştirmeler sunar. Hong Kong Üniversitesi ve TikTok araştırma ekibi tarafından geliştirilen bu model, derinlik tahmini alanında yeni bir performans standardı belirlemiş ve monoküler derinlik tahminin pratik uygulamalardaki güvenilirliğini önemli ölçüde artırmıştır.
Model, sentetik ve gerçek dünya verilerinin akıllı kombinasyonuyla eğitilmiştir. Etiketli sentetik veri ile etiketsiz gerçek dünya verisinden yararlanan bu yaklaşım, modelin hem doğru derinlik değerleri üretmesini hem de çeşitli gerçek dünya sahnelerine genelleme yapabilmesini sağlar. İç mekân, dış mekân, doğal ve kentsel ortamlar dahil olmak üzere her türlü sahnede tutarlı sonuçlar verir. V2'nin eğitim stratejisi, sentetik verilerin yüksek kaliteli derinlik etiketlerinden yararlanırken, gerçek dünya verilerinin çeşitliliğiyle modelin genelleme kapasitesini güçlendirir. Bu hibrit eğitim yaklaşımı, hem mutlak derinlik doğruluğunu hem de göreceli derinlik sıralamasını iyileştirir.
Depth Anything v2'nin önceki sürüme göre en belirgin iyileştirmeleri kenar hassasiyeti ve ince detay korumasında görülür. Nesne sınırları, ince yapılar ve karmaşık geometriler daha keskin ve daha doğru derinlik geçişleriyle temsil edilir. Bu iyileştirme, özellikle 3D sahne yeniden oluşturma ve artırılmış gerçeklik gibi kenar kalitesinin kritik olduğu uygulamalarda büyük fark yaratır. Ayrıca model, yansıtıcı yüzeyler, şeffaf objeler ve tekrarlayan dokular gibi geleneksel olarak zorlu senaryolarda da gelişmiş performans sergiler. Gökyüzü, su yüzeyleri ve cam gibi belirsiz derinlik ipuçları sunan bölgelerde bile tutarlı tahminler üretir.
Small, Base ve Large olmak üzere üç model boyutunda sunulur. En küçük varyant gerçek zamanlı uygulamalar için uygunken, Large varyant en yüksek doğruluğu sağlar. DINOv2 tabanlı görsel kodlayıcısı, modelin güçlü özellik çıkarma kapasitesinin temelini oluşturur ve öz denetimli ön eğitimden elde edilen zengin görsel temsilleri kullanır. Her boyut, farklı hesaplama bütçeleri ve gecikme gereksinimleri için optimize edilmiştir, bu da geliştiricilerin uygulama ihtiyaçlarına göre en uygun dengeyi seçmesine olanak tanır.
Depth Anything v2'nin pratik kullanım alanları son derece geniştir. 3D sahne oluşturma, artırılmış gerçeklik efektleri, robotik navigasyon, otonom araç algılama ve fotoğraf düzenleme en yaygın uygulamalar arasındadır. Fotoğraf uygulamalarında portre modu arka plan bulanıklaştırma, derinliğe dayalı odak efektleri ve katmanlı düzenleme özellikleri için temel girdi sağlar. NeRF ve Gaussian Splatting gibi 3D yeniden oluşturma tekniklerine girdi olarak kullanılarak bu tekniklerin kalitesini önemli ölçüde artırır. Video oyunlarında ve film yapımında sanal kamera efektleri ve derinlik tabanlı post-prodüksiyon için de kullanılmaktadır.
Açık kaynak olarak yayınlanmış olan model, Hugging Face üzerinden erişilebilir ve PyTorch, ONNX ve TensorRT formatlarında kullanılabilir. Gradio tabanlı demo arayüzü ile hızlıca test edilebilir. Video derinlik tahmini için kare kare işleme desteği sunar ve zamansal tutarlılık teknikleriyle birleştirilerek düzgün video derinlik haritaları elde edilebilir. Model, bilgisayarla görme araştırma topluluğunda hızla standart bir derinlik tahmini çözümü olarak kabul görmüş ve çok sayıda aşağı akış uygulamasına temel oluşturmuştur.
Otonom araç sistemlerinde Depth Anything v2, LiDAR sensörlerinin maliyetli olduğu durumlarda kamera tabanlı derinlik algılama çözümü olarak kullanılmaktadır. Robotik navigasyonda engel tespiti ve yol planlama için gerçek zamanlı derinlik bilgisi sağlar. Mimari ve iç mekân tasarımı alanında mevcut alanların 3D modellemesi için pratik bir araç olarak kullanılır. Artırılmış gerçeklik uygulamalarında sanal nesnelerin gerçek dünya derinliğine doğru şekilde yerleştirilmesi için kritik bir bileşen olarak hizmet eder.
Kullanım Senaryoları
3D Sahne Yeniden Olusturma
Tek bir fotograftan 3D sahne geometrisi cikararak sanal ortamlar ve 3D modeller olusturma
Artirilmis Gerceklik
AR uygulamalarinda sanal nesnelerin gercek dunya sahnesine derinlik uyumlu yerlestirilmesi
Robotik Navigasyon
Robotlarin cevrelerindeki nesnelerin mesafesini tahmin ederek engelden kacinma ve yol planlama
Fotografik Derinlik Efektleri
Portre modu, bokeh efekti ve derinlik tabanli gorsel duzenleme icin derinlik haritasi olusturma
Artılar ve Eksiler
Artılar
- Stable Diffusion tabanlı modellere göre 10 kattan fazla hızlı ve daha doğru derinlik tahmini
- ViT-B modeli bile daha büyük MiDaS ViT-L modelini geride bırakır; hesaplama kısıtlı ortamlar için verimli
- KITTI ve NYUv2 gibi yaygın benchmark'larda eğitim görsellerini görmeden bile üstün performans (gerçek zero-shot)
- 25M'den 1.3B'ye kadar farklı ölçeklerde modeller ile geniş senaryo desteği
- Öğretmen modelin ürettiği sözde-etiketlerin kalitesi mevcut gerçek dünya veri setlerindeki manuel etiketlerden üstün
Eksiler
- Sentetik ve gerçek dünya verisi arasındaki dağılım farkı genellenebilirliği sınırlayabilir
- Render motorlarının ürettiği sentetik veri setlerinin sahne çeşitliliği yetersiz olabilir
- Döndürülmüş görsellerde zorlanır; yansımaları ve resimleri yanlış yorumlayabilir
- Güçlü kenarlarda hallüsinasyon derinliği ve ince yapıları kaçırma gibi yaygın hata durumları
- Bağlantısız nesneler arasında yanlış göreceli derinlik ve sınırlı çözünürlükten kaynaklanan bulanık arka planlar
Teknik Detaylar
Parametre
25M-335M
Mimari
DINOv2 + DPT
Eğitim Verisi
Synthetic + real-world depth data
Lisans
Apache 2.0
Özellikler
- Monocular Depth Estimation
- Multi-Scale Architecture
- Real-Time Inference
- Multi-Size Models
- Zero-Shot Generalization
- Metric Depth Support
Benchmark Sonuçları
| Metrik | Değer | Karşılaştırma | Kaynak |
|---|---|---|---|
| Absolute Relative Error (NYUv2) | 0.043 | Depth Anything v1: 0.056 | Depth Anything v2 Paper (arXiv:2406.09414) |
| delta1 Doğruluk (NYUv2) | 0.982 | MiDaS v3.1: 0.955 | Depth Anything v2 Paper (arXiv:2406.09414) |
| Desteklenen Çözünürlük | 518×518 (native), arbitrary input | — | Hugging Face Model Card |
| İşleme Hızı (A100) | ~30 FPS (ViT-S), ~12 FPS (ViT-L) | ZoeDepth: ~8 FPS | GitHub Repository Benchmarks |