DWPose
DWPose, IDEA Research tarafından geliştirilen ve vücut anahtar noktalarını, el hareketlerini ve yüz referans noktalarını tek bir birleşik çerçevede algılayan son teknoloji tüm vücut poz tahmini modelidir. CNN ve Transformer bileşenlerini birleştiren RTMPose tabanlı mimari üzerine inşa edilen DWPose, hızlı çıkarım hızlarını korurken OpenPose ve diğer geleneksel poz tahmin sistemlerine kıyasla üstün doğruluk elde eder. Yaklaşık 100 milyon parametreli model, tam vücut iskeleti, bireysel parmak eklemleriyle her iki el ve 68 yüz referans noktasını kapsayan 133 anahtar noktayı tek bir ileri geçişte eşzamanlı olarak tahmin ederek kapsamlı poz bilgisi sağlar. DWPose, çıkarılan poz verilerinin Stable Diffusion ve FLUX gibi difüzyon modellerini belirli vücut pozisyonları ve jestlere uygun görüntüler üretmeye yönlendirdiği ControlNet tabanlı görüntü üretim iş akışları için tercih edilen poz tahmini omurgası haline gelmiştir. Model, tek bir karede birden fazla kişiyi işler, farklı vücut tipleri, giysi stilleri ve kısmi oklüzyonlarda güvenilir çalışır ve örtüşen uzuvlar veya alışılmadık pozlar gibi zorlu senaryolarda bile doğruluğunu korur. Apache 2.0 lisansı altında yayınlanan DWPose tamamen açık kaynaklıdır ve ComfyUI, Diffusers kütüphanesi ve özel animasyon boru hatlarıyla sorunsuz entegre olur. AI görüntü üretiminin ötesinde, oyun geliştirme için hareket yakalama, fitness takip uygulamaları, işaret dili tanıma, dans koreografi analizi ve spor biyomekaniği araştırmalarında hizmet verir.
Öne Çıkan Özellikler
133 Anahtar Nokta ile Tüm Vücut Algılama
Vücut, el, yüz ve ayak dahil 133 anahtar noktayı tek bir çerçevede algılayarak kapsamlı poz tahmini sunar.
ControlNet Entegrasyonu
Stable Diffusion ve FLUX gibi modellerle ControlNet üzerinden doğrudan kullanım için optimize edilmiş poz haritaları üretir.
Çoklu Kişi Eş Zamanlı Algılama
Aynı sahnede birden fazla kişinin pozunu eş zamanlı olarak algılayarak grup kompozisyonlarında kullanım sağlar.
Distilasyon ile Yüksek Hız
İki aşamalı bilgi distilasyonu sayesinde büyük modellerin doğruluğunu korurken gerçek zamanlı çalışma hızı sağlar.
Hakkında
DWPose, tüm vücut poz tahmini için geliştirilmiş son teknoloji bir modeldir. Yüz ifadeleri, el parmakları ve vücut duruşunu tek bir birleşik çerçevede algılayabilen bu model, OpenPose'un modern ve daha doğru bir alternatifi olarak konumlanmıştır. Özellikle yapay zekâ destekli görüntü üretimi ve animasyon kontrol sistemlerinde tercih edilen DWPose, hassas ve kapsamlı poz verisi sağlayarak yaratıcı iş akışlarının temel taşlarından biri haline gelmiştir. Poz tahmini alanında doğruluk ve hız açısından yeni ölçütler belirleyen model, hem araştırma hem de üretim ortamlarında geniş kabul görmüştür.
Modelin temel yeniliği, çift aşamalı (two-stage) distilasyon yaklaşımıdır. Büyük ve güçlü bir öğretmen modelden küçük ve hızlı bir öğrenci modele bilgi aktarımı yapılarak, yüksek doğruluğu korurken çalışma hızı önemli ölçüde artırılmıştır. Bu sayede 133 anahtar nokta (17 vücut, 68 yüz, 42 el, 6 ayak) gerçek zamanlı olarak tespit edilebilir. Distilasyon süreci, öğretmen modelin karmaşık özellik temsillerini öğrenci modele aktararak, küçük model boyutuyla büyük model performansına yakın sonuçlar elde etmeyi mümkün kılar. İlk aşamada ara katman özellik distilasyonu, ikinci aşamada ise çıktı düzeyinde distilasyon uygulanarak kapsamlı bilgi aktarımı sağlanır.
DWPose'un en önemli kullanım alanlarından biri, yapay zekâ görüntü üretiminde kontrol mekanizması olarak hizmet etmesidir. ControlNet ile birlikte kullanıldığında, Stable Diffusion ve FLUX gibi modellerde üretilen görsellerin poz ve duruşunu hassas biçimde kontrol etmeyi sağlar. Bir referans fotoğraftaki pozu çıkarıp, aynı pozda tamamen farklı bir karakter oluşturabilirsiniz. Bu yetenek, karakter tasarımı, illüstrasyon ve konsept sanat üretiminde yaratıcı özgürlüğü büyük ölçüde artırır ve tekrarlanabilir sonuçlar elde etmeyi mümkün kılar.
Modelin yüz ve el algılama kapasitesi, onu rakiplerinden ayıran önemli bir özelliktir. 68 yüz anahtar noktası sayesinde yüz ifadelerini, kaş hareketlerini ve ağız pozisyonlarını detaylı biçimde yakalayabilir. 42 el anahtar noktası ise her bir parmağın pozisyonunu ve açısını hassas biçimde tespit eder. Bu detay düzeyi, işaret dili tanıma, müzik performansı analizi ve el jest kontrolü gibi uygulamalarda kritik öneme sahiptir. El tespitindeki yüksek doğruluk, özellikle AI görüntü üretiminde ellerin doğru pozisyonda oluşturulması sorununa pratik çözüm sunar ve yapay zekâ tarafından üretilen görsellerdeki en yaygın kalite sorunlarından birini ele alır.
Animasyon ve oyun geliştirme sektöründe DWPose, hareket yakalama (motion capture) sistemlerine düşük maliyetli bir alternatif sunar. Profesyonel mocap ekipmanı gerektirmeden, standart kameralarla çekilmiş videolardan yüksek kaliteli poz verisi çıkarılabilir. Bu veri, 3D karakter animasyonu, dans koreografisi oluşturma ve spor performansı analizi için doğrudan kullanılabilir. Fitness uygulamalarında egzersiz formu analizi ve rehabilitasyon programlarında hareket takibi gibi sağlık alanlarında da uygulanmaktadır. Eğitim teknolojilerinde öğrenci duruş analizi ve ergonomik değerlendirme için de kullanılır.
Açık kaynak olarak yayınlanmış olan DWPose, ONNX ve TensorRT formatlarına dönüştürülerek edge cihazlarda çalıştırılabilir. MMPose kütüphanesi üzerinde inşa edilmiş olup, eğitim ve çıkarım için kapsamlı araçlar ve detaylı dokümantasyon sunar. ComfyUI ve Automatic1111 gibi popüler AI araçlarında eklenti olarak mevcuttur ve yaratıcı profesyoneller tarafından günlük iş akışlarında aktif olarak kullanılmaktadır. Topluluk desteği ve sürekli güncellemeler, modelin güncelliğini ve rekabet gücünü korumasını sağlamaktadır.
Kullanım Senaryoları
AI Görsel Üretiminde Poz Kontrolü
ControlNet ile birlikte kullanarak Stable Diffusion veya FLUX modellerinde poz kontrollü görsel üretimi yapma.
Karakter Animasyonu
Video referanslardan poz verisi çıkararak 2D veya 3D karakter animasyonu oluşturma.
Fitness ve Spor Analizi
Egzersiz formunu analiz ederek doğru hareket rehberliği ve performans değerlendirmesi sağlama.
İşaret Dili Tanıma
El ve parmak anahtar noktalarını kullanarak işaret dili hareketlerini dijital ortamda tanıma ve çevirme.
Artılar ve Eksiler
Artılar
- Tam vücut poz tahmini — gövde, el ve yüz noktaları
- ControlNet ile birlikte kullanım için optimize edilmiş
- OpenPose'a kıyasla daha yüksek doğruluk
- Açık kaynak ve yaygın ComfyUI entegrasyonu
Eksiler
- Oklüzyon durumlarında poz tahmininde hatalar
- Birden fazla kişi içeren sahnelerde karışıklık olabiliyor
- Gerçek zamanlı uygulamalar için GPU gerektiriyor
- Bazı pozlarda el ve parmak tespiti hâlâ zayıf
Teknik Detaylar
Parametre
100M
Mimari
RTMPose-based
Eğitim Verisi
COCO WholeBody
Lisans
Apache 2.0
Özellikler
- Body keypoints
- Hand keypoints
- Face keypoints
- Multi-person
- Gerçek zamanlı
- ONNX dışa aktarma
- ControlNet entegrasyon
- Foot keypoints
Benchmark Sonuçları
| Metrik | Değer | Karşılaştırma | Kaynak |
|---|---|---|---|
| AP (COCO val2017, Whole-Body) | 65.3 | RTMPose-x: 63.4 | DWPose Paper (arXiv:2307.15880) |
| AP (COCO val2017, Body) | 78.1 | ViTPose-H: 79.1 | DWPose Paper (arXiv:2307.15880) |
| Desteklenen Anahtar Noktalar | 133 (body + hands + face) | OpenPose: 135 (body + hands + face) | GitHub Repository |
| İşleme Hızı | ~45 FPS (RTX 3090) | OpenPose: ~22 FPS | GitHub Benchmark |