DWPose icon

DWPose

Açık Kaynak
4.5
IDEA Research

DWPose, IDEA Research tarafından geliştirilen ve vücut anahtar noktalarını, el hareketlerini ve yüz referans noktalarını tek bir birleşik çerçevede algılayan son teknoloji tüm vücut poz tahmini modelidir. CNN ve Transformer bileşenlerini birleştiren RTMPose tabanlı mimari üzerine inşa edilen DWPose, hızlı çıkarım hızlarını korurken OpenPose ve diğer geleneksel poz tahmin sistemlerine kıyasla üstün doğruluk elde eder. Yaklaşık 100 milyon parametreli model, tam vücut iskeleti, bireysel parmak eklemleriyle her iki el ve 68 yüz referans noktasını kapsayan 133 anahtar noktayı tek bir ileri geçişte eşzamanlı olarak tahmin ederek kapsamlı poz bilgisi sağlar. DWPose, çıkarılan poz verilerinin Stable Diffusion ve FLUX gibi difüzyon modellerini belirli vücut pozisyonları ve jestlere uygun görüntüler üretmeye yönlendirdiği ControlNet tabanlı görüntü üretim iş akışları için tercih edilen poz tahmini omurgası haline gelmiştir. Model, tek bir karede birden fazla kişiyi işler, farklı vücut tipleri, giysi stilleri ve kısmi oklüzyonlarda güvenilir çalışır ve örtüşen uzuvlar veya alışılmadık pozlar gibi zorlu senaryolarda bile doğruluğunu korur. Apache 2.0 lisansı altında yayınlanan DWPose tamamen açık kaynaklıdır ve ComfyUI, Diffusers kütüphanesi ve özel animasyon boru hatlarıyla sorunsuz entegre olur. AI görüntü üretiminin ötesinde, oyun geliştirme için hareket yakalama, fitness takip uygulamaları, işaret dili tanıma, dans koreografi analizi ve spor biyomekaniği araştırmalarında hizmet verir.

Poz Tahmini

Öne Çıkan Özellikler

133 Anahtar Nokta ile Tüm Vücut Algılama

Vücut, el, yüz ve ayak dahil 133 anahtar noktayı tek bir çerçevede algılayarak kapsamlı poz tahmini sunar.

ControlNet Entegrasyonu

Stable Diffusion ve FLUX gibi modellerle ControlNet üzerinden doğrudan kullanım için optimize edilmiş poz haritaları üretir.

Çoklu Kişi Eş Zamanlı Algılama

Aynı sahnede birden fazla kişinin pozunu eş zamanlı olarak algılayarak grup kompozisyonlarında kullanım sağlar.

Distilasyon ile Yüksek Hız

İki aşamalı bilgi distilasyonu sayesinde büyük modellerin doğruluğunu korurken gerçek zamanlı çalışma hızı sağlar.

Hakkında

DWPose, tüm vücut poz tahmini için geliştirilmiş son teknoloji bir modeldir. Yüz ifadeleri, el parmakları ve vücut duruşunu tek bir birleşik çerçevede algılayabilen bu model, OpenPose'un modern ve daha doğru bir alternatifi olarak konumlanmıştır. Özellikle yapay zekâ destekli görüntü üretimi ve animasyon kontrol sistemlerinde tercih edilen DWPose, hassas ve kapsamlı poz verisi sağlayarak yaratıcı iş akışlarının temel taşlarından biri haline gelmiştir. Poz tahmini alanında doğruluk ve hız açısından yeni ölçütler belirleyen model, hem araştırma hem de üretim ortamlarında geniş kabul görmüştür.

Modelin temel yeniliği, çift aşamalı (two-stage) distilasyon yaklaşımıdır. Büyük ve güçlü bir öğretmen modelden küçük ve hızlı bir öğrenci modele bilgi aktarımı yapılarak, yüksek doğruluğu korurken çalışma hızı önemli ölçüde artırılmıştır. Bu sayede 133 anahtar nokta (17 vücut, 68 yüz, 42 el, 6 ayak) gerçek zamanlı olarak tespit edilebilir. Distilasyon süreci, öğretmen modelin karmaşık özellik temsillerini öğrenci modele aktararak, küçük model boyutuyla büyük model performansına yakın sonuçlar elde etmeyi mümkün kılar. İlk aşamada ara katman özellik distilasyonu, ikinci aşamada ise çıktı düzeyinde distilasyon uygulanarak kapsamlı bilgi aktarımı sağlanır.

DWPose'un en önemli kullanım alanlarından biri, yapay zekâ görüntü üretiminde kontrol mekanizması olarak hizmet etmesidir. ControlNet ile birlikte kullanıldığında, Stable Diffusion ve FLUX gibi modellerde üretilen görsellerin poz ve duruşunu hassas biçimde kontrol etmeyi sağlar. Bir referans fotoğraftaki pozu çıkarıp, aynı pozda tamamen farklı bir karakter oluşturabilirsiniz. Bu yetenek, karakter tasarımı, illüstrasyon ve konsept sanat üretiminde yaratıcı özgürlüğü büyük ölçüde artırır ve tekrarlanabilir sonuçlar elde etmeyi mümkün kılar.

Modelin yüz ve el algılama kapasitesi, onu rakiplerinden ayıran önemli bir özelliktir. 68 yüz anahtar noktası sayesinde yüz ifadelerini, kaş hareketlerini ve ağız pozisyonlarını detaylı biçimde yakalayabilir. 42 el anahtar noktası ise her bir parmağın pozisyonunu ve açısını hassas biçimde tespit eder. Bu detay düzeyi, işaret dili tanıma, müzik performansı analizi ve el jest kontrolü gibi uygulamalarda kritik öneme sahiptir. El tespitindeki yüksek doğruluk, özellikle AI görüntü üretiminde ellerin doğru pozisyonda oluşturulması sorununa pratik çözüm sunar ve yapay zekâ tarafından üretilen görsellerdeki en yaygın kalite sorunlarından birini ele alır.

Animasyon ve oyun geliştirme sektöründe DWPose, hareket yakalama (motion capture) sistemlerine düşük maliyetli bir alternatif sunar. Profesyonel mocap ekipmanı gerektirmeden, standart kameralarla çekilmiş videolardan yüksek kaliteli poz verisi çıkarılabilir. Bu veri, 3D karakter animasyonu, dans koreografisi oluşturma ve spor performansı analizi için doğrudan kullanılabilir. Fitness uygulamalarında egzersiz formu analizi ve rehabilitasyon programlarında hareket takibi gibi sağlık alanlarında da uygulanmaktadır. Eğitim teknolojilerinde öğrenci duruş analizi ve ergonomik değerlendirme için de kullanılır.

Açık kaynak olarak yayınlanmış olan DWPose, ONNX ve TensorRT formatlarına dönüştürülerek edge cihazlarda çalıştırılabilir. MMPose kütüphanesi üzerinde inşa edilmiş olup, eğitim ve çıkarım için kapsamlı araçlar ve detaylı dokümantasyon sunar. ComfyUI ve Automatic1111 gibi popüler AI araçlarında eklenti olarak mevcuttur ve yaratıcı profesyoneller tarafından günlük iş akışlarında aktif olarak kullanılmaktadır. Topluluk desteği ve sürekli güncellemeler, modelin güncelliğini ve rekabet gücünü korumasını sağlamaktadır.

Kullanım Senaryoları

1

AI Görsel Üretiminde Poz Kontrolü

ControlNet ile birlikte kullanarak Stable Diffusion veya FLUX modellerinde poz kontrollü görsel üretimi yapma.

2

Karakter Animasyonu

Video referanslardan poz verisi çıkararak 2D veya 3D karakter animasyonu oluşturma.

3

Fitness ve Spor Analizi

Egzersiz formunu analiz ederek doğru hareket rehberliği ve performans değerlendirmesi sağlama.

4

İşaret Dili Tanıma

El ve parmak anahtar noktalarını kullanarak işaret dili hareketlerini dijital ortamda tanıma ve çevirme.

Artılar ve Eksiler

Artılar

  • Tam vücut poz tahmini — gövde, el ve yüz noktaları
  • ControlNet ile birlikte kullanım için optimize edilmiş
  • OpenPose'a kıyasla daha yüksek doğruluk
  • Açık kaynak ve yaygın ComfyUI entegrasyonu

Eksiler

  • Oklüzyon durumlarında poz tahmininde hatalar
  • Birden fazla kişi içeren sahnelerde karışıklık olabiliyor
  • Gerçek zamanlı uygulamalar için GPU gerektiriyor
  • Bazı pozlarda el ve parmak tespiti hâlâ zayıf

Teknik Detaylar

Parametre

100M

Mimari

RTMPose-based

Eğitim Verisi

COCO WholeBody

Lisans

Apache 2.0

Özellikler

  • Body keypoints
  • Hand keypoints
  • Face keypoints
  • Multi-person
  • Gerçek zamanlı
  • ONNX dışa aktarma
  • ControlNet entegrasyon
  • Foot keypoints

Benchmark Sonuçları

MetrikDeğerKarşılaştırmaKaynak
AP (COCO val2017, Whole-Body)65.3RTMPose-x: 63.4DWPose Paper (arXiv:2307.15880)
AP (COCO val2017, Body)78.1ViTPose-H: 79.1DWPose Paper (arXiv:2307.15880)
Desteklenen Anahtar Noktalar133 (body + hands + face)OpenPose: 135 (body + hands + face)GitHub Repository
İşleme Hızı~45 FPS (RTX 3090)OpenPose: ~22 FPSGitHub Benchmark

Mevcut Platformlar

GitHub
HuggingFace

Sıkça Sorulan Sorular

İlgili Modeller

OpenPose icon

OpenPose

CMU|25M

OpenPose, Carnegie Mellon Üniversitesi'nde geliştirilen ve görüntüler ile videolarda birden fazla kişinin vücut, yüz, el ve ayak anahtar noktalarını eşzamanlı olarak algılayan öncü gerçek zamanlı çoklu kişi poz tahmin sistemidir. Gerçek zamanlı çoklu kişi poz algılaması gerçekleştiren ilk açık kaynak sistem olarak OpenPose, bilgisayarlı görü araştırma ve yaratıcı AI uygulamalarında temel bir araç haline gelmiştir. Yaklaşık 25 milyon parametreli CNN (Evrişimli Sinir Ağı) mimarisi üzerine inşa edilen model, kalabalık sahnelerde algılanan vücut parçalarını doğru bireylerle ilişkilendirmek için Part Affinity Fields (PAF'ler) kullanır ve insanlar örtüştüğünde veya birbirini kısmen kapattığında bile doğru poz tahmini sağlar. OpenPose, kişi başına 25 noktalı tam vücut iskeleti, her el için 21 nokta ve 70 noktalı yüz olmak üzere 135'e kadar anahtar nokta algılayarak detaylı hareket analizi için kapsamlı poz bilgisi sunar. Sistem hem görüntüleri hem de video akışlarını işleyerek modern GPU'larda etkileşimli uygulamalar için uygun gerçek zamanlı performans sağlar. OpenPose, özellikle Stable Diffusion ve FLUX tabanlı üretim boru hatlarında ControlNet koşullandırma için standart poz çıkarma yöntemi olarak AI görüntü üretim iş akışlarına kapsamlı şekilde entegre edilmiştir. Özel ticari olmayan lisans altında yayınlanan kaynak kodu GitHub'da mevcuttur ve bilgisayarlı görü depoları arasında en yüksek yıldız sayılarından birine ulaşmıştır. Temel uygulamalar arasında animasyon ve oyun için hareket yakalama, fitness ve rehabilitasyon takibi, spor biyomekaniği analizi, işaret dili tanıma ve AI görüntü üretim araçları için poz koşullandırma sağlama yer alır.

Açık Kaynak
4.3

Hızlı Bilgi

Parametre100M
TipCNN + Transformer
LisansApache 2.0
Yayınlanma2023-07
MimariRTMPose-based
Puan4.5 / 5
GeliştiriciIDEA Research

Bağlantılar

Etiketler

pose
keypoints
body
controlnet
Siteyi Ziyaret Et