DWPose ne işe yarar?

DWPose, fotoğraf ve videolardaki insan pozlarını algılamak için geliştirilmiş bir yapay zeka modelidir. 133 anahtar noktayı (vücut, el, yüz, ayak) tespit ederek ControlNet ile AI görsel üretiminde poz kontrolü sağlar. Animasyon, fitness analizi ve hareket yakalama gibi alanlarda da yaygın olarak kullanılır.

DWPose ile OpenPose arasındaki fark nedir?

DWPose, OpenPose'a göre daha yüksek doğruluk ve daha fazla anahtar nokta (133 vs 25 temel) sunar. Özellikle el ve yüz algılamada çok daha başarılıdır. Ayrıca distilasyon tekniği sayesinde hız kaybı minimumdur. ControlNet uyumluluğu da mevcuttur ve modern AI iş akışlarına daha iyi entegre olur.

DWPose ControlNet ile nasıl kullanılır?

DWPose ile bir referans görüntüden poz haritası çıkarılır, bu harita ControlNet'e girdi olarak verilir. Stable Diffusion ardından bu poz haritasına uygun görsel üretir. Bu iş akışı, karakter tutarlılığı gerektiren illüstrasyon ve animasyon projelerinde yaygın olarak kullanılır.

DWPose çalıştırmak için ne tür donanım gerekiyor?

DWPose yaklaşık 100 milyon parametreye sahiptir ve 4GB VRAM ile GPU üzerinde çalışabilir. CPU modunda da çalıştırılabilir ancak gerçek zamanlı performans için GPU önerilir. ONNX ve TensorRT formatlarına dönüştürülerek edge cihazlarda da dağıtılabilir.

DWPose hangi formatlara dışa aktarılabilir?

DWPose modeli ONNX ve TensorRT formatlarına dönüştürülebilir. Bu sayede farklı platformlarda ve edge cihazlarda çalıştırılabilir. ComfyUI ve A1111 gibi popüler arayüzlerde de hazır eklentiler mevcuttur ve kurulum oldukça kolaydır.

DWPose ile kaç kişinin pozu aynı anda algılanabilir?

DWPose aynı sahnede birden fazla kişinin pozunu eş zamanlı olarak algılayabilir. Performans, görüntü çözünürlüğüne ve GPU kapasitesine bağlı olarak değişir. Ortalama sahnelerde onlarca kişinin pozu sorunsuz şekilde tespit edilebilmektedir.

DWPose

Açık Kaynak

4.5

IDEA Research

DWPose, IDEA Research tarafından geliştirilen ve vücut anahtar noktalarını, el hareketlerini ve yüz referans noktalarını tek bir birleşik çerçevede algılayan son teknoloji tüm vücut poz tahmini modelidir. CNN ve Transformer bileşenlerini birleştiren RTMPose tabanlı mimari üzerine inşa edilen DWPose, hızlı çıkarım hızlarını korurken OpenPose ve diğer geleneksel poz tahmin sistemlerine kıyasla üstün doğruluk elde eder. Yaklaşık 100 milyon parametreli model, tam vücut iskeleti, bireysel parmak eklemleriyle her iki el ve 68 yüz referans noktasını kapsayan 133 anahtar noktayı tek bir ileri geçişte eşzamanlı olarak tahmin ederek kapsamlı poz bilgisi sağlar. DWPose, çıkarılan poz verilerinin Stable Diffusion ve FLUX gibi difüzyon modellerini belirli vücut pozisyonları ve jestlere uygun görüntüler üretmeye yönlendirdiği ControlNet tabanlı görüntü üretim iş akışları için tercih edilen poz tahmini omurgası haline gelmiştir. Model, tek bir karede birden fazla kişiyi işler, farklı vücut tipleri, giysi stilleri ve kısmi oklüzyonlarda güvenilir çalışır ve örtüşen uzuvlar veya alışılmadık pozlar gibi zorlu senaryolarda bile doğruluğunu korur. Apache 2.0 lisansı altında yayınlanan DWPose tamamen açık kaynaklıdır ve ComfyUI, Diffusers kütüphanesi ve özel animasyon boru hatlarıyla sorunsuz entegre olur. AI görüntü üretiminin ötesinde, oyun geliştirme için hareket yakalama, fitness takip uygulamaları, işaret dili tanıma, dans koreografi analizi ve spor biyomekaniği araştırmalarında hizmet verir.

Poz Tahmini

Siteyi Ziyaret Et

Öne Çıkan Özellikler

133 Anahtar Nokta ile Tüm Vücut Algılama

Vücut, el, yüz ve ayak dahil 133 anahtar noktayı tek bir çerçevede algılayarak kapsamlı poz tahmini sunar.

ControlNet Entegrasyonu

Stable Diffusion ve FLUX gibi modellerle ControlNet üzerinden doğrudan kullanım için optimize edilmiş poz haritaları üretir.

Çoklu Kişi Eş Zamanlı Algılama

Aynı sahnede birden fazla kişinin pozunu eş zamanlı olarak algılayarak grup kompozisyonlarında kullanım sağlar.

Distilasyon ile Yüksek Hız

İki aşamalı bilgi distilasyonu sayesinde büyük modellerin doğruluğunu korurken gerçek zamanlı çalışma hızı sağlar.

Hakkında

DWPose, tüm vücut poz tahmini için geliştirilmiş son teknoloji bir modeldir. Yüz ifadeleri, el parmakları ve vücut duruşunu tek bir birleşik çerçevede algılayabilen bu model, OpenPose'un modern ve daha doğru bir alternatifi olarak konumlanmıştır. Özellikle yapay zekâ destekli görüntü üretimi ve animasyon kontrol sistemlerinde tercih edilen DWPose, hassas ve kapsamlı poz verisi sağlayarak yaratıcı iş akışlarının temel taşlarından biri haline gelmiştir. Poz tahmini alanında doğruluk ve hız açısından yeni ölçütler belirleyen model, hem araştırma hem de üretim ortamlarında geniş kabul görmüştür.

Modelin temel yeniliği, çift aşamalı (two-stage) distilasyon yaklaşımıdır. Büyük ve güçlü bir öğretmen modelden küçük ve hızlı bir öğrenci modele bilgi aktarımı yapılarak, yüksek doğruluğu korurken çalışma hızı önemli ölçüde artırılmıştır. Bu sayede 133 anahtar nokta (17 vücut, 68 yüz, 42 el, 6 ayak) gerçek zamanlı olarak tespit edilebilir. Distilasyon süreci, öğretmen modelin karmaşık özellik temsillerini öğrenci modele aktararak, küçük model boyutuyla büyük model performansına yakın sonuçlar elde etmeyi mümkün kılar. İlk aşamada ara katman özellik distilasyonu, ikinci aşamada ise çıktı düzeyinde distilasyon uygulanarak kapsamlı bilgi aktarımı sağlanır.

DWPose'un en önemli kullanım alanlarından biri, yapay zekâ görüntü üretiminde kontrol mekanizması olarak hizmet etmesidir. ControlNet ile birlikte kullanıldığında, Stable Diffusion ve FLUX gibi modellerde üretilen görsellerin poz ve duruşunu hassas biçimde kontrol etmeyi sağlar. Bir referans fotoğraftaki pozu çıkarıp, aynı pozda tamamen farklı bir karakter oluşturabilirsiniz. Bu yetenek, karakter tasarımı, illüstrasyon ve konsept sanat üretiminde yaratıcı özgürlüğü büyük ölçüde artırır ve tekrarlanabilir sonuçlar elde etmeyi mümkün kılar.

Modelin yüz ve el algılama kapasitesi, onu rakiplerinden ayıran önemli bir özelliktir. 68 yüz anahtar noktası sayesinde yüz ifadelerini, kaş hareketlerini ve ağız pozisyonlarını detaylı biçimde yakalayabilir. 42 el anahtar noktası ise her bir parmağın pozisyonunu ve açısını hassas biçimde tespit eder. Bu detay düzeyi, işaret dili tanıma, müzik performansı analizi ve el jest kontrolü gibi uygulamalarda kritik öneme sahiptir. El tespitindeki yüksek doğruluk, özellikle AI görüntü üretiminde ellerin doğru pozisyonda oluşturulması sorununa pratik çözüm sunar ve yapay zekâ tarafından üretilen görsellerdeki en yaygın kalite sorunlarından birini ele alır.

Animasyon ve oyun geliştirme sektöründe DWPose, hareket yakalama (motion capture) sistemlerine düşük maliyetli bir alternatif sunar. Profesyonel mocap ekipmanı gerektirmeden, standart kameralarla çekilmiş videolardan yüksek kaliteli poz verisi çıkarılabilir. Bu veri, 3D karakter animasyonu, dans koreografisi oluşturma ve spor performansı analizi için doğrudan kullanılabilir. Fitness uygulamalarında egzersiz formu analizi ve rehabilitasyon programlarında hareket takibi gibi sağlık alanlarında da uygulanmaktadır. Eğitim teknolojilerinde öğrenci duruş analizi ve ergonomik değerlendirme için de kullanılır.

Açık kaynak olarak yayınlanmış olan DWPose, ONNX ve TensorRT formatlarına dönüştürülerek edge cihazlarda çalıştırılabilir. MMPose kütüphanesi üzerinde inşa edilmiş olup, eğitim ve çıkarım için kapsamlı araçlar ve detaylı dokümantasyon sunar. ComfyUI ve Automatic1111 gibi popüler AI araçlarında eklenti olarak mevcuttur ve yaratıcı profesyoneller tarafından günlük iş akışlarında aktif olarak kullanılmaktadır. Topluluk desteği ve sürekli güncellemeler, modelin güncelliğini ve rekabet gücünü korumasını sağlamaktadır.

Kullanım Senaryoları

AI Görsel Üretiminde Poz Kontrolü

ControlNet ile birlikte kullanarak Stable Diffusion veya FLUX modellerinde poz kontrollü görsel üretimi yapma.

Karakter Animasyonu

Video referanslardan poz verisi çıkararak 2D veya 3D karakter animasyonu oluşturma.

Fitness ve Spor Analizi

Egzersiz formunu analiz ederek doğru hareket rehberliği ve performans değerlendirmesi sağlama.

İşaret Dili Tanıma

El ve parmak anahtar noktalarını kullanarak işaret dili hareketlerini dijital ortamda tanıma ve çevirme.

Artılar ve Eksiler

Artılar

Tam vücut poz tahmini — gövde, el ve yüz noktaları
ControlNet ile birlikte kullanım için optimize edilmiş
OpenPose'a kıyasla daha yüksek doğruluk
Açık kaynak ve yaygın ComfyUI entegrasyonu

Eksiler

Oklüzyon durumlarında poz tahmininde hatalar
Birden fazla kişi içeren sahnelerde karışıklık olabiliyor
Gerçek zamanlı uygulamalar için GPU gerektiriyor
Bazı pozlarda el ve parmak tespiti hâlâ zayıf

Teknik Detaylar

Parametre

100M

Mimari

RTMPose-based

Eğitim Verisi

COCO WholeBody

Lisans

Apache 2.0

Özellikler

Body keypoints
Hand keypoints
Face keypoints
Multi-person
Gerçek zamanlı
ONNX dışa aktarma
ControlNet entegrasyon
Foot keypoints

Benchmark Sonuçları

Metrik	Değer	Karşılaştırma	Kaynak
AP (COCO val2017, Whole-Body)	65.3	RTMPose-x: 63.4	DWPose Paper (arXiv:2307.15880)
AP (COCO val2017, Body)	78.1	ViTPose-H: 79.1	DWPose Paper (arXiv:2307.15880)
Desteklenen Anahtar Noktalar	133 (body + hands + face)	OpenPose: 135 (body + hands + face)	GitHub Repository
İşleme Hızı	~45 FPS (RTX 3090)	OpenPose: ~22 FPS	GitHub Benchmark

Mevcut Platformlar

GitHub

HuggingFace

Sıkça Sorulan Sorular

İlgili Modeller

OpenPose

CMU|25M

OpenPose, Carnegie Mellon Üniversitesi'nde geliştirilen ve görüntüler ile videolarda birden fazla kişinin vücut, yüz, el ve ayak anahtar noktalarını eşzamanlı olarak algılayan öncü gerçek zamanlı çoklu kişi poz tahmin sistemidir. Gerçek zamanlı çoklu kişi poz algılaması gerçekleştiren ilk açık kaynak sistem olarak OpenPose, bilgisayarlı görü araştırma ve yaratıcı AI uygulamalarında temel bir araç haline gelmiştir. Yaklaşık 25 milyon parametreli CNN (Evrişimli Sinir Ağı) mimarisi üzerine inşa edilen model, kalabalık sahnelerde algılanan vücut parçalarını doğru bireylerle ilişkilendirmek için Part Affinity Fields (PAF'ler) kullanır ve insanlar örtüştüğünde veya birbirini kısmen kapattığında bile doğru poz tahmini sağlar. OpenPose, kişi başına 25 noktalı tam vücut iskeleti, her el için 21 nokta ve 70 noktalı yüz olmak üzere 135'e kadar anahtar nokta algılayarak detaylı hareket analizi için kapsamlı poz bilgisi sunar. Sistem hem görüntüleri hem de video akışlarını işleyerek modern GPU'larda etkileşimli uygulamalar için uygun gerçek zamanlı performans sağlar. OpenPose, özellikle Stable Diffusion ve FLUX tabanlı üretim boru hatlarında ControlNet koşullandırma için standart poz çıkarma yöntemi olarak AI görüntü üretim iş akışlarına kapsamlı şekilde entegre edilmiştir. Özel ticari olmayan lisans altında yayınlanan kaynak kodu GitHub'da mevcuttur ve bilgisayarlı görü depoları arasında en yüksek yıldız sayılarından birine ulaşmıştır. Temel uygulamalar arasında animasyon ve oyun için hareket yakalama, fitness ve rehabilitasyon takibi, spor biyomekaniği analizi, işaret dili tanıma ve AI görüntü üretim araçları için poz koşullandırma sağlama yer alır.

Açık Kaynak

4.3