SyncDreamer icon

SyncDreamer

Açık Kaynak
4.0
Tsinghua University

SyncDreamer, Tsinghua Üniversitesi araştırmacıları tarafından geliştirilen, tek giriş görsellerinden nesnelerin senkronize ve 3D tutarlı görünümlerini üreten çoklu görünüm üretim ve 3D rekonstrüksiyon modelidir. 2023'te Apache 2.0 lisansı altında yayınlanan SyncDreamer, yeni bir dikkat mekanizması aracılığıyla 3D tutarlılığı sağlarken birden fazla görünümü eş zamanlı üreten senkronize çoklu görünüm difüzyon yaklaşımını tanıtır. Görünümler arasında sıklıkla tutarsız sonuçlar üreten ardışık görünüm üretim yöntemlerinin aksine SyncDreamer'ın senkronize üretim süreci tüm çıktı görünümlerinin tutarlı geometri, aydınlatma ve görünüm paylaşmasını sağlar. Model gürültü giderme sürecinde farklı bakış açısı tahminleri arasında bilgi akışına izin veren 3D farkındalıklı özellik dikkat modülüne sahip değiştirilmiş bir difüzyon mimarisi kullanır. Bu çapraz görünüm iletişimi modelin tüm üretilen görünümler arasında uzamsal tutarlılığı korumasını sağlar. Çıktı çoklu görünüm görselleri yüksek kaliteli dokulu 3D mesh'ler üretmek için NeuS veya NeRF gibi standart çoklu görünüm rekonstrüksiyon yöntemleriyle kullanılabilir. SyncDreamer nesnenin etrafında eşit aralıklı 16 görünüm üreterek doğru 3D rekonstrüksiyon için kapsamlı kapsam sağlar. Model hayvanlar, araçlar, mobilyalar ve sanatsal nesneler dahil çeşitli nesne kategorilerini iyi tutarlılıkla işler. Kod ve ağırlıkları GitHub üzerinde mevcut olan tamamen açık kaynak bir proje olarak SyncDreamer çoklu görünüm üretimi literatüründe önemli bir referans haline gelmiştir. Model özellikle 3D üretim hatları üzerinde çalışan araştırmacılar ve tek görsellerin 3D varlıklara dönüştürülmesinin yaygın bir gereksinim olduğu oyun geliştirme, ürün görselleştirme ve sanal gerçeklik içerik üretimi uygulamaları için ilgilidir.

Görselden 3D

Öne Çıkan Özellikler

Senkronize Coklu Gorunum Difuzyonu

Tum hedef gorunumleri ardisik olarak degil tek bir senkronize difuzyon surecinde ayni anda olusturur; dogal capraz gorunum tutarliligi saglar

3D Hacim Dikkat Mekanizmasi

Yeni 3D farkindali ozellik hacmi, paylasilan mekansal akil yurutme araciligiyla tum olusturulan gorunumleri baglar; bakis acilari arasinda tutarli geometri ve oranlar korur

Renkli ve Normal Harita Cift Ciktisi

Birden fazla bakis acisindan hem RGB renkli goruntular hem de yuzey normal haritalari olusturur; dogru 3D yeniden yapilandirma icin kapsamli gorsel ve geometrik veri saglar

Tsinghua Arastirma Yeniligi

Senkronize uretimin 3D uygulamalari icin coklu gorunum tutarliligini nasil iyilestirdigini gosteren Apache 2.0 altinda Tsinghua Universitesi'nden akademik arastirma katkisi

Hakkında

SyncDreamer, tek giriş görüntülerinden nesnelerin senkronize, 3D tutarlı görünümlerini oluşturan, Tsinghua Üniversitesi'ndeki araştırmacılar tarafından geliştirilen çoklu görünüm üretimi ve 3D yeniden yapılandırma modelidir. 2023'te yayımlanan SyncDreamer, tüm hedef görünümleri aynı anda oluşturan ve yeni bir 3D farkındalı dikkat mekanizması aracılığıyla geometrik tutarlılığı sağlayan senkronize çoklu görünüm difüzyon yaklaşımını sunar. Model, görünümler arası tutarlılık problemine getirdiği zarif çözümle çoklu görünüm üretimi alanında önemli bir araştırma katkısı olarak kabul edilmektedir.

Modelin çekirdek yeniliği senkronize çoklu görünüm üretim sürecidir. Bir seferde bir görünüm oluşturan ve potansiyel olarak tutarsızlıklara yol açan ardışık yaklaşımların aksine SyncDreamer, tek bir senkronize difüzyon sürecinde birden fazla görünüm oluşturur. 3D farkındalı bir özellik hacmi, tüm oluşturulan görünümleri bağlayan bir ara temsil görevi görür ve her görünümün geometrik perspektiften diğerleriyle tutarlı olmasını sağlar. Bu senkronize yaklaşım, difüzyon sürecinin her adımında tüm görünümler arasında bilgi paylaşımını mümkün kılarak tutarlılığı yapısal düzeyde garanti eder ve ardışık üretimin doğasında bulunan hata birikimini ortadan kaldırır.

Hacim dikkat mekanizması, tüm görünümlerden gelen özellikleri paylaşılan bir 3D hacim aracılığıyla işler ve bakış açıları arasında mekansal akıl yürütmeyi mümkün kılar. Bu mekanizma, modelin tüm oluşturulan görünümler arasında tutarlı nesne şekli, oranlar ve yüzey detaylarını korumasına olanak tanır. Hacim temsili, 3D uzaydaki özellik bilgisini düzenli bir ızgara yapısında kodlar ve bu yapı üzerinden dikkat hesaplaması yapılarak görünümler arası geometrik ilişkiler modellenir. Sonuç, bağımsız olarak oluşturulan görünümlerden alt 3D yeniden yapılandırma için çok daha uygun olan bir çoklu görünüm görüntü kümesidir.

SyncDreamer, 3D yeniden yapılandırma için kapsamlı görsel ve geometrik bilgi sağlayarak birden fazla bakış açısından hem renkli görüntülerin hem de normal haritaların oluşturulmasını destekler. Normal haritalar, yüzey yönelim bilgisini kodlayarak yeniden yapılandırma algoritmalarının ince geometrik detayları yakalamasına yardımcı olur. Oluşturulan çoklu görünüm çıktıları, doğru geometriyle dokulu 3D mesh'ler üretmek için NeuS tabanlı yaklaşımlar dahil standart çoklu görünüm yeniden yapılandırma yöntemlerine beslenebilir. Model, 16 görünüme kadar eşanlı üretimi destekler ve bu da daha zengin bilgi sağlayarak yeniden yapılandırma kalitesini artırır.

Eğitim açısından SyncDreamer, Objaverse veri kümesinden oluşturulmuş çoklu görünüm verileri üzerinde eğitilmiştir. Model, yaygın nesne kategorilerinde güçlü performans gösterirken, çok karmaşık geometrilere veya eğitim dağılımının dışındaki nesnelere sahip girdilerde sınırlamalar görülebilir. Senkronize üretim süreci, ardışık yöntemlere kıyasla hesaplama maliyetini artırsa da, elde edilen tutarlılık iyileştirmesi bu ek maliyeti haklı kılar ve daha yüksek kaliteli alt yeniden yapılandırma sonuçlarına yol açar.

Apache 2.0 lisansı altında yayımlanan SyncDreamer, tamamen açık kaynaklıdır ve senkronize üretimin 3D uygulamaları için çoklu görünüm tutarlılığını nasıl iyileştirebileceğinin anlaşılmasını ilerletmeye katkıda bulunmuştur. Model, hem 3D içerik oluşturma için pratik bir araç hem de görünüm tutarlı üretim alanına önemli bir araştırma katkısı olarak hizmet eder. SyncDreamer'ın senkronize difüzyon yaklaşımı, sonraki çoklu görünüm üretim modellerinin tasarımını doğrudan etkilemiş ve bu alandaki araştırma paradigmasını şekillendirmiştir.

Uygulama senaryoları açısından SyncDreamer, dijital sanat ve karakter tasarımı alanlarında yaratıcı profesyoneller tarafından benimsenmiştir. Konsept sanatçıları, 2D çizimlerinden tutarlı 3D referans görünümleri oluşturmak için modeli iş akışlarına dahil etmektedir. Oyun geliştirme süreçlerinde karakter modelleme öncesi referans oluşturma aracı olarak kullanılmaktadır. Akademik çevrelerde, çok görünümlü tutarlılık problemine getirdiği senkronize difüzyon çözümü, sonraki araştırmalar için temel bir referans noktası oluşturmuştur. PyTorch ekosistemiyle tam uyumluluk, mevcut araştırma altyapılarına sorunsuz entegrasyonu desteklemektedir.

Kullanım Senaryoları

1

Tutarli Coklu Gorunum Uretimi

3D yeniden yapilandirma algoritmalari ve coklu gorunum stereo yontemlerine giris olarak kullanmak icin birden fazla acidan geometrik olarak tutarli nesne gorunumleri uretin

2

3D Varlik Uretim Hatti

NeuS gibi mesh yeniden yapilandirma algoritmalariyla birlestirilen uctan uca goruntuden 3D hatlarinda coklu gorunum uretim asamasi olarak entegre edin

3

Gorunum Tutarli Uretim Arastirmasi

Uretici modellerde coklu gorunum tutarliligini ilerletmek icin senkronize difuzyon yaklasimlarini ve 3D farkindali dikkat mekanizmalarini inceleyin

4

Tek Fotograftan Nesne Dokumantasyonu

Kataloglama ve arsivleme amaclari icin tek fotograflardan nesnelerin kapsamli cok acili gorsel dokumantasyonunu uretin

Artılar ve Eksiler

Artılar

  • Özel kayıplar olmadan vanilya NeRF/NeuS rekonstrüksiyonuna olanak tanıyan çok görünümlü tutarlı görseller üretir
  • Yaratıcı çeşitlilik — farklı seed'ler kullanarak aynı girişten farklı olası 3D örnekler üretir
  • Eskizler, Çin mürekkep resimleri, yağlı boya tablolar ve fotoğraflar dahil çok yönlü girdi türlerini destekler
  • Geometrik ve renk tutarlılığı için çok görünümlü görsellerin birleşik olasılık dağılımını modeller
  • 3D rekonstrüksiyon için güçlü nicel ölçütler sergileyen ICLR 2024 Spotlight makalesi

Eksiler

  • Her zaman iyi sonuçlar üretmez — en iyi çıktıyı bulmak için farklı seed'lerle birden fazla üretim gerektirir
  • GPU belleği yoğun — tam kalite önemli VRAM gerektirir, azaltılmış ayarlar üretim hızını kaybeder
  • Oklüzyonlar ve çok sayıda nesne içeren karmaşık 3D sahnelerdeki performansı yeterince araştırılmamıştır
  • Sınırlı sayıda üretilen görünüm karmaşık geometri için rekonstrüksiyon doğruluğunu kısıtlar
  • Daha fazla görünüme ölçekleme hesaplama gereksinimlerini önemli ölçüde artırır

Teknik Detaylar

Parametre

N/A

Lisans

Apache 2.0

Özellikler

  • Single Image to Multi-View
  • Synchronized Multi-View üretimi
  • 3D-Consistent View Synthesis
  • Volume Attention Mechanism
  • Normal Map Output destek
  • Open-Source Apache 2.0
  • Tsinghua University Research
  • Mesh Reconstruction destek

Benchmark Sonuçları

MetrikDeğerKarşılaştırmaKaynak
Novel View PSNR20.05 dBZero123: 17.8 dBarXiv 2309.03453
SSIM0.798Zero123: 0.752arXiv 2309.03453
LPIPS0.146Zero123: 0.195arXiv 2309.03453
COLMAP Recon. Noktası1.123 noktaZero123: 95 noktaarXiv 2309.03453

Mevcut Platformlar

hugging face
replicate

Sıkça Sorulan Sorular

İlgili Modeller

TripoSR icon

TripoSR

Stability AI & Tripo|N/A

TripoSR, Stability AI ve Tripo AI tarafından ortaklaşa geliştirilen, tek giriş görsellerinden bir saniyeden kısa sürede detaylı 3D mesh'ler üreten hızlı bir ileri beslemeli 3D rekonstrüksiyon modelidir. Nesne başına dakikalar süren optimizasyon tabanlı yöntemlerin aksine, TripoSR Büyük Rekonstrüksiyon Modeli çerçevesi üzerine inşa edilmiş transformer tabanlı mimarisi sayesinde tek bir 2D fotoğraftan 3D geometriyi doğrudan tahmin eder. Model herhangi bir standart görseli girdi olarak kabul eder ve oyun motorları, 3D modelleme yazılımları ve artırılmış gerçeklik uygulamalarında kullanıma uygun dokulu 3D mesh üretir. Günlük nesneleri, mobilyaları, araçları, karakterleri ve organik şekilleri etkileyici geometrik doğruluk ve yüzey detayıyla yeniden yapılandırmada üstün performans gösterir. Mart 2024'te MIT lisansı altında yayınlanan model tamamen açık kaynaklıdır ve özel donanım gerektirmeden tüketici sınıfı GPU'larda çalışabilir. Birden fazla görselin verimli dönüşümü için toplu işleme desteği sunar ve Blender, Unity ile Unreal Engine dahil popüler 3D iş akışlarıyla sorunsuz entegre olur. Ürün fotoğraflarından hızlı 3D varlık oluşturmaya ihtiyaç duyan oyun geliştiricileri, ürün tasarımcıları ve e-ticaret ekipleri için özellikle değerlidir. Çıktı mesh'leri yapılandırılabilir çözünürlük ayarlarıyla OBJ ve GLB formatlarında dışa aktarılabilir. DINOv2 vizyon kodlayıcısı giriş görselinden zengin semantik ve yapısal özellikler çıkararak rekonstrüksiyon kalitesini artırır. TripoSR pahalı tarama ekipmanı veya manuel modelleme uzmanlığı gerektirmeden yüksek kaliteli rekonstrüksiyonu erişilebilir kılarak 3D içerik üretiminin demokratikleşmesinde önemli bir adımı temsil eder.

Açık Kaynak
4.5
TRELLIS icon

TRELLIS

Microsoft Research|Unknown

TRELLIS, Microsoft Research tarafından geliştirilen ve yeni bir Structured Latent Diffusion mimarisi kullanarak metin açıklamalarından veya tek 2D görüntülerden yüksek kaliteli 3D varlıklar üreten devrim niteliğinde bir AI modelidir. Aralık 2024'te yayınlanan TRELLIS, geometri, doku ve malzeme özelliklerini ayrı aşamalar olarak ele almak yerine eşzamanlı olarak kodlayan yapılandırılmış bir gizli uzayda çalışarak 3D içerik üretiminde temel bir ilerlemeyi temsil eder. Model, detaylı PBR (Fiziksel Tabanlı Render) dokularıyla eksiksiz 3D mesh'ler üretir ve kapsamlı manuel son işleme olmadan oyun motorları, 3D render boru hatları ve AR/VR uygulamalarında doğrudan kullanımı mümkün kılar. TRELLIS, kullanıcıların istenen nesneleri doğal dilde tanımladığı metinden 3D üretimini ve tek bir fotoğrafın kapalı bakış açılarından çıkarılan geometriyle tam 3D modele dönüştürüldüğü görüntüden 3D rekonstrüksiyonu destekler. Yapılandırılmış gizli temsil, geometrik tutarlılığı sağlar ve havada kalan geometri, doku dikişleri ve gerçekçi olmayan oranlar gibi diğer 3D üretim yaklaşımlarında görülen yaygın artefaktları önler. TRELLIS, UV haritalı dokularla GLB ve OBJ dahil standart 3D formatlarında çıktı üretir ve Blender, Unity, Unreal Engine gibi profesyonel araçlarla entegrasyonu kolaylaştırır. MIT lisansı altında tamamen açık kaynaklıdır. Temel uygulamalar arasında oyun geliştirme için hızlı 3D varlık prototipleme, mimari görselleştirme, ürün tasarım modelleri ve metaverse varlık üretimi yer alır.

Açık Kaynak
4.5
Stable Point Aware 3D (SPA3D) icon

Stable Point Aware 3D (SPA3D)

Stability AI|Unknown

Stable Point Aware 3D (SPA3D), Stability AI tarafından geliştirilen ve tek bir girdi görüntüsünden saniyeler içinde yüksek kaliteli dokulu 3D mesh'ler üreten gelişmiş bir ileri beslemeli 3D rekonstrüksiyon modelidir. Dakikalar süren işlem gerektiren yinelemeli optimizasyon tabanlı yaklaşımlardan farklı olarak SPA3D, tek bir geçişte 3D geometri ve doku tahmin eden doğrudan ileri beslemeli mimari kullanarak etkileşimli iş akışları ve üretim boru hatları için pratik hale gelir. Model, diğer tek görünüm rekonstrüksiyon yöntemlerine kıyasla geometrik tutarlılığı önemli ölçüde iyileştiren nokta bulutu hizalama teknikleri kullanır ve üretilen 3D modellerin birden fazla bakış açısından doğru oranları ve yapısal bütünlüğü korumasını sağlar. SPA3D, temiz topoloji ve UV haritalı dokularla endüstri standardı mesh çıktıları üreterek Blender, Unity, Unreal Engine ve profesyonel CAD araçlarına doğrudan içe aktarmayı mümkün kılar. Model, karakterler ve hayvanlar gibi organik şekillerden mobilya ve araçlar gibi sert yüzeyli nesnelere kadar çeşitli nesne kategorilerini işleyerek rekonstrüksiyon yaklaşımını her girdinin yapısal özelliklerine uyarlar. Stability AI Community License altında yayınlanan model, gelir tabanlı kısıtlamalarla kişisel ve ticari kullanıma açıktır. Temel uygulamalar arasında oyun geliştirme için hızlı 3D varlık oluşturma, artırılmış gerçeklik içerik üretimi, 3D baskı hazırlığı, sanal ürün fotoğrafçılığı ve e-ticaret 3D ürün gösterimleri yer alır. SPA3D özellikle konsept çizimlerinden veya fotoğraflardan hızlı 3D modeller gerektiren yaratıcı profesyoneller için değerlidir.

Açık Kaynak
4.3
Zero123++ icon

Zero123++

Stability AI|N/A

Zero123++, Stability AI tarafından geliştirilen, tek giriş görselinden bir nesnenin altı tutarlı kanonik görünümünü üreten çoklu görünüm görsel üretim modelidir. 2023'te Apache 2.0 lisansı altında yayınlanan model, orijinal Zero123 yaklaşımını önemli ölçüde iyileştirilmiş görünüm tutarlılığıyla genişletir ve modern 3D rekonstrüksiyon hatlarında kritik bir bileşen olarak hizmet eder. Zero123++ bir nesnenin tek bir fotoğrafını veya render edilmiş görselini alır ve nesnenin etrafında tam 360 derecelik aralığı kapsayan altı eşit aralıklı görünüm üretir ve bunların tümü tutarlı geometri, aydınlatma ve görünüm korur. Model çoklu görünüm tutarlılığını sağlayan özel koşullandırma mekanizmalarıyla ince ayarlı bir Stable Diffusion omurgası üzerine inşa edilmiştir. Görünümleri bağımsız üreten ve sıklıkla tutarsız sonuçlar veren orijinal Zero123'ün aksine Zero123++ tüm altı görünümü tek bir difüzyon sürecinde eş zamanlı üretir ve 3D tutarlılığı dramatik şekilde iyileştirir. Üretilen çoklu görünüm görselleri NeRF, Gaussian Splatting veya doğrudan mesh rekonstrüksiyonu gibi aşağı akış 3D rekonstrüksiyon yöntemleri için girdi görevi görerek tek bir fotoğraftan yüksek kaliteli 3D model oluşturmayı mümkün kılar. Zero123++ önceden eğitilmiş ağırlıkları Hugging Face üzerinde mevcut olan tamamen açık kaynak bir modeldir ve 3D üretim sistemleri kuran araştırmacılar ile geliştiricilere açıktır. Model birçok son teknoloji 3D üretim hattında temel bir bileşen haline gelmiş ve akademik araştırmalarda yaygın olarak kullanılmaktadır. Özellikle 2D görsellerin 3D varlıklara dönüştürülmesinin sık bir iş akışı gereksinimi olduğu oyun geliştirme, ürün görselleştirme ve sanal gerçeklik uygulamaları için değerlidir.

Açık Kaynak
4.3

Hızlı Bilgi

ParametreN/A
Tipdiffusion
LisansApache 2.0
Yayınlanma2023-09
Puan4.0 / 5
GeliştiriciTsinghua University

Bağlantılar

Etiketler

syncdreamer
3d
synchronized
image-to-3d
Siteyi Ziyaret Et

Daha Fazla Kesfet