Zero123++
Zero123++, Stability AI tarafından geliştirilen, tek giriş görselinden bir nesnenin altı tutarlı kanonik görünümünü üreten çoklu görünüm görsel üretim modelidir. 2023'te Apache 2.0 lisansı altında yayınlanan model, orijinal Zero123 yaklaşımını önemli ölçüde iyileştirilmiş görünüm tutarlılığıyla genişletir ve modern 3D rekonstrüksiyon hatlarında kritik bir bileşen olarak hizmet eder. Zero123++ bir nesnenin tek bir fotoğrafını veya render edilmiş görselini alır ve nesnenin etrafında tam 360 derecelik aralığı kapsayan altı eşit aralıklı görünüm üretir ve bunların tümü tutarlı geometri, aydınlatma ve görünüm korur. Model çoklu görünüm tutarlılığını sağlayan özel koşullandırma mekanizmalarıyla ince ayarlı bir Stable Diffusion omurgası üzerine inşa edilmiştir. Görünümleri bağımsız üreten ve sıklıkla tutarsız sonuçlar veren orijinal Zero123'ün aksine Zero123++ tüm altı görünümü tek bir difüzyon sürecinde eş zamanlı üretir ve 3D tutarlılığı dramatik şekilde iyileştirir. Üretilen çoklu görünüm görselleri NeRF, Gaussian Splatting veya doğrudan mesh rekonstrüksiyonu gibi aşağı akış 3D rekonstrüksiyon yöntemleri için girdi görevi görerek tek bir fotoğraftan yüksek kaliteli 3D model oluşturmayı mümkün kılar. Zero123++ önceden eğitilmiş ağırlıkları Hugging Face üzerinde mevcut olan tamamen açık kaynak bir modeldir ve 3D üretim sistemleri kuran araştırmacılar ile geliştiricilere açıktır. Model birçok son teknoloji 3D üretim hattında temel bir bileşen haline gelmiş ve akademik araştırmalarda yaygın olarak kullanılmaktadır. Özellikle 2D görsellerin 3D varlıklara dönüştürülmesinin sık bir iş akışı gereksinimi olduğu oyun geliştirme, ürün görselleştirme ve sanal gerçeklik uygulamaları için değerlidir.
Öne Çıkan Özellikler
Alti Kanonik Gorunum Uretimi
Eksiksiz nesne kapsamasi icin tek bir gurultu giderme gecisinde tek bir goruntuden ayni anda alti tutarli gorunum (on, arka, sol, sag, ust, alt) olusturur
Gorunumler Arasi Geometrik Tutarlilik
Ozel olarak tasarlanmis dikkat mekanizmasi, dogru alt 3D yeniden yapilandirma icin kritik olan tum olusturulan gorunumler arasinda geometrik ve gorunum tutarliligini saglar
3D Yeniden Yapilandirma Icin Hat Bileseni
InstantMesh, LGM ve diger yeniden yapilandirma sistemleri dahil modern goruntuden 3D hatlarinda standart coklu gorunum uretim bileseni olarak hizmet eder
Stable Diffusion Temeli
Kanitlanmis Stable Diffusion mimarisi uzerine insa edilmis ve 3D farkindali gorunum uretimi icin ince ayar yapilmistir; guclu goruntu uretim kalitesini mekansal anlayisla birlestirir
Hakkında
Zero123++, tek bir giriş görüntüsünden bir nesnenin altı tutarlı kanonik görünümünü oluşturan, Stability AI tarafından geliştirilen çoklu görünüm görüntü üretim modelidir. 2023'te yayımlanan model, orijinal Zero123 yaklaşımını geliştirilmiş görünüm tutarlılığıyla genişletir ve çoklu görünüm üretiminin 3D mesh yeniden yapılandırmasını öncelediği modern görüntüden 3D yeniden yapılandırma hatlarında kritik bir bileşen olarak hizmet eder. Model, tek görüntüden 3D yeniden yapılandırma ekosisteminin temel altyapı taşlarından biri haline gelmiş ve bu alandaki birçok boru hattının standart bileşeni olmuştur.
Model, Stable Diffusion mimarisi üzerine inşa edilmiş ve özellikle 3D tutarlı görünümler oluşturmak için ince ayar yapılmıştır. Bir nesnenin tek bir görüntüsü verildiğinde Zero123++ tek bir üretim geçişinde nesneyi ön, arka, sol, sağ, üst ve alt bakış açılarından gösteren altı görüntü üretir. Temel yenilik, alt 3D yeniden yapılandırma algoritmalarının doğru mesh'ler üretmesi için gerekli olan tüm oluşturulan görünümler arasında geometrik ve görünüm tutarlılığını korumaktır. Stable Diffusion'ın güçlü görüntü üretim kapasitesinin 3D farkındalıkla birleştirilmesi, yüksek kaliteli ve detaylı görünümler oluşturulmasını sağlar ve modelin çeşitli nesne türlerinde güvenilir sonuçlar üretmesine olanak tanır.
Zero123++, tek görüntüden 3D yeniden yapılandırmanın temel zorluğunu ele alır: tek bir bakış açısından eksiksiz 3D şekli çıkarmak, nesnenin görülmeyen açılardan nasıl görüneceğini anlamayı gerektirir. Geometrik olarak tutarlı çoklu görünüm görüntüleri oluşturarak Zero123++ yeniden yapılandırma algoritmalarının ihtiyaç duyduğu ek bakış açısı bilgisini sağlar. Oluşturulan görünümler, çoklu görünüm görüntülerini 3D temsillere dönüştüren InstantMesh, LGM ve diğer yöntemler gibi seyrek görünüm yeniden yapılandırma modellerine giriş görevi görür. Bu modüler yaklaşım, 3D yeniden yapılandırma boru hattının her aşamasının bağımsız olarak optimize edilmesine ve geliştirilmesine olanak tanır.
Model, görünümler arası tutarlılığı teşvik eden özel olarak tasarlanmış bir dikkat mekanizması kullanarak tüm altı görünümü tek bir gürültü giderme sürecinde aynı anda oluşturur. Bu eşanlı üretim yaklaşımı, tüm görünümlerin difüzyon süreci sırasında aynı latent gürültü ve koşullandırmayı paylaşmasından dolayı ardışık tek görünüm üretim yöntemlerinden daha tutarlı görünüm kümeleri üretir. Dikkat mekanizması, farklı görünümler arasındaki geometrik ilişkileri modelleyerek, nesnenin tüm açılardan tutarlı bir 3D yapıya sahip olmasını sağlar ve bu yapısal tutarlılık alt yeniden yapılandırma adımlarının başarısını doğrudan belirler.
Eğitim açısından Zero123++, Objaverse veri kümesinden oluşturulmuş çoklu görünüm çiftleri üzerinde eğitilmiştir. Model, çeşitli nesne kategorilerinde güçlü genelleme gösterir ancak eğitim dağılımının dışındaki alışılmadık nesneler veya karmaşık sahnelerde performans düşüşü yaşanabilir. Çıktı görüntüleri 320x320 çözünürlükte üretilir ve alt yeniden yapılandırma modelleri için yeterli görsel detay sağlar.
Apache 2.0 lisansı altında yayımlanan Zero123++, Hugging Face'te mevcut önceden eğitilmiş ağırlıklarla tamamen açık kaynaklıdır. Model, birçok açık kaynak görüntüden 3D boru hattında standart bir bileşen haline gelmiş ve hem araştırma hem de üretim ortamlarında yaygın olarak benimsenmiştir. Çoklu görünüm üretim yaklaşımı sonraki 3D üretim sistemlerinin tasarımını etkilemiş ve alandaki araştırma yönünü şekillendirmiştir.
Uygulama alanları ve topluluk benimsenmesi açısından Zero123++, özellikle robotik alanında nesne tanıma ve manipülasyon görevleri için 3D anlayışın geliştirilmesinde kullanılmaktadır. E-ticaret sektöründe tek ürün fotoğrafından çoklu görünüm üretimi, online kataloglarda ürün sunumunu zenginleştirmektedir. Açık kaynak topluluğu, modelin çeşitli varyasyonlarını ve ince ayar reçetelerini paylaşarak erişilebilirliğini artırmıştır. Diffusers kütüphanesiyle doğrudan entegrasyon desteği, mevcut üretken AI pipeline'larına hızlı dahil edilmesini kolaylaştırmaktadır.
Kullanım Senaryoları
3D Yeniden Yapilandirma Hatti Girisi
Yuksek kaliteli dokulu 3D mesh'ler uretmek icin seyrek gorunum 3D yeniden yapilandirma modelleri icin giris olarak tutarli coklu gorunum goruntuleri uretin
Tum Acilardan Nesne Gorselestirme
Tasarim incelemesi, dokumantasyon ve sunum materyalleri icin nesneleri alti kanonik bakis acisindan gosteren kapsamli gorsel referanslar olusturun
E-Ticaret Coklu Gorunum Uretimi
Kapsamli urun gorselestirmesi saglayan e-ticaret listeleri icin tek bir urun fotografindan birden fazla acidan urun gorunumleri uretin
3D Farkindali Uretim Arastirmasi
Gorunum tutarliligi, 3D farkindali goruntu uretimi ve coklu gorunum sentezi metodolojilerini incelemek icin arastirma araci ve temel cizgi olarak kullanin
Artılar ve Eksiler
Artılar
- Tablolar ve eskizler dahil dağıtım dışı veri setlerine ve doğal görsellere sıfır atış genellemesi
- Son teknoloji tek görünüm 3D rekonstrüksiyon ve yeni görünüm sentez modellerini önemli ölçüde geride bırakır
- Tutarlılık ve doğruluk için Objaverse üzerinde ince ayarla bakış açısı değişimini açıkça modeller
- Alt 3D rekonstrüksiyon için tek bir görselden tutarlı çok görünümlü görseller üretebilir
- Çeşitli 3D üretim ardışık düzenleri için önceden eğitilmiş modeller ve topluluk desteğiyle açık kaynak
Eksiler
- Görünüm tutarsızlığı sorunları — karmaşık nesneler için görünümler arasında geometri ve görünüm tutarsızlığı
- Genel umut verici performansa rağmen üretilen görseller görünür geometrik tutarsızlıklar içerir
- Yaklaşık 22GB VRAM gerektirir — çıkarım için RTX 3090/4090 sınıfı GPU gerekir
- Yetersiz kısıtlı tek görünüm yapısı sıklıkla mantıksız yeni görünüm üretimlerine yol açar
- Şeffaflık, üst üste yığılmış nesneler ve ince detaylar içeren karmaşık sahnelerde zorlanır
Teknik Detaylar
Parametre
N/A
Lisans
Apache 2.0
Özellikler
- Single Image to Multi-View
- Consistent 3D-Aware Views
- Six Canonical View Generation
- Stable Diffusion Based
- Open-Source Apache 2.0
- 3D Reconstruction Pipeline Input
- Fine-Tuned for View Consistency
- Stability AI Development
Benchmark Sonuçları
| Metrik | Değer | Karşılaştırma | Kaynak |
|---|---|---|---|
| Multi-view Tutarlılık | 6 tutarlı görünüm | Zero123: tek görünüm | arXiv 2310.15110 |
| Üretim Süresi | ~30 saniye (6 view) | SyncDreamer: ~60 saniye | GitHub SUDO-AI-3D |
| Çıktı Çözünürlüğü | 320×320 px (görünüm başına) | — | arXiv 2310.15110 |
Mevcut Platformlar
Sıkça Sorulan Sorular
İlgili Modeller
TripoSR
TripoSR, Stability AI ve Tripo AI tarafından ortaklaşa geliştirilen, tek giriş görsellerinden bir saniyeden kısa sürede detaylı 3D mesh'ler üreten hızlı bir ileri beslemeli 3D rekonstrüksiyon modelidir. Nesne başına dakikalar süren optimizasyon tabanlı yöntemlerin aksine, TripoSR Büyük Rekonstrüksiyon Modeli çerçevesi üzerine inşa edilmiş transformer tabanlı mimarisi sayesinde tek bir 2D fotoğraftan 3D geometriyi doğrudan tahmin eder. Model herhangi bir standart görseli girdi olarak kabul eder ve oyun motorları, 3D modelleme yazılımları ve artırılmış gerçeklik uygulamalarında kullanıma uygun dokulu 3D mesh üretir. Günlük nesneleri, mobilyaları, araçları, karakterleri ve organik şekilleri etkileyici geometrik doğruluk ve yüzey detayıyla yeniden yapılandırmada üstün performans gösterir. Mart 2024'te MIT lisansı altında yayınlanan model tamamen açık kaynaklıdır ve özel donanım gerektirmeden tüketici sınıfı GPU'larda çalışabilir. Birden fazla görselin verimli dönüşümü için toplu işleme desteği sunar ve Blender, Unity ile Unreal Engine dahil popüler 3D iş akışlarıyla sorunsuz entegre olur. Ürün fotoğraflarından hızlı 3D varlık oluşturmaya ihtiyaç duyan oyun geliştiricileri, ürün tasarımcıları ve e-ticaret ekipleri için özellikle değerlidir. Çıktı mesh'leri yapılandırılabilir çözünürlük ayarlarıyla OBJ ve GLB formatlarında dışa aktarılabilir. DINOv2 vizyon kodlayıcısı giriş görselinden zengin semantik ve yapısal özellikler çıkararak rekonstrüksiyon kalitesini artırır. TripoSR pahalı tarama ekipmanı veya manuel modelleme uzmanlığı gerektirmeden yüksek kaliteli rekonstrüksiyonu erişilebilir kılarak 3D içerik üretiminin demokratikleşmesinde önemli bir adımı temsil eder.
TRELLIS
TRELLIS, Microsoft Research tarafından geliştirilen ve yeni bir Structured Latent Diffusion mimarisi kullanarak metin açıklamalarından veya tek 2D görüntülerden yüksek kaliteli 3D varlıklar üreten devrim niteliğinde bir AI modelidir. Aralık 2024'te yayınlanan TRELLIS, geometri, doku ve malzeme özelliklerini ayrı aşamalar olarak ele almak yerine eşzamanlı olarak kodlayan yapılandırılmış bir gizli uzayda çalışarak 3D içerik üretiminde temel bir ilerlemeyi temsil eder. Model, detaylı PBR (Fiziksel Tabanlı Render) dokularıyla eksiksiz 3D mesh'ler üretir ve kapsamlı manuel son işleme olmadan oyun motorları, 3D render boru hatları ve AR/VR uygulamalarında doğrudan kullanımı mümkün kılar. TRELLIS, kullanıcıların istenen nesneleri doğal dilde tanımladığı metinden 3D üretimini ve tek bir fotoğrafın kapalı bakış açılarından çıkarılan geometriyle tam 3D modele dönüştürüldüğü görüntüden 3D rekonstrüksiyonu destekler. Yapılandırılmış gizli temsil, geometrik tutarlılığı sağlar ve havada kalan geometri, doku dikişleri ve gerçekçi olmayan oranlar gibi diğer 3D üretim yaklaşımlarında görülen yaygın artefaktları önler. TRELLIS, UV haritalı dokularla GLB ve OBJ dahil standart 3D formatlarında çıktı üretir ve Blender, Unity, Unreal Engine gibi profesyonel araçlarla entegrasyonu kolaylaştırır. MIT lisansı altında tamamen açık kaynaklıdır. Temel uygulamalar arasında oyun geliştirme için hızlı 3D varlık prototipleme, mimari görselleştirme, ürün tasarım modelleri ve metaverse varlık üretimi yer alır.
Stable Point Aware 3D (SPA3D)
Stable Point Aware 3D (SPA3D), Stability AI tarafından geliştirilen ve tek bir girdi görüntüsünden saniyeler içinde yüksek kaliteli dokulu 3D mesh'ler üreten gelişmiş bir ileri beslemeli 3D rekonstrüksiyon modelidir. Dakikalar süren işlem gerektiren yinelemeli optimizasyon tabanlı yaklaşımlardan farklı olarak SPA3D, tek bir geçişte 3D geometri ve doku tahmin eden doğrudan ileri beslemeli mimari kullanarak etkileşimli iş akışları ve üretim boru hatları için pratik hale gelir. Model, diğer tek görünüm rekonstrüksiyon yöntemlerine kıyasla geometrik tutarlılığı önemli ölçüde iyileştiren nokta bulutu hizalama teknikleri kullanır ve üretilen 3D modellerin birden fazla bakış açısından doğru oranları ve yapısal bütünlüğü korumasını sağlar. SPA3D, temiz topoloji ve UV haritalı dokularla endüstri standardı mesh çıktıları üreterek Blender, Unity, Unreal Engine ve profesyonel CAD araçlarına doğrudan içe aktarmayı mümkün kılar. Model, karakterler ve hayvanlar gibi organik şekillerden mobilya ve araçlar gibi sert yüzeyli nesnelere kadar çeşitli nesne kategorilerini işleyerek rekonstrüksiyon yaklaşımını her girdinin yapısal özelliklerine uyarlar. Stability AI Community License altında yayınlanan model, gelir tabanlı kısıtlamalarla kişisel ve ticari kullanıma açıktır. Temel uygulamalar arasında oyun geliştirme için hızlı 3D varlık oluşturma, artırılmış gerçeklik içerik üretimi, 3D baskı hazırlığı, sanal ürün fotoğrafçılığı ve e-ticaret 3D ürün gösterimleri yer alır. SPA3D özellikle konsept çizimlerinden veya fotoğraflardan hızlı 3D modeller gerektiren yaratıcı profesyoneller için değerlidir.
InstantMesh
InstantMesh, Tencent tarafından geliştirilen, tek giriş görsellerinden çoklu görünüm üretimi ve seyrek görünüm rekonstrüksiyonu hattı aracılığıyla yüksek kaliteli dokulu 3D mesh'ler oluşturan ileri beslemeli bir 3D mesh üretim modelidir. Nisan 2024'te Apache 2.0 lisansı altında yayınlanan InstantMesh, tek görselden 3D rekonstrüksiyonda hem hız hem de kalite elde etmek için çoklu görünüm difüzyon modelini büyük bir rekonstrüksiyon modeliyle birleştirir. Hat önce ince ayarlı çoklu görünüm difüzyon modeli kullanarak giriş nesnesinin birden fazla tutarlı görünümünü üretir, ardından bu görünümleri üç düzlem sinirsel temsili tahmin eden transformer tabanlı bir rekonstrüksiyon ağına besler ve son olarak bu temsil dokulu bir mesh'e dönüştürülür. Bu iki aşamalı yaklaşım tek aşamalı yöntemlerden önemli ölçüde daha yüksek kaliteli sonuçlar üretirken üretim sürelerini yalnızca birkaç saniyede tutar. InstantMesh bir görsel üretim modeliyle birleştirildiğinde metinden 3D'ye iş akışlarını ve fotoğraflardan veya sanat eserlerinden doğrudan görselden 3D'ye dönüşümü destekler. Çıktı mesh'leri standart 3D yazılımlar ve oyun motorlarıyla uyumlu detaylı geometri ve doku haritaları içerir. Model karakterler, araçlar, mobilyalar ve organik şekiller dahil çok çeşitli nesne türlerini iyi geometrik sadakatle işler. Kod ve ağırlıkları GitHub ve Hugging Face üzerinde mevcut olan açık kaynak bir proje olarak InstantMesh, 3D varlık üretim hatları kuran geliştiriciler arasında popüler bir seçim haline gelmiştir. Özellikle hızlı geri dönüş ve makul kalitenin birlikte önemli olduğu oyun geliştirme, e-ticaret ürün görselleştirme ve hızlı prototipleme senaryoları için kullanışlıdır.