Zero123++ ne icin kullanilir?

Zero123++ oncelikle goruntuden 3D yeniden yapilandirma hatlarinda bir bilesen olarak kullanilir. Tek bir giris goruntusunden bir nesnenin alti tutarli kanonik gorunumunu olusturur ve bunlar daha sonra dokulu 3D mesh'ler uretmek icin InstantMesh veya LGM gibi seyrek gorunum 3D yeniden yapilandirma modellerine beslenir. Ayrica bagimsiz olarak cok acili urun gorselestirmeleri veya nesneleri farkli bakis acilarindan gosteren referans goruntuleri olusturmak icin de kullanilabilir. Tutarli coklu gorunum uretimi temel yetenEgidir.

Zero123++ orijinal Zero123'ten nasil farklidir?

Zero123++, orijinal Zero123'u bircok yonden iyilestirir. Zero123 bir seferde tek bir yeni gorunum olustururken Zero123++ tek bir geciste ayni anda alti kanonik gorunum olusturarak daha iyi gorunumler arasi tutarlilik saglar. Zero123++ ayrica daha yuksek cozunurluklu cikti uretir ve tum gorunumler arasinda geometrik tutarliLigi koruyan gelistirilmis bir dikkat mekanizmasi kullanir. Esanli uretim yaklasimi, gorunumlerin teker teker olusturulmasinda ortaya cikan tutarsizliklari azaltir.

Zero123++ acik kaynak mi?

Evet, Zero123++ Stability AI tarafindan kisitlamasiz ticari kullanim, degisiklik ve dagitima izin veren Apache 2.0 lisansi altinda yayimlanmistir. Onceden egitilmis model agirliklari Hugging Face'te mevcuttur ve kaynak kodu GitHub'da erisilebilirdir. Bu acik kaynak mevcudiyeti, hem arastirma hem de uretim ortamlarinda cesitli goruntuden 3D yeniden yapilandirma hatlarinda standart bir bilesen olarak yaygin benimsenmesini saglamistir.

Zero123++ hangi donanimi gerektirir?

Zero123++ Stable Diffusion mimarisine dayanmaktadir, bu nedenle donanim gereksinimleri Stable Diffusion modellerini calistirmaya benzerdir. Standart uretim icin en az 8-12GB VRAM'li bir GPU gereklidir. Model tum alti gorunumu ayni anda olusturdugu icin tek goruntu uretiminden daha fazla bellek gerektirir. NVIDIA RTX 3060 veya esdeger GPU'lar temel kullanim icin calisir, rahat islem icin ise RTX 4070 Ti veya daha yuksek onerilir. Uretim tipik olarak alti gorunum kumesi basina 10-30 saniye surer.

Zero123++ rastgele acilarda gorunumler olusturabilir mi?

Zero123++, rastgele bakis acisi acilari yerine ozellikle alti kanonik gorunum (on, arka, sol, sag, ust, alt) olusturmak icin tasarlanmistir. Bu kanonik gorunum yaklasimi, bu alti ortogonal gorunumun alt 3D yeniden yapilandirma algoritmalari icin en faydali bilgiyi saglamasi nedeniyle secilmistir. Rastgele bakis acisi uretimi icin orijinal Zero123 modeli veya diger gorunum sentezi yontemleri daha uygun olabilir, ancak genellikle birden fazla gorunum arasinda daha az tutarli sonuclar uretirler.

Zero123++ 3D uretim hatlarina nasil entegre edilir?

Tipik bir hatta Zero123++ tek bir giris goruntusu alir ve alti kanonik gorunum olusturur. Bu gorunumler daha sonra 3D temsil (mesh, Gaussian splatting veya NeRF) olusturmak icin coklu gorunum goruntularini isleyen InstantMesh, LGM veya benzeri sistemler gibi seyrek gorunum yeniden yapilandirma modeline iletilir. Hat, giris goruntusunde arka plan kaldirma ve 3D ciktida son isleme gibi ek on isleme adimlari icerebilir. ComfyUI is akislari ve ozel betikler yaygin olarak bu hatti otomatiklestirir.

Zero123++

Açık Kaynak

4.3

Stability AI

Zero123++, Stability AI tarafından geliştirilen, tek giriş görselinden bir nesnenin altı tutarlı kanonik görünümünü üreten çoklu görünüm görsel üretim modelidir. 2023'te Apache 2.0 lisansı altında yayınlanan model, orijinal Zero123 yaklaşımını önemli ölçüde iyileştirilmiş görünüm tutarlılığıyla genişletir ve modern 3D rekonstrüksiyon hatlarında kritik bir bileşen olarak hizmet eder. Zero123++ bir nesnenin tek bir fotoğrafını veya render edilmiş görselini alır ve nesnenin etrafında tam 360 derecelik aralığı kapsayan altı eşit aralıklı görünüm üretir ve bunların tümü tutarlı geometri, aydınlatma ve görünüm korur. Model çoklu görünüm tutarlılığını sağlayan özel koşullandırma mekanizmalarıyla ince ayarlı bir Stable Diffusion omurgası üzerine inşa edilmiştir. Görünümleri bağımsız üreten ve sıklıkla tutarsız sonuçlar veren orijinal Zero123'ün aksine Zero123++ tüm altı görünümü tek bir difüzyon sürecinde eş zamanlı üretir ve 3D tutarlılığı dramatik şekilde iyileştirir. Üretilen çoklu görünüm görselleri NeRF, Gaussian Splatting veya doğrudan mesh rekonstrüksiyonu gibi aşağı akış 3D rekonstrüksiyon yöntemleri için girdi görevi görerek tek bir fotoğraftan yüksek kaliteli 3D model oluşturmayı mümkün kılar. Zero123++ önceden eğitilmiş ağırlıkları Hugging Face üzerinde mevcut olan tamamen açık kaynak bir modeldir ve 3D üretim sistemleri kuran araştırmacılar ile geliştiricilere açıktır. Model birçok son teknoloji 3D üretim hattında temel bir bileşen haline gelmiş ve akademik araştırmalarda yaygın olarak kullanılmaktadır. Özellikle 2D görsellerin 3D varlıklara dönüştürülmesinin sık bir iş akışı gereksinimi olduğu oyun geliştirme, ürün görselleştirme ve sanal gerçeklik uygulamaları için değerlidir.

Görselden 3D

Siteyi Ziyaret Et

Öne Çıkan Özellikler

Alti Kanonik Gorunum Uretimi

Eksiksiz nesne kapsamasi icin tek bir gurultu giderme gecisinde tek bir goruntuden ayni anda alti tutarli gorunum (on, arka, sol, sag, ust, alt) olusturur

Gorunumler Arasi Geometrik Tutarlilik

Ozel olarak tasarlanmis dikkat mekanizmasi, dogru alt 3D yeniden yapilandirma icin kritik olan tum olusturulan gorunumler arasinda geometrik ve gorunum tutarliligini saglar

3D Yeniden Yapilandirma Icin Hat Bileseni

InstantMesh, LGM ve diger yeniden yapilandirma sistemleri dahil modern goruntuden 3D hatlarinda standart coklu gorunum uretim bileseni olarak hizmet eder

Stable Diffusion Temeli

Kanitlanmis Stable Diffusion mimarisi uzerine insa edilmis ve 3D farkindali gorunum uretimi icin ince ayar yapilmistir; guclu goruntu uretim kalitesini mekansal anlayisla birlestirir

Hakkında

Zero123++, tek bir giriş görüntüsünden bir nesnenin altı tutarlı kanonik görünümünü oluşturan, Stability AI tarafından geliştirilen çoklu görünüm görüntü üretim modelidir. 2023'te yayımlanan model, orijinal Zero123 yaklaşımını geliştirilmiş görünüm tutarlılığıyla genişletir ve çoklu görünüm üretiminin 3D mesh yeniden yapılandırmasını öncelediği modern görüntüden 3D yeniden yapılandırma hatlarında kritik bir bileşen olarak hizmet eder. Model, tek görüntüden 3D yeniden yapılandırma ekosisteminin temel altyapı taşlarından biri haline gelmiş ve bu alandaki birçok boru hattının standart bileşeni olmuştur.

Model, Stable Diffusion mimarisi üzerine inşa edilmiş ve özellikle 3D tutarlı görünümler oluşturmak için ince ayar yapılmıştır. Bir nesnenin tek bir görüntüsü verildiğinde Zero123++ tek bir üretim geçişinde nesneyi ön, arka, sol, sağ, üst ve alt bakış açılarından gösteren altı görüntü üretir. Temel yenilik, alt 3D yeniden yapılandırma algoritmalarının doğru mesh'ler üretmesi için gerekli olan tüm oluşturulan görünümler arasında geometrik ve görünüm tutarlılığını korumaktır. Stable Diffusion'ın güçlü görüntü üretim kapasitesinin 3D farkındalıkla birleştirilmesi, yüksek kaliteli ve detaylı görünümler oluşturulmasını sağlar ve modelin çeşitli nesne türlerinde güvenilir sonuçlar üretmesine olanak tanır.

Zero123++, tek görüntüden 3D yeniden yapılandırmanın temel zorluğunu ele alır: tek bir bakış açısından eksiksiz 3D şekli çıkarmak, nesnenin görülmeyen açılardan nasıl görüneceğini anlamayı gerektirir. Geometrik olarak tutarlı çoklu görünüm görüntüleri oluşturarak Zero123++ yeniden yapılandırma algoritmalarının ihtiyaç duyduğu ek bakış açısı bilgisini sağlar. Oluşturulan görünümler, çoklu görünüm görüntülerini 3D temsillere dönüştüren InstantMesh, LGM ve diğer yöntemler gibi seyrek görünüm yeniden yapılandırma modellerine giriş görevi görür. Bu modüler yaklaşım, 3D yeniden yapılandırma boru hattının her aşamasının bağımsız olarak optimize edilmesine ve geliştirilmesine olanak tanır.

Model, görünümler arası tutarlılığı teşvik eden özel olarak tasarlanmış bir dikkat mekanizması kullanarak tüm altı görünümü tek bir gürültü giderme sürecinde aynı anda oluşturur. Bu eşanlı üretim yaklaşımı, tüm görünümlerin difüzyon süreci sırasında aynı latent gürültü ve koşullandırmayı paylaşmasından dolayı ardışık tek görünüm üretim yöntemlerinden daha tutarlı görünüm kümeleri üretir. Dikkat mekanizması, farklı görünümler arasındaki geometrik ilişkileri modelleyerek, nesnenin tüm açılardan tutarlı bir 3D yapıya sahip olmasını sağlar ve bu yapısal tutarlılık alt yeniden yapılandırma adımlarının başarısını doğrudan belirler.

Eğitim açısından Zero123++, Objaverse veri kümesinden oluşturulmuş çoklu görünüm çiftleri üzerinde eğitilmiştir. Model, çeşitli nesne kategorilerinde güçlü genelleme gösterir ancak eğitim dağılımının dışındaki alışılmadık nesneler veya karmaşık sahnelerde performans düşüşü yaşanabilir. Çıktı görüntüleri 320x320 çözünürlükte üretilir ve alt yeniden yapılandırma modelleri için yeterli görsel detay sağlar.

Apache 2.0 lisansı altında yayımlanan Zero123++, Hugging Face'te mevcut önceden eğitilmiş ağırlıklarla tamamen açık kaynaklıdır. Model, birçok açık kaynak görüntüden 3D boru hattında standart bir bileşen haline gelmiş ve hem araştırma hem de üretim ortamlarında yaygın olarak benimsenmiştir. Çoklu görünüm üretim yaklaşımı sonraki 3D üretim sistemlerinin tasarımını etkilemiş ve alandaki araştırma yönünü şekillendirmiştir.

Uygulama alanları ve topluluk benimsenmesi açısından Zero123++, özellikle robotik alanında nesne tanıma ve manipülasyon görevleri için 3D anlayışın geliştirilmesinde kullanılmaktadır. E-ticaret sektöründe tek ürün fotoğrafından çoklu görünüm üretimi, online kataloglarda ürün sunumunu zenginleştirmektedir. Açık kaynak topluluğu, modelin çeşitli varyasyonlarını ve ince ayar reçetelerini paylaşarak erişilebilirliğini artırmıştır. Diffusers kütüphanesiyle doğrudan entegrasyon desteği, mevcut üretken AI pipeline'larına hızlı dahil edilmesini kolaylaştırmaktadır.

Kullanım Senaryoları

3D Yeniden Yapilandirma Hatti Girisi

Yuksek kaliteli dokulu 3D mesh'ler uretmek icin seyrek gorunum 3D yeniden yapilandirma modelleri icin giris olarak tutarli coklu gorunum goruntuleri uretin

Tum Acilardan Nesne Gorselestirme

Tasarim incelemesi, dokumantasyon ve sunum materyalleri icin nesneleri alti kanonik bakis acisindan gosteren kapsamli gorsel referanslar olusturun

E-Ticaret Coklu Gorunum Uretimi

Kapsamli urun gorselestirmesi saglayan e-ticaret listeleri icin tek bir urun fotografindan birden fazla acidan urun gorunumleri uretin

3D Farkindali Uretim Arastirmasi

Gorunum tutarliligi, 3D farkindali goruntu uretimi ve coklu gorunum sentezi metodolojilerini incelemek icin arastirma araci ve temel cizgi olarak kullanin

Artılar ve Eksiler

Artılar

Tablolar ve eskizler dahil dağıtım dışı veri setlerine ve doğal görsellere sıfır atış genellemesi
Son teknoloji tek görünüm 3D rekonstrüksiyon ve yeni görünüm sentez modellerini önemli ölçüde geride bırakır
Tutarlılık ve doğruluk için Objaverse üzerinde ince ayarla bakış açısı değişimini açıkça modeller
Alt 3D rekonstrüksiyon için tek bir görselden tutarlı çok görünümlü görseller üretebilir
Çeşitli 3D üretim ardışık düzenleri için önceden eğitilmiş modeller ve topluluk desteğiyle açık kaynak

Eksiler

Görünüm tutarsızlığı sorunları — karmaşık nesneler için görünümler arasında geometri ve görünüm tutarsızlığı
Genel umut verici performansa rağmen üretilen görseller görünür geometrik tutarsızlıklar içerir
Yaklaşık 22GB VRAM gerektirir — çıkarım için RTX 3090/4090 sınıfı GPU gerekir
Yetersiz kısıtlı tek görünüm yapısı sıklıkla mantıksız yeni görünüm üretimlerine yol açar
Şeffaflık, üst üste yığılmış nesneler ve ince detaylar içeren karmaşık sahnelerde zorlanır

Teknik Detaylar

Parametre

N/A

Lisans

Apache 2.0

Özellikler

Single Image to Multi-View
Consistent 3D-Aware Views
Six Canonical View üretimi
Stable Diffusion Based
Open-Source Apache 2.0
3D Reconstruction Pipeline Input
Fine-Tuned for View Consistency
Stability AI Development

Benchmark Sonuçları

Metrik	Değer	Karşılaştırma	Kaynak
Multi-view Tutarlılık	6 tutarlı görünüm	Zero123: tek görünüm	arXiv 2310.15110
Üretim Süresi	~30 saniye (6 view)	SyncDreamer: ~60 saniye	GitHub SUDO-AI-3D
Çıktı Çözünürlüğü	320×320 px (görünüm başına)	—	arXiv 2310.15110

Mevcut Platformlar

hugging face

replicate

fal ai

Sıkça Sorulan Sorular

İlgili Modeller

TripoSR

Stability AI & Tripo|N/A

TripoSR, Stability AI ve Tripo AI tarafından ortaklaşa geliştirilen, tek giriş görsellerinden bir saniyeden kısa sürede detaylı 3D mesh'ler üreten hızlı bir ileri beslemeli 3D rekonstrüksiyon modelidir. Nesne başına dakikalar süren optimizasyon tabanlı yöntemlerin aksine, TripoSR Büyük Rekonstrüksiyon Modeli çerçevesi üzerine inşa edilmiş transformer tabanlı mimarisi sayesinde tek bir 2D fotoğraftan 3D geometriyi doğrudan tahmin eder. Model herhangi bir standart görseli girdi olarak kabul eder ve oyun motorları, 3D modelleme yazılımları ve artırılmış gerçeklik uygulamalarında kullanıma uygun dokulu 3D mesh üretir. Günlük nesneleri, mobilyaları, araçları, karakterleri ve organik şekilleri etkileyici geometrik doğruluk ve yüzey detayıyla yeniden yapılandırmada üstün performans gösterir. Mart 2024'te MIT lisansı altında yayınlanan model tamamen açık kaynaklıdır ve özel donanım gerektirmeden tüketici sınıfı GPU'larda çalışabilir. Birden fazla görselin verimli dönüşümü için toplu işleme desteği sunar ve Blender, Unity ile Unreal Engine dahil popüler 3D iş akışlarıyla sorunsuz entegre olur. Ürün fotoğraflarından hızlı 3D varlık oluşturmaya ihtiyaç duyan oyun geliştiricileri, ürün tasarımcıları ve e-ticaret ekipleri için özellikle değerlidir. Çıktı mesh'leri yapılandırılabilir çözünürlük ayarlarıyla OBJ ve GLB formatlarında dışa aktarılabilir. DINOv2 vizyon kodlayıcısı giriş görselinden zengin semantik ve yapısal özellikler çıkararak rekonstrüksiyon kalitesini artırır. TripoSR pahalı tarama ekipmanı veya manuel modelleme uzmanlığı gerektirmeden yüksek kaliteli rekonstrüksiyonu erişilebilir kılarak 3D içerik üretiminin demokratikleşmesinde önemli bir adımı temsil eder.

Açık Kaynak

4.5

TRELLIS

Microsoft Research|Unknown

TRELLIS, Microsoft Research tarafından geliştirilen ve yeni bir Structured Latent Diffusion mimarisi kullanarak metin açıklamalarından veya tek 2D görüntülerden yüksek kaliteli 3D varlıklar üreten devrim niteliğinde bir AI modelidir. Aralık 2024'te yayınlanan TRELLIS, geometri, doku ve malzeme özelliklerini ayrı aşamalar olarak ele almak yerine eşzamanlı olarak kodlayan yapılandırılmış bir gizli uzayda çalışarak 3D içerik üretiminde temel bir ilerlemeyi temsil eder. Model, detaylı PBR (Fiziksel Tabanlı Render) dokularıyla eksiksiz 3D mesh'ler üretir ve kapsamlı manuel son işleme olmadan oyun motorları, 3D render boru hatları ve AR/VR uygulamalarında doğrudan kullanımı mümkün kılar. TRELLIS, kullanıcıların istenen nesneleri doğal dilde tanımladığı metinden 3D üretimini ve tek bir fotoğrafın kapalı bakış açılarından çıkarılan geometriyle tam 3D modele dönüştürüldüğü görüntüden 3D rekonstrüksiyonu destekler. Yapılandırılmış gizli temsil, geometrik tutarlılığı sağlar ve havada kalan geometri, doku dikişleri ve gerçekçi olmayan oranlar gibi diğer 3D üretim yaklaşımlarında görülen yaygın artefaktları önler. TRELLIS, UV haritalı dokularla GLB ve OBJ dahil standart 3D formatlarında çıktı üretir ve Blender, Unity, Unreal Engine gibi profesyonel araçlarla entegrasyonu kolaylaştırır. MIT lisansı altında tamamen açık kaynaklıdır. Temel uygulamalar arasında oyun geliştirme için hızlı 3D varlık prototipleme, mimari görselleştirme, ürün tasarım modelleri ve metaverse varlık üretimi yer alır.

Açık Kaynak

4.5

Stable Point Aware 3D (SPA3D)

Stability AI|Unknown

Stable Point Aware 3D (SPA3D), Stability AI tarafından geliştirilen ve tek bir girdi görüntüsünden saniyeler içinde yüksek kaliteli dokulu 3D mesh'ler üreten gelişmiş bir ileri beslemeli 3D rekonstrüksiyon modelidir. Dakikalar süren işlem gerektiren yinelemeli optimizasyon tabanlı yaklaşımlardan farklı olarak SPA3D, tek bir geçişte 3D geometri ve doku tahmin eden doğrudan ileri beslemeli mimari kullanarak etkileşimli iş akışları ve üretim boru hatları için pratik hale gelir. Model, diğer tek görünüm rekonstrüksiyon yöntemlerine kıyasla geometrik tutarlılığı önemli ölçüde iyileştiren nokta bulutu hizalama teknikleri kullanır ve üretilen 3D modellerin birden fazla bakış açısından doğru oranları ve yapısal bütünlüğü korumasını sağlar. SPA3D, temiz topoloji ve UV haritalı dokularla endüstri standardı mesh çıktıları üreterek Blender, Unity, Unreal Engine ve profesyonel CAD araçlarına doğrudan içe aktarmayı mümkün kılar. Model, karakterler ve hayvanlar gibi organik şekillerden mobilya ve araçlar gibi sert yüzeyli nesnelere kadar çeşitli nesne kategorilerini işleyerek rekonstrüksiyon yaklaşımını her girdinin yapısal özelliklerine uyarlar. Stability AI Community License altında yayınlanan model, gelir tabanlı kısıtlamalarla kişisel ve ticari kullanıma açıktır. Temel uygulamalar arasında oyun geliştirme için hızlı 3D varlık oluşturma, artırılmış gerçeklik içerik üretimi, 3D baskı hazırlığı, sanal ürün fotoğrafçılığı ve e-ticaret 3D ürün gösterimleri yer alır. SPA3D özellikle konsept çizimlerinden veya fotoğraflardan hızlı 3D modeller gerektiren yaratıcı profesyoneller için değerlidir.

Açık Kaynak

4.3

Meshy v4

Meshy AI|undisclosed

Meshy v4, Meshy AI'ın metin açıklamalarından ve görsellerden dakikalar içinde detaylı, dokulu 3D modeller oluşturabilen 3D model üretim platformunun dördüncü neslidir. 2024'ün sonlarında yayınlanan Meshy v4, önceki sürümlere göre mesh kalitesi, doku sadakati ve topoloji optimizasyonunda büyük bir yükseltmeyi temsil eder. Model, oyun motorları, animasyon boru hatları ve 3D baskı için uygun temiz topolojiye sahip üretime hazır 3D varlıklar üretir. Hem metinden 3D'ye hem de görselden 3D'ye üretim iş akışlarını destekler. Platform, difüz, normal, pürüzlülük ve metalik haritalar dahil PBR malzemelerle dokulu mesh'ler üreterek çıktıları Unity, Unreal Engine ve Blender ile hemen uyumlu hale getirir. GLB, OBJ, FBX ve STL dahil birden fazla formatta dışa aktarım destekler. Meshy v4, geliştirilmiş detay koruma, ince yapılar ve karmaşık geometrilerin daha iyi işlenmesi ve daha doğru renk ve doku eşleme özelliklerine sahiptir. Platform oyun geliştiricileri, 3D sanatçılar, mimarlar ve ürün tasarımcılarına hizmet eder. Freemium model sınırlı ücretsiz üretim sunar.

Tescilli

4.5

Hızlı Bilgi

ParametreN/A

Tipdiffusion

LisansApache 2.0

Yayınlanma2023-10

Puan4.3 / 5

GeliştiriciStability AI

Bağlantılar

Resmi Site GitHub arXiv Paper HuggingFace

Etiketler

zero123

multi-view

image-to-3d

Siteyi Ziyaret Et

Daha Fazla Kesfet

Tum Görselden 3D Modelleri

Kategoriyi incele

AI ile 3D Modelleme: Metinden Objeye

Rehberi oku

Tum AI Modelleri

Tum modelleri incele