One-2-3-45
One-2-3-45, UC San Diego araştırmacıları tarafından geliştirilen, çoklu görünüm üretimini seyrek görünüm 3D rekonstrüksiyonuyla birleştiren iki aşamalı bir hat aracılığıyla tek giriş görselinden dokulu 3D mesh'ler üreten tek görselden 3D rekonstrüksiyon sistemidir. Adı temel süreci yansıtır: bir görselden iki, üç, dört, beş görünüm üret ve ardından tam bir 3D nesne yeniden yapılandır. İlk aşamada ince ayarlı bir Zero123 modeli tek giriş fotoğrafına dayalı olarak nesnenin farklı açılardan birden fazla yeni görünümünü üretir. İkinci aşamada bu üretilen çoklu görünüm görselleri tutarlı geometriye sahip dokulu bir 3D mesh üreten maliyet hacmi tabanlı seyrek görünüm rekonstrüksiyon ağına beslenir. Haziran 2023'te MIT lisansı altında yayınlanan One-2-3-45, 2D difüzyon modellerini 3D rekonstrüksiyonla birleştirmenin bir dakikanın altında makul 3D varlıklar üretebileceğini gösteren ilk sistemlerden biri olmuştur. Model günlük eşyalar, hayvanlar, araçlar ve sanatsal nesneler dahil çeşitli nesne türlerini işler. Nesne başına onlarca dakika süren optimizasyon gerektiren DreamFusion gibi optimizasyon tabanlı yaklaşımların aksine One-2-3-45 ileri beslemeli bir şekilde çalışır ve bu da onu önemli ölçüde daha hızlı kılar. Çıktı mesh'leri renk ve doku bilgisi içerir ve standart 3D uygulamalarda kullanılmak üzere dışa aktarılabilir. Kodu GitHub üzerinde mevcut olan tamamen açık kaynak bir proje olarak tek görselden 3D üretim alanındaki sonraki araştırmalar için etkili bir referans olmuştur. Sistem özellikle sınırlı giriş verisinden hızlı 3D içerik üretimini keşfeden araştırmacılar ve geliştiriciler için kullanışlıdır.
Öne Çıkan Özellikler
Oncür Coklu Gorunum-Sonra-Yeniden Yapilandir Paradigmasi
Coklu gorunum goruntuleri olusturma ardindan 3D yeniden yapilandirma yapan iki asamali yaklasimi gosteren ilk sistemlerden biri; alanda artik standart olan bir kalip olusturmustur
45 Saniyelik Eksiksiz Hat
Tum tek goruntuden dokulu 3D mesh hattini yaklasik 45 saniyede tamamlar; saatler gerektiren optimizasyon tabanli yontemlerden cok daha hizli
Maliyet-Hacim 3D Yeniden Yapilandirma
Birden fazla olusturulan gorunumden bilgi toplayan maliyet-hacim tabanli yeniden yapilandirma kullanir; gorunum tutarsizliklarina karsi dayaniklilik saglar
MIT Lisansli Akademik Arastirma
UC San Diego'dan MIT lisansi altinda tekrarlanabilir kodla tamamen acik kaynak arastirma; 3D uretim arastirma toplulugu icin onemli bir referans olarak hizmet eder
Hakkında
One-2-3-45, çoklu görünüm üretimini seyrek görünüm 3D yeniden yapılandırmayla birleştiren iki aşamalı bir boru hattı aracılığıyla tek bir giriş görüntüsünden dokulu 3D mesh'ler oluşturan, UC San Diego'daki araştırmacılar tarafından geliştirilen tek görüntüden 3D yeniden yapılandırma sistemidir. İsim süreci yansıtır: bir görüntüden 2D çoklu görünüm görüntüleri oluştur, ardından 3D geometriyi yeniden yapılandır ve bunu yaklaşık 45 saniyede başar. Model, çoklu görünüm sonra yeniden yapılandır paradigmasının uygulanabilirliğini gösteren öncü çalışmalardan biri olarak alanda kalıcı ve derin bir etki bırakmıştır.
Sistem iki temel aşamada çalışır. İlk olarak, görüntüye koşullu bir 2D difüzyon modeli (Zero123'e dayalı) nesnenin farklı açılardan birden fazla tutarlı görünümünü oluşturur. İkinci olarak, maliyet-hacim tabanlı bir seyrek görünüm yeniden yapılandırma modülü bu oluşturulan çoklu görünüm görüntülerini işleyerek doku haritalarıyla bir 3D mesh üretir. Bu iki aşamalı yaklaşım, görünüm sentezi ve 3D yeniden yapılandırmanın zorlu görevlerini yönetilebilir alt problemlere ayırır. Her aşamanın bağımsız olarak optimize edilebilmesi, sistemin genel performansının iyileştirilmesini kolaylaştırır ve farklı bileşenlerin ayrı ayrı geliştirilmesine olanak tanır.
One-2-3-45'in katkısı, önceden eğitilmiş 2D difüzyon modellerini çoklu görünüm 3D yeniden yapılandırmayla birleştirmenin tek görüntüden 3D üretim için uygulanabilir ve verimli bir yaklaşım olduğunu göstermesinde yatmaktadır. Sistem, bir dakikanın altında makul 3D yeniden yapılandırma kalitesi elde eder ki bu, yayın sırasında nesne başına saatler sürabilen optimizasyon tabanlı yöntemlere göre önemli bir iyileşmeydi. Bu hız avantajı, 3D içerik oluşturma iş akışlarında iteratif tasarım döngülerini pratik hale getirmiş ve araştırmacılara hızlı deneysel iterasyon imkanı sağlamıştır.
Yeniden yapılandırma modülü, 3D geometriyi tahmin etmek için birden fazla oluşturulan görünümden bilgi toplayan bir maliyet-hacim yaklaşımı kullanır. Bu yaklaşım, tek görünüm derinlik tahminine dayanan yöntemlere göre oluşturulan görünümler arasındaki tutarsızlıklara karşı daha dayanıklıdır. Maliyet hacmi, farklı derinlik hipotezlerini değerlendirerek en olası 3D geometriyi belirler ve bu süreçte birden fazla görünümden gelen bilgiyi tutarlı bir şekilde birleştirir. Ortaya çıkan mesh'ler hem geometri hem de doku bilgisi içerir ve görselleştirme ile prototipleme için kullanılabilir 3D varlıklar sağlar.
Sistemin sınırlamaları arasında, oluşturulan görünümler arasındaki tutarsızlıkların nihai 3D yeniden yapılandırma kalitesini etkileyebilmesi yer alır. Karmaşık geometrilere veya ince detaylara sahip nesnelerde bu tutarsızlıklar daha belirgin hale gelebilir. Bununla birlikte, maliyet-hacim yaklaşımının dayanıklılığı, bu tür tutarsızlıkların etkisini önemli ölçüde azaltır ve çeşitli girdi türlerinde makul kaliteyi korur.
MIT lisansı altında yayımlanan One-2-3-45, GitHub'da mevcut kod ve önceden eğitilmiş ağırlıklarla tamamen açık kaynaklıdır. InstantMesh ve TripoSR gibi daha yeni modeller o zamandan beri daha yüksek kalite ve daha hızlı üretim elde etmiş olsa da One-2-3-45, alanda standart haline gelen çoklu görünüm sonra yeniden yapılandır paradigmasını gösteren ilk sistemlerden biri olarak tarihsel önemini korumaktadır. Modelin ortaya koyduğu mimari tasarım prensipleri, sonraki araştırmaların ve uygulamaların temelini oluşturmaya devam etmektedir.
Pratik entegrasyon ve kullanım senaryoları açısından One-2-3-45, endüstriyel tasarım süreçlerinde prototip görselleştirme aracı olarak değer kazanmıştır. Mühendislik ekipleri, fiziksel prototip üretimi öncesinde kavramsal modellerin hızlıca 3D olarak görselleştirilmesi için bu teknolojiyi benimsemiştir. Eğitim alanında, bilgisayarlı görme ve 3D rekonstrüksiyon derslerinde referans uygulama olarak kullanılmaktadır. Topluluk tarafından geliştirilen Gradio tabanlı web arayüzleri, teknik olmayan kullanıcıların da modele kolayca erişmesini sağlamıştır. Modelin modüler mimarisi, araştırmacıların farklı bileşenleri bağımsız olarak iyileştirmesine olanak tanımaktadır.
Kullanım Senaryoları
3D Uretim Arastirma Temel Cizgisi
Akademik arastirma yayinlarinda yeni tek goruntuden 3D yeniden yapilandirma yontemlerini degerlendirmek icin standart karsilastirma temel cizgisi olarak hizmet eder
Hizli 3D Prototipleme
Tasarim prototipleme ve konsept gorselestirme amaclari icin referans goruntularinden bir dakikanin altinda kaba 3D modeller uretin
3D AI Icin Egitim Araci
Net iki asamali hat tasarimina sahip iyi belgelenmis, erisilebilir bir uygulama araciligiyla coklu gorunum 3D yeniden yapilandirma kavramlarini ogrenim
Hat Mimarisi Referansi
2D difuzyonu 3D yeniden yapilandirma modulleriyle birlestiren ozel 3D uretim hatlari olusturmak icin mimari referans olarak kullanin
Artılar ve Eksiler
Artılar
- Tek bir 2D görüntüden 45 saniyede 3D model oluşturma
- Zero-shot yaklaşım — her nesne için yeniden eğitim gerektirmez
- Multi-view diffusion ile tutarlı açı sentezi
- Açık kaynak araştırma projesi
Eksiler
- Mesh kalitesi ticari araçların gerisinde
- İnce detaylarda ve kenar bölgelerinde kalite kaybı
- Simetrik olmayan nesnelerde zorluk
- Doku (texture) kalitesi sınırlı
Teknik Detaylar
Parametre
N/A
Lisans
MIT
Özellikler
- Single Image to 3D
- Multi-View Generation Stage
- SparseView Reconstruction
- Zero123 Based Pipeline
- Open-Source MIT License
- UC San Diego Research
- Mesh Output with Textures
- Academic Reference Implementation
Benchmark Sonuçları
| Metrik | Değer | Karşılaştırma | Kaynak |
|---|---|---|---|
| Novel View PSNR | 18.8 dB (GSO) | Unique3D: 20.1 dB | arXiv 2306.16928 |
| Üretim Süresi | ~45 saniye | Wonder3D: ~3 dakika | GitHub One-2-3-45 |
| SSIM (GSO) | 0.842 | Unique3D: 0.922 | arXiv 2306.16928 |
Mevcut Platformlar
Sıkça Sorulan Sorular
İlgili Modeller
TripoSR
TripoSR, Stability AI ve Tripo AI tarafından ortaklaşa geliştirilen, tek giriş görsellerinden bir saniyeden kısa sürede detaylı 3D mesh'ler üreten hızlı bir ileri beslemeli 3D rekonstrüksiyon modelidir. Nesne başına dakikalar süren optimizasyon tabanlı yöntemlerin aksine, TripoSR Büyük Rekonstrüksiyon Modeli çerçevesi üzerine inşa edilmiş transformer tabanlı mimarisi sayesinde tek bir 2D fotoğraftan 3D geometriyi doğrudan tahmin eder. Model herhangi bir standart görseli girdi olarak kabul eder ve oyun motorları, 3D modelleme yazılımları ve artırılmış gerçeklik uygulamalarında kullanıma uygun dokulu 3D mesh üretir. Günlük nesneleri, mobilyaları, araçları, karakterleri ve organik şekilleri etkileyici geometrik doğruluk ve yüzey detayıyla yeniden yapılandırmada üstün performans gösterir. Mart 2024'te MIT lisansı altında yayınlanan model tamamen açık kaynaklıdır ve özel donanım gerektirmeden tüketici sınıfı GPU'larda çalışabilir. Birden fazla görselin verimli dönüşümü için toplu işleme desteği sunar ve Blender, Unity ile Unreal Engine dahil popüler 3D iş akışlarıyla sorunsuz entegre olur. Ürün fotoğraflarından hızlı 3D varlık oluşturmaya ihtiyaç duyan oyun geliştiricileri, ürün tasarımcıları ve e-ticaret ekipleri için özellikle değerlidir. Çıktı mesh'leri yapılandırılabilir çözünürlük ayarlarıyla OBJ ve GLB formatlarında dışa aktarılabilir. DINOv2 vizyon kodlayıcısı giriş görselinden zengin semantik ve yapısal özellikler çıkararak rekonstrüksiyon kalitesini artırır. TripoSR pahalı tarama ekipmanı veya manuel modelleme uzmanlığı gerektirmeden yüksek kaliteli rekonstrüksiyonu erişilebilir kılarak 3D içerik üretiminin demokratikleşmesinde önemli bir adımı temsil eder.
TRELLIS
TRELLIS, Microsoft Research tarafından geliştirilen ve yeni bir Structured Latent Diffusion mimarisi kullanarak metin açıklamalarından veya tek 2D görüntülerden yüksek kaliteli 3D varlıklar üreten devrim niteliğinde bir AI modelidir. Aralık 2024'te yayınlanan TRELLIS, geometri, doku ve malzeme özelliklerini ayrı aşamalar olarak ele almak yerine eşzamanlı olarak kodlayan yapılandırılmış bir gizli uzayda çalışarak 3D içerik üretiminde temel bir ilerlemeyi temsil eder. Model, detaylı PBR (Fiziksel Tabanlı Render) dokularıyla eksiksiz 3D mesh'ler üretir ve kapsamlı manuel son işleme olmadan oyun motorları, 3D render boru hatları ve AR/VR uygulamalarında doğrudan kullanımı mümkün kılar. TRELLIS, kullanıcıların istenen nesneleri doğal dilde tanımladığı metinden 3D üretimini ve tek bir fotoğrafın kapalı bakış açılarından çıkarılan geometriyle tam 3D modele dönüştürüldüğü görüntüden 3D rekonstrüksiyonu destekler. Yapılandırılmış gizli temsil, geometrik tutarlılığı sağlar ve havada kalan geometri, doku dikişleri ve gerçekçi olmayan oranlar gibi diğer 3D üretim yaklaşımlarında görülen yaygın artefaktları önler. TRELLIS, UV haritalı dokularla GLB ve OBJ dahil standart 3D formatlarında çıktı üretir ve Blender, Unity, Unreal Engine gibi profesyonel araçlarla entegrasyonu kolaylaştırır. MIT lisansı altında tamamen açık kaynaklıdır. Temel uygulamalar arasında oyun geliştirme için hızlı 3D varlık prototipleme, mimari görselleştirme, ürün tasarım modelleri ve metaverse varlık üretimi yer alır.
Stable Point Aware 3D (SPA3D)
Stable Point Aware 3D (SPA3D), Stability AI tarafından geliştirilen ve tek bir girdi görüntüsünden saniyeler içinde yüksek kaliteli dokulu 3D mesh'ler üreten gelişmiş bir ileri beslemeli 3D rekonstrüksiyon modelidir. Dakikalar süren işlem gerektiren yinelemeli optimizasyon tabanlı yaklaşımlardan farklı olarak SPA3D, tek bir geçişte 3D geometri ve doku tahmin eden doğrudan ileri beslemeli mimari kullanarak etkileşimli iş akışları ve üretim boru hatları için pratik hale gelir. Model, diğer tek görünüm rekonstrüksiyon yöntemlerine kıyasla geometrik tutarlılığı önemli ölçüde iyileştiren nokta bulutu hizalama teknikleri kullanır ve üretilen 3D modellerin birden fazla bakış açısından doğru oranları ve yapısal bütünlüğü korumasını sağlar. SPA3D, temiz topoloji ve UV haritalı dokularla endüstri standardı mesh çıktıları üreterek Blender, Unity, Unreal Engine ve profesyonel CAD araçlarına doğrudan içe aktarmayı mümkün kılar. Model, karakterler ve hayvanlar gibi organik şekillerden mobilya ve araçlar gibi sert yüzeyli nesnelere kadar çeşitli nesne kategorilerini işleyerek rekonstrüksiyon yaklaşımını her girdinin yapısal özelliklerine uyarlar. Stability AI Community License altında yayınlanan model, gelir tabanlı kısıtlamalarla kişisel ve ticari kullanıma açıktır. Temel uygulamalar arasında oyun geliştirme için hızlı 3D varlık oluşturma, artırılmış gerçeklik içerik üretimi, 3D baskı hazırlığı, sanal ürün fotoğrafçılığı ve e-ticaret 3D ürün gösterimleri yer alır. SPA3D özellikle konsept çizimlerinden veya fotoğraflardan hızlı 3D modeller gerektiren yaratıcı profesyoneller için değerlidir.
Zero123++
Zero123++, Stability AI tarafından geliştirilen, tek giriş görselinden bir nesnenin altı tutarlı kanonik görünümünü üreten çoklu görünüm görsel üretim modelidir. 2023'te Apache 2.0 lisansı altında yayınlanan model, orijinal Zero123 yaklaşımını önemli ölçüde iyileştirilmiş görünüm tutarlılığıyla genişletir ve modern 3D rekonstrüksiyon hatlarında kritik bir bileşen olarak hizmet eder. Zero123++ bir nesnenin tek bir fotoğrafını veya render edilmiş görselini alır ve nesnenin etrafında tam 360 derecelik aralığı kapsayan altı eşit aralıklı görünüm üretir ve bunların tümü tutarlı geometri, aydınlatma ve görünüm korur. Model çoklu görünüm tutarlılığını sağlayan özel koşullandırma mekanizmalarıyla ince ayarlı bir Stable Diffusion omurgası üzerine inşa edilmiştir. Görünümleri bağımsız üreten ve sıklıkla tutarsız sonuçlar veren orijinal Zero123'ün aksine Zero123++ tüm altı görünümü tek bir difüzyon sürecinde eş zamanlı üretir ve 3D tutarlılığı dramatik şekilde iyileştirir. Üretilen çoklu görünüm görselleri NeRF, Gaussian Splatting veya doğrudan mesh rekonstrüksiyonu gibi aşağı akış 3D rekonstrüksiyon yöntemleri için girdi görevi görerek tek bir fotoğraftan yüksek kaliteli 3D model oluşturmayı mümkün kılar. Zero123++ önceden eğitilmiş ağırlıkları Hugging Face üzerinde mevcut olan tamamen açık kaynak bir modeldir ve 3D üretim sistemleri kuran araştırmacılar ile geliştiricilere açıktır. Model birçok son teknoloji 3D üretim hattında temel bir bileşen haline gelmiş ve akademik araştırmalarda yaygın olarak kullanılmaktadır. Özellikle 2D görsellerin 3D varlıklara dönüştürülmesinin sık bir iş akışı gereksinimi olduğu oyun geliştirme, ürün görselleştirme ve sanal gerçeklik uygulamaları için değerlidir.