OpenLRM
OpenLRM, Zexiang Xu ve işbirlikçileri tarafından geliştirilen, tek görselden 3D rekonstrüksiyon için Büyük Rekonstrüksiyon Modeli mimarisinin açık kaynak bir uygulamasıdır. Proje, tek giriş görsellerinden ileri beslemeli bir şekilde 3D temsiller tahmin etmek için transformer tabanlı mimari kullanan LRM yaklaşımının tamamen açık ve tekrarlanabilir bir uygulamasını sunar. OpenLRM bir giriş görselini DINOv2 gibi önceden eğitilmiş bir vizyon kodlayıcı aracılığıyla işler, ardından elde edilen özellikleri üç düzlem tabanlı sinirsel ışıma alanı temsili üreten bir transformer kod çözücüye besler ve bu temsil yeni bakış açılarından render edilebilir veya dokulu bir 3D mesh'e dönüştürülebilir. Tüm rekonstrüksiyon modern bir GPU'da yalnızca birkaç saniye sürer ve bu da onu etkileşimli uygulamalar ve toplu işleme iş akışları için pratik kılar. Aralık 2023'te Apache 2.0 lisansı altında yayınlanan OpenLRM, araştırmacıların inceleyebileceği, değiştirebileceği ve üzerine inşa edebileceği erişilebilir bir referans uygulama sağlayarak 3D AI araştırma topluluğundaki kritik bir boşluğu doldurur. Model çeşitli çıktı formatlarını destekler ve oyun geliştirmeden e-ticaret ürün görselleştirmesine kadar uzanan uygulamalar için mevcut 3D süreçlere entegre edilebilir. OpenLRM mobilya, araçlar, karakterler ve günlük eşyalar dahil çeşitli nesne kategorilerini makul geometrik sadakatle işler. Önceden eğitilmiş model ağırlıkları anında kullanım için Hugging Face üzerinde mevcuttur. İleri beslemeli 3D rekonstrüksiyondaki temel açık kaynak projelerden biri olarak OpenLRM, hızla gelişen tek görselden 3D üretim alanındaki birçok alt projeyi ve araştırma çalışmasını doğrudan etkilemiş ve mümkün kılmıştır.
Öne Çıkan Özellikler
Temel LRM Mimarisi
TripoSR ve InstantMesh dahil sonraki modelleri etkileyen Buyuk Yeniden Yapilandirma Modeli mimarisinin acik kaynak referans uygulamasi
Uc Duzlem-NeRF 3D Temsili
3D geometri ve gorunumu kodlamak icin eksene hizalanmis uc ozellik duzlemi kullanir; kompakt bir temsilden hem hacimsel isitma hem de mesh cikarimina olanak tanir
Vizyon Transformer Kodlamasi
Saglam gorsel ozellik cikarimi icin onceden egitilmis Vizyon Transformer (ViT) kodlayicilarindan yararlanir; cesitli giris goruntu turleri arasinda guclu genelleme saglar
Tekrarlanabilir Acik Arastirma
Onceden egitilmis kontrol noktalariyla tamamen tekrarlanabilir egitim ve cikarim kodu saglar; arastirma toplulugunun LRM paradigmasini gelistirmesine olanak tanir
Hakkında
OpenLRM, Zexiang Xu ve işbirlikleri tarafından geliştirilen, tek görüntüden 3D yeniden yapılandırma için Büyük Yeniden Yapılandırma Modeli (LRM) mimarisinin açık kaynaklı bir uygulamasıdır. Proje, üç düzlem sinirsel ışıma alanı temsili aracılığıyla tek görüntülerden 3D nesneleri yeniden yapılandırmak için transformer tabanlı bir mimari kullanan LRM yaklaşımının tamamen açık ve tekrarlanabilir bir uygulamasını sağlar. LRM paradigmasının demokratikleşmesinde kilit bir rol oynayan OpenLRM, sonraki birçok 3D yeniden yapılandırma modelinin temelini oluşturmuştur.
LRM mimarisi, görsel özellikleri çıkarmak için bir giriş görüntüsünü önceden eğitilmiş bir vizyon transformer (ViT) kodlayıcısı aracılığıyla işler, ardından 3D nesnenin üç düzlem temsilini tahmin etmek için bir transformer kod çözücü kullanır. Bu üç düzlem temsili, nesnenin geometrisini ve görünümünü kodlayan eksene hizalanmış üç özellik düzleminden oluşur. Üç düzlem, herhangi bir 3D noktada yoğunluk ve renk değerleri elde etmek için sorgulanabilir ve hem hacimsel ışıtmayı hem de yürüyüş küpleri aracılığıyla mesh çıkarılmasını mümkün kılar. DINO ve DINOv2 tabanlı vizyon kodlayıcıları, giriş görüntüsünden güçlü semantik özellikler çıkararak yeniden yapılandırma doğruluğunu artırır ve modelin farklı nesne türleri arasında tutarlı sonuçlar üretmesini sağlar.
OpenLRM'nin önemi, güçlü bir 3D yeniden yapılandırma paradigmasının açık uygulamasında yatmaktadır. Orijinal LRM makalesi mimariyi tanımlasa da OpenLRM, önceden eğitilmiş ağırlıklar, eğitim kodu ve çıkarım betikleri sağlayarak yaklaşımı daha geniş araştırma ve geliştirme topluluğunun erişimine açmıştır. Bu durum, çok sayıda alt proje ve araştırma çabasının LRM temeli üzerine inşa etmesini sağlamıştır. Proje, farklı ölçeklerde birden fazla model varyantı sunarak, kullanıcıların hız ile kalite arasındaki dengeyi kendi ihtiyaçlarına göre ayarlamasına olanak tanır ve bu esneklik hem araştırma hem de üretim ortamlarında değer sağlar.
Model hem metinden 3D hem de görüntüden 3D iş akışlarını destekler, ancak görüntüden 3D birincil kullanım durumudur. İleri beslemeli çıkarım, optimizasyon tabanlı yöntemlerin gerektirdiği dakikalar veya saatler yerine saniyeler içinde üretim sağlar. Çıktı üç düzlem temsili, yeni görünümler olarak ışıtılabilir veya standart 3D uygulamalarda kullanım için dokulu bir 3D mesh olarak çıkarılabilir. Modelin transformer tabanlı mimarisi, giriş görüntüsündeki global bağlam bilgisini etkili bir şekilde yakalayarak, kısmi görünümlerden bile tutarlı 3D yeniden yapılandırma sağlar ve nesnenin görülmeyen kısımlarını mantıklı şekilde tamamlar.
Eğitim altyapısı açısından OpenLRM, Objaverse ve Objaverse-XL veri kümeleri üzerinde eğitilmiştir ve çeşitli nesne kategorilerinde genelleme kapasitesi gösterir. Proje, eğitim sürecinin tamamını açık kaynak olarak sunarak, araştırmacıların kendi veri kümeleri üzerinde modeli yeniden eğitmesine veya ince ayar yapmasına olanak tanır. Bu şeffaflık, akademik araştırmada tekrarlanabilirlik standartlarını yükseltmiş ve topluluk genelinde hızlı iterasyonu kolaylaştırmıştır.
Apache 2.0 lisansı altında yayımlanan OpenLRM, araştırma ve ticari uygulamalar için serbestçe mevcuttur. Proje, birden fazla ölçekte önceden eğitilmiş model kontrol noktalarıyla Hugging Face'te barındırılmaktadır. OpenLRM, LRM mimari kalıbını geliştiren ve iyileştiren TripoSR ve InstantMesh dahil sonraki birçok 3D yeniden yapılandırma modeli için temel oluşturmuştur ve alan için vazgeçilmez bir referans uygulaması olmaya devam etmektedir.
Topluluk katkıları ve entegrasyon açısından OpenLRM, açık kaynak yapısı sayesinde hızla büyüyen bir ekosistem oluşturmuştur. Hugging Face üzerindeki model deposu, araştırmacıların önceden eğitilmiş ağırlıklara kolay erişimini sağlamaktadır. Pratik uygulamalarda, mimari görselleştirme firmalarının bina cephesi fotoğraflarından 3D modeller üretmesi, kültürel miras projelerinde tarihi eserlerin dijitalleştirilmesi ve eğitim materyallerinde interaktif 3D içerik oluşturulması gibi kullanım senaryoları öne çıkmaktadır. Python ve PyTorch ekosistemiyle tam uyumluluk, mevcut derin öğrenme iş akışlarına sorunsuz entegrasyonu mümkün kılmaktadır.
Kullanım Senaryoları
3D Yeniden Yapilandirma Arastirmasi
Ileri beslemeli 3D yeniden yapilandirma alanindaki akademik arastirmalar icin temel cizgi ve baslangic noktasi olarak hizmet eder; karsilastirma calismalari icin tekrarlanabilir sonuclar saglar
Ozel Model Gelistirme
Alana ozel veri kumeleri uzerinde ince ayar yapilmis uzmanlasmis 3D yeniden yapilandirma modelleri gelistirmek icin OpenLRM'nin mimarisi ve egitim kodunu temel olarak kullanin
Hizli 3D Varlik Uretimi
Hizli donusum gerektiren prototipleme, gorselestirme ve icerik olusturma is akislari icin referans goruntularinden hizla 3D modeller uretin
Hat Bileseni Entegrasyonu
Goruntu uretim ve son isleme araclariyla birlikte daha buyuk icerik olusturma veya isleme hatlarinda 3D yeniden yapilandirma bileseni olarak entegre edin
Artılar ve Eksiler
Artılar
- Tek görüntüden 3D rekonstrüksiyon yapabilen açık kaynak model
- Large Reconstruction Model konseptinin açık implementasyonu
- Transformer tabanlı verimli mimari
- Araştırma ve prototipleme için ücretsiz kullanım
Eksiler
- Üretim kalitesi ticari çözümlerden düşük
- Sınırlı çözünürlük ve detay seviyesi
- Görünmeyen açılardan geometri tahmininde hatalar
- Belgelendirme ve topluluk desteği sınırlı
Teknik Detaylar
Parametre
N/A
Lisans
Apache 2.0
Özellikler
- Single Image to 3D Reconstruction
- Large Reconstruction Model Architecture
- Triplane-NeRF Representation
- Fast Feed-Forward Inference
- Open-Source Apache 2.0
- Multiple çözünürlük destek
- Mesh dışa aktarma Capability
- Hugging Face entegrasyon
Benchmark Sonuçları
| Metrik | Değer | Karşılaştırma | Kaynak |
|---|---|---|---|
| Novel View PSNR | 21.0 dB (GSO) | InstantMesh: 22.2 dB | GitHub 3DTopia/OpenLRM |
| SSIM (GSO) | 0.856 | InstantMesh: 0.880 | GitHub 3DTopia/OpenLRM |
| Üretim Süresi | ~5 saniye | — | GitHub 3DTopia/OpenLRM |
| Parametre Sayısı | ~300M | — | Hugging Face Model Card |
Mevcut Platformlar
Sıkça Sorulan Sorular
İlgili Modeller
TripoSR
TripoSR, Stability AI ve Tripo AI tarafından ortaklaşa geliştirilen, tek giriş görsellerinden bir saniyeden kısa sürede detaylı 3D mesh'ler üreten hızlı bir ileri beslemeli 3D rekonstrüksiyon modelidir. Nesne başına dakikalar süren optimizasyon tabanlı yöntemlerin aksine, TripoSR Büyük Rekonstrüksiyon Modeli çerçevesi üzerine inşa edilmiş transformer tabanlı mimarisi sayesinde tek bir 2D fotoğraftan 3D geometriyi doğrudan tahmin eder. Model herhangi bir standart görseli girdi olarak kabul eder ve oyun motorları, 3D modelleme yazılımları ve artırılmış gerçeklik uygulamalarında kullanıma uygun dokulu 3D mesh üretir. Günlük nesneleri, mobilyaları, araçları, karakterleri ve organik şekilleri etkileyici geometrik doğruluk ve yüzey detayıyla yeniden yapılandırmada üstün performans gösterir. Mart 2024'te MIT lisansı altında yayınlanan model tamamen açık kaynaklıdır ve özel donanım gerektirmeden tüketici sınıfı GPU'larda çalışabilir. Birden fazla görselin verimli dönüşümü için toplu işleme desteği sunar ve Blender, Unity ile Unreal Engine dahil popüler 3D iş akışlarıyla sorunsuz entegre olur. Ürün fotoğraflarından hızlı 3D varlık oluşturmaya ihtiyaç duyan oyun geliştiricileri, ürün tasarımcıları ve e-ticaret ekipleri için özellikle değerlidir. Çıktı mesh'leri yapılandırılabilir çözünürlük ayarlarıyla OBJ ve GLB formatlarında dışa aktarılabilir. DINOv2 vizyon kodlayıcısı giriş görselinden zengin semantik ve yapısal özellikler çıkararak rekonstrüksiyon kalitesini artırır. TripoSR pahalı tarama ekipmanı veya manuel modelleme uzmanlığı gerektirmeden yüksek kaliteli rekonstrüksiyonu erişilebilir kılarak 3D içerik üretiminin demokratikleşmesinde önemli bir adımı temsil eder.
TRELLIS
TRELLIS, Microsoft Research tarafından geliştirilen ve yeni bir Structured Latent Diffusion mimarisi kullanarak metin açıklamalarından veya tek 2D görüntülerden yüksek kaliteli 3D varlıklar üreten devrim niteliğinde bir AI modelidir. Aralık 2024'te yayınlanan TRELLIS, geometri, doku ve malzeme özelliklerini ayrı aşamalar olarak ele almak yerine eşzamanlı olarak kodlayan yapılandırılmış bir gizli uzayda çalışarak 3D içerik üretiminde temel bir ilerlemeyi temsil eder. Model, detaylı PBR (Fiziksel Tabanlı Render) dokularıyla eksiksiz 3D mesh'ler üretir ve kapsamlı manuel son işleme olmadan oyun motorları, 3D render boru hatları ve AR/VR uygulamalarında doğrudan kullanımı mümkün kılar. TRELLIS, kullanıcıların istenen nesneleri doğal dilde tanımladığı metinden 3D üretimini ve tek bir fotoğrafın kapalı bakış açılarından çıkarılan geometriyle tam 3D modele dönüştürüldüğü görüntüden 3D rekonstrüksiyonu destekler. Yapılandırılmış gizli temsil, geometrik tutarlılığı sağlar ve havada kalan geometri, doku dikişleri ve gerçekçi olmayan oranlar gibi diğer 3D üretim yaklaşımlarında görülen yaygın artefaktları önler. TRELLIS, UV haritalı dokularla GLB ve OBJ dahil standart 3D formatlarında çıktı üretir ve Blender, Unity, Unreal Engine gibi profesyonel araçlarla entegrasyonu kolaylaştırır. MIT lisansı altında tamamen açık kaynaklıdır. Temel uygulamalar arasında oyun geliştirme için hızlı 3D varlık prototipleme, mimari görselleştirme, ürün tasarım modelleri ve metaverse varlık üretimi yer alır.
Meshy
Meshy, Meshy AI tarafından geliştirilen, metin açıklamalarından ve görsellerden detaylı, üretime hazır 3D modeller oluşturan tescilli bir AI destekli 3D üretim platformudur. Platform metinden 3D'ye ve görselden 3D'ye yetenekleri gelişmiş AI doku kaplama özellikleriyle birleştirerek hızlı 3D içerik üretimi için kapsamlı bir çözüm sunar. Meshy, PBR uyumlu malzemelerle dokulu 3D mesh'ler üreten transformer tabanlı bir mimari kullanır ve çıktıları ek işlem gerektirmeden Unity ve Unreal Engine gibi oyun motorlarında doğrudan kullanılabilir hale getirir. Platform yazılı açıklamalardan nesne oluşturmak için metinden 3D'ye, fotoğrafları 3D modellere dönüştürmek için görselden 3D'ye ve mevcut dokusuz mesh'lere gerçekçi malzemeler uygulamak için AI doku kaplama dahil birden fazla üretim modu sunar. Üretilen modeller uygun UV haritalama, normal haritalar ve profesyonel iş akışlarına uygun fiziksel tabanlı render malzemeleri içerir. Meshy hem web tabanlı arayüz hem de programatik erişim için API sağlayarak bireysel sanatçılar için erişilebilir ve kurumsal süreçler için ölçeklenebilir bir yapı sunar. Platform özellikle büyük hacimde 3D varlık üretmesi gereken oyun geliştiricileri, animasyon stüdyoları ve AR/VR içerik üreticileri arasında popülerdir. 2023'te piyasaya sürülen tescilli bir ticari hizmet olarak Meshy sınırlı üretimler için ücretsiz katman erişimi olan bir abonelik modeliyle çalışır. Platform çıktı kalitesini, topoloji optimizasyonunu ve doku sadakatini iyileştirmek için modellerini sürekli güncellemekte ve hızla gelişen AI 3D üretim pazarındaki diğer hizmetlerle doğrudan rekabet etmektedir.
Meshy v4
Meshy v4, Meshy AI'ın metin açıklamalarından ve görsellerden dakikalar içinde detaylı, dokulu 3D modeller oluşturabilen 3D model üretim platformunun dördüncü neslidir. 2024'ün sonlarında yayınlanan Meshy v4, önceki sürümlere göre mesh kalitesi, doku sadakati ve topoloji optimizasyonunda büyük bir yükseltmeyi temsil eder. Model, oyun motorları, animasyon boru hatları ve 3D baskı için uygun temiz topolojiye sahip üretime hazır 3D varlıklar üretir. Hem metinden 3D'ye hem de görselden 3D'ye üretim iş akışlarını destekler. Platform, difüz, normal, pürüzlülük ve metalik haritalar dahil PBR malzemelerle dokulu mesh'ler üreterek çıktıları Unity, Unreal Engine ve Blender ile hemen uyumlu hale getirir. GLB, OBJ, FBX ve STL dahil birden fazla formatta dışa aktarım destekler. Meshy v4, geliştirilmiş detay koruma, ince yapılar ve karmaşık geometrilerin daha iyi işlenmesi ve daha doğru renk ve doku eşleme özelliklerine sahiptir. Platform oyun geliştiricileri, 3D sanatçılar, mimarlar ve ürün tasarımcılarına hizmet eder. Freemium model sınırlı ücretsiz üretim sunar.