OpenLRM, TripoSR ve InstantMesh arasindaki iliski nedir?

OpenLRM, tek goruntuden 3D yeniden yapilandirma icin Buyuk Yeniden Yapilandirma Modeli (LRM) mimarisinin temel acik kaynak uygulamasini saglar. Stability AI ve Tripo AI tarafindan gelistirilen TripoSR, LRM mimarisini hiz optimizasyonlariyla gelistirerek bir saniyenin altinda uretim elde eder. Tencent'ten InstantMesh, konsepti daha yuksek kaliteli cikti icin coklu gorunum uretimi ve FlexiCubes cikarimi ile genisletir. Hem TripoSR hem de InstantMesh tasarimlarinda OpenLRM ve LRM mimarisini temel etkiler olarak kabul eder.

OpenLRM 3D modelleri ne kadar hizli olusturur?

OpenLRM, kullanilan model boyutu ve GPU donanimina bagli olarak yaklasik 5-15 saniyede ileri beslemeli cikarim araciligiyla 3D modeller olusturur. Bu, nesne basina saatler surabilen DreamFusion gibi optimizasyon tabanli yontemlerden cok daha hizlidir. Ancak OpenLRM orijinal LRM uygulamasini sonraki modellerde uygulanan hiz optimizasyonlari olmadan temsil ettiginden TripoSR'nin bir saniyenin altindaki uretiminden biraz daha yavasit. Odunlesme, OpenLRM'nin arastirma icin uygun temiz, iyi belgelenmis bir kod tabani saglamasidir.

OpenLRM ticari olarak kullanilabilir mi?

Evet, OpenLRM lisans ucreti olmadan kisitlamasiz ticari kullanim, degisiklik ve dagitima izin veren Apache 2.0 lisansi altinda yayimlanmistir. OpenLRM'yi ticari urunler icin 3D varliklar olusturmak, modele dayali ticari hizmetler kurmak ve tescilli turev eserler olusturmak icin kullanabilirsiniz. Acik egitim kodu ayrica uzmanlasmis ticari uygulamalar icin ozel veriler uzerinde ozel modeller egitmeyi de mumkun kilar.

OpenLRM hangi donanimi gerektirir?

OpenLRM, daha kucuk model varyantlariyla cikarim icin en az 8-12GB VRAM'li ve daha buyuk modeller icin 16-24GB VRAM'li bir GPU gerektirir. NVIDIA RTX 3080 veya esdeger GPU'lar standart kullanim icin iyi performans saglar. Modeli sifirdan egitmek onemli olcude daha fazla kaynak gerektirir ve tipik olarak yuksek bellekli GPU'larla coklu GPU kurulumlarini ister. Hugging Face'teki onceden egitilmis kontrol noktalari egitim gereksinimi olmadan hemen cikarim kullanimina olanak tanir.

OpenLRM hangi cikti formatlarini destekler?

OpenLRM, iki sekilde kullanilabilen uc duzlem-NeRF temsilleri olusturur. Birincisi, yeniden yapilandirilan nesnenin yeni gorunum goruntuleri uretmek icin uc duzlem hacimsel isitma icin sorgulanabilir. Ikincisi, yuruyus kupleri araciligiyla mesh cikarimi uc duzlem temsilini standart 3D formatlarda disari aktarilabilen poligonal mesh'e donusturur. Mesh ciktisi 3D yazilim, oyun motorlari ve diger standart 3D is akislarinda kullanim icin uygundur.

OpenLRM farkli giris goruntu turlerini nasil isler?

OpenLRM, konunun acikca gorunur ve iyi aydinlatilmis oldugu tek nesneli goruntularle en iyi sekilde calisir. Vizyon Transformer kodlayicisi, fotograflar, render'lar ve sanat eserleri dahil cesitli goruntu turleri arasinda saglam ozellik cikarimi saglar. Temiz arka plana sahip goruntular karmasik sahnelere gore daha iyi sonuclar uretir. Model, farkli nesne kategorileri arasinda makul olcude genelSer ancak performans, nesne kategorisinin egitim verilerinde ne kadar iyi temsil edildigine bagli olarak degisebilir.

OpenLRM

Açık Kaynak

4.1

Zexiang Xu

OpenLRM, Zexiang Xu ve işbirlikçileri tarafından geliştirilen, tek görselden 3D rekonstrüksiyon için Büyük Rekonstrüksiyon Modeli mimarisinin açık kaynak bir uygulamasıdır. Proje, tek giriş görsellerinden ileri beslemeli bir şekilde 3D temsiller tahmin etmek için transformer tabanlı mimari kullanan LRM yaklaşımının tamamen açık ve tekrarlanabilir bir uygulamasını sunar. OpenLRM bir giriş görselini DINOv2 gibi önceden eğitilmiş bir vizyon kodlayıcı aracılığıyla işler, ardından elde edilen özellikleri üç düzlem tabanlı sinirsel ışıma alanı temsili üreten bir transformer kod çözücüye besler ve bu temsil yeni bakış açılarından render edilebilir veya dokulu bir 3D mesh'e dönüştürülebilir. Tüm rekonstrüksiyon modern bir GPU'da yalnızca birkaç saniye sürer ve bu da onu etkileşimli uygulamalar ve toplu işleme iş akışları için pratik kılar. Aralık 2023'te Apache 2.0 lisansı altında yayınlanan OpenLRM, araştırmacıların inceleyebileceği, değiştirebileceği ve üzerine inşa edebileceği erişilebilir bir referans uygulama sağlayarak 3D AI araştırma topluluğundaki kritik bir boşluğu doldurur. Model çeşitli çıktı formatlarını destekler ve oyun geliştirmeden e-ticaret ürün görselleştirmesine kadar uzanan uygulamalar için mevcut 3D süreçlere entegre edilebilir. OpenLRM mobilya, araçlar, karakterler ve günlük eşyalar dahil çeşitli nesne kategorilerini makul geometrik sadakatle işler. Önceden eğitilmiş model ağırlıkları anında kullanım için Hugging Face üzerinde mevcuttur. İleri beslemeli 3D rekonstrüksiyondaki temel açık kaynak projelerden biri olarak OpenLRM, hızla gelişen tek görselden 3D üretim alanındaki birçok alt projeyi ve araştırma çalışmasını doğrudan etkilemiş ve mümkün kılmıştır.

Metinden 3D

Görselden 3D

Siteyi Ziyaret Et

Öne Çıkan Özellikler

Temel LRM Mimarisi

TripoSR ve InstantMesh dahil sonraki modelleri etkileyen Buyuk Yeniden Yapilandirma Modeli mimarisinin acik kaynak referans uygulamasi

Uc Duzlem-NeRF 3D Temsili

3D geometri ve gorunumu kodlamak icin eksene hizalanmis uc ozellik duzlemi kullanir; kompakt bir temsilden hem hacimsel isitma hem de mesh cikarimina olanak tanir

Vizyon Transformer Kodlamasi

Saglam gorsel ozellik cikarimi icin onceden egitilmis Vizyon Transformer (ViT) kodlayicilarindan yararlanir; cesitli giris goruntu turleri arasinda guclu genelleme saglar

Tekrarlanabilir Acik Arastirma

Onceden egitilmis kontrol noktalariyla tamamen tekrarlanabilir egitim ve cikarim kodu saglar; arastirma toplulugunun LRM paradigmasini gelistirmesine olanak tanir

Hakkında

OpenLRM, Zexiang Xu ve işbirlikleri tarafından geliştirilen, tek görüntüden 3D yeniden yapılandırma için Büyük Yeniden Yapılandırma Modeli (LRM) mimarisinin açık kaynaklı bir uygulamasıdır. Proje, üç düzlem sinirsel ışıma alanı temsili aracılığıyla tek görüntülerden 3D nesneleri yeniden yapılandırmak için transformer tabanlı bir mimari kullanan LRM yaklaşımının tamamen açık ve tekrarlanabilir bir uygulamasını sağlar. LRM paradigmasının demokratikleşmesinde kilit bir rol oynayan OpenLRM, sonraki birçok 3D yeniden yapılandırma modelinin temelini oluşturmuştur.

LRM mimarisi, görsel özellikleri çıkarmak için bir giriş görüntüsünü önceden eğitilmiş bir vizyon transformer (ViT) kodlayıcısı aracılığıyla işler, ardından 3D nesnenin üç düzlem temsilini tahmin etmek için bir transformer kod çözücü kullanır. Bu üç düzlem temsili, nesnenin geometrisini ve görünümünü kodlayan eksene hizalanmış üç özellik düzleminden oluşur. Üç düzlem, herhangi bir 3D noktada yoğunluk ve renk değerleri elde etmek için sorgulanabilir ve hem hacimsel ışıtmayı hem de yürüyüş küpleri aracılığıyla mesh çıkarılmasını mümkün kılar. DINO ve DINOv2 tabanlı vizyon kodlayıcıları, giriş görüntüsünden güçlü semantik özellikler çıkararak yeniden yapılandırma doğruluğunu artırır ve modelin farklı nesne türleri arasında tutarlı sonuçlar üretmesini sağlar.

OpenLRM'nin önemi, güçlü bir 3D yeniden yapılandırma paradigmasının açık uygulamasında yatmaktadır. Orijinal LRM makalesi mimariyi tanımlasa da OpenLRM, önceden eğitilmiş ağırlıklar, eğitim kodu ve çıkarım betikleri sağlayarak yaklaşımı daha geniş araştırma ve geliştirme topluluğunun erişimine açmıştır. Bu durum, çok sayıda alt proje ve araştırma çabasının LRM temeli üzerine inşa etmesini sağlamıştır. Proje, farklı ölçeklerde birden fazla model varyantı sunarak, kullanıcıların hız ile kalite arasındaki dengeyi kendi ihtiyaçlarına göre ayarlamasına olanak tanır ve bu esneklik hem araştırma hem de üretim ortamlarında değer sağlar.

Model hem metinden 3D hem de görüntüden 3D iş akışlarını destekler, ancak görüntüden 3D birincil kullanım durumudur. İleri beslemeli çıkarım, optimizasyon tabanlı yöntemlerin gerektirdiği dakikalar veya saatler yerine saniyeler içinde üretim sağlar. Çıktı üç düzlem temsili, yeni görünümler olarak ışıtılabilir veya standart 3D uygulamalarda kullanım için dokulu bir 3D mesh olarak çıkarılabilir. Modelin transformer tabanlı mimarisi, giriş görüntüsündeki global bağlam bilgisini etkili bir şekilde yakalayarak, kısmi görünümlerden bile tutarlı 3D yeniden yapılandırma sağlar ve nesnenin görülmeyen kısımlarını mantıklı şekilde tamamlar.

Eğitim altyapısı açısından OpenLRM, Objaverse ve Objaverse-XL veri kümeleri üzerinde eğitilmiştir ve çeşitli nesne kategorilerinde genelleme kapasitesi gösterir. Proje, eğitim sürecinin tamamını açık kaynak olarak sunarak, araştırmacıların kendi veri kümeleri üzerinde modeli yeniden eğitmesine veya ince ayar yapmasına olanak tanır. Bu şeffaflık, akademik araştırmada tekrarlanabilirlik standartlarını yükseltmiş ve topluluk genelinde hızlı iterasyonu kolaylaştırmıştır.

Apache 2.0 lisansı altında yayımlanan OpenLRM, araştırma ve ticari uygulamalar için serbestçe mevcuttur. Proje, birden fazla ölçekte önceden eğitilmiş model kontrol noktalarıyla Hugging Face'te barındırılmaktadır. OpenLRM, LRM mimari kalıbını geliştiren ve iyileştiren TripoSR ve InstantMesh dahil sonraki birçok 3D yeniden yapılandırma modeli için temel oluşturmuştur ve alan için vazgeçilmez bir referans uygulaması olmaya devam etmektedir.

Topluluk katkıları ve entegrasyon açısından OpenLRM, açık kaynak yapısı sayesinde hızla büyüyen bir ekosistem oluşturmuştur. Hugging Face üzerindeki model deposu, araştırmacıların önceden eğitilmiş ağırlıklara kolay erişimini sağlamaktadır. Pratik uygulamalarda, mimari görselleştirme firmalarının bina cephesi fotoğraflarından 3D modeller üretmesi, kültürel miras projelerinde tarihi eserlerin dijitalleştirilmesi ve eğitim materyallerinde interaktif 3D içerik oluşturulması gibi kullanım senaryoları öne çıkmaktadır. Python ve PyTorch ekosistemiyle tam uyumluluk, mevcut derin öğrenme iş akışlarına sorunsuz entegrasyonu mümkün kılmaktadır.

Kullanım Senaryoları

3D Yeniden Yapilandirma Arastirmasi

Ileri beslemeli 3D yeniden yapilandirma alanindaki akademik arastirmalar icin temel cizgi ve baslangic noktasi olarak hizmet eder; karsilastirma calismalari icin tekrarlanabilir sonuclar saglar

Ozel Model Gelistirme

Alana ozel veri kumeleri uzerinde ince ayar yapilmis uzmanlasmis 3D yeniden yapilandirma modelleri gelistirmek icin OpenLRM'nin mimarisi ve egitim kodunu temel olarak kullanin

Hizli 3D Varlik Uretimi

Hizli donusum gerektiren prototipleme, gorselestirme ve icerik olusturma is akislari icin referans goruntularinden hizla 3D modeller uretin

Hat Bileseni Entegrasyonu

Goruntu uretim ve son isleme araclariyla birlikte daha buyuk icerik olusturma veya isleme hatlarinda 3D yeniden yapilandirma bileseni olarak entegre edin

Artılar ve Eksiler

Artılar

Tek görüntüden 3D rekonstrüksiyon yapabilen açık kaynak model
Large Reconstruction Model konseptinin açık implementasyonu
Transformer tabanlı verimli mimari
Araştırma ve prototipleme için ücretsiz kullanım

Eksiler

Üretim kalitesi ticari çözümlerden düşük
Sınırlı çözünürlük ve detay seviyesi
Görünmeyen açılardan geometri tahmininde hatalar
Belgelendirme ve topluluk desteği sınırlı

Teknik Detaylar

Parametre

N/A

Lisans

Apache 2.0

Özellikler

Single Image to 3D Reconstruction
Large Reconstruction Model Architecture
Triplane-NeRF Representation
Fast Feed-Forward Inference
Open-Source Apache 2.0
Multiple çözünürlük destek
Mesh dışa aktarma Capability
Hugging Face entegrasyon

Benchmark Sonuçları

Metrik	Değer	Karşılaştırma	Kaynak
Novel View PSNR	21.0 dB (GSO)	InstantMesh: 22.2 dB	GitHub 3DTopia/OpenLRM
SSIM (GSO)	0.856	InstantMesh: 0.880	GitHub 3DTopia/OpenLRM
Üretim Süresi	~5 saniye	—	GitHub 3DTopia/OpenLRM
Parametre Sayısı	~300M	—	Hugging Face Model Card

Mevcut Platformlar

hugging face

replicate

Sıkça Sorulan Sorular

İlgili Modeller

TripoSR

Stability AI & Tripo|N/A

TripoSR, Stability AI ve Tripo AI tarafından ortaklaşa geliştirilen, tek giriş görsellerinden bir saniyeden kısa sürede detaylı 3D mesh'ler üreten hızlı bir ileri beslemeli 3D rekonstrüksiyon modelidir. Nesne başına dakikalar süren optimizasyon tabanlı yöntemlerin aksine, TripoSR Büyük Rekonstrüksiyon Modeli çerçevesi üzerine inşa edilmiş transformer tabanlı mimarisi sayesinde tek bir 2D fotoğraftan 3D geometriyi doğrudan tahmin eder. Model herhangi bir standart görseli girdi olarak kabul eder ve oyun motorları, 3D modelleme yazılımları ve artırılmış gerçeklik uygulamalarında kullanıma uygun dokulu 3D mesh üretir. Günlük nesneleri, mobilyaları, araçları, karakterleri ve organik şekilleri etkileyici geometrik doğruluk ve yüzey detayıyla yeniden yapılandırmada üstün performans gösterir. Mart 2024'te MIT lisansı altında yayınlanan model tamamen açık kaynaklıdır ve özel donanım gerektirmeden tüketici sınıfı GPU'larda çalışabilir. Birden fazla görselin verimli dönüşümü için toplu işleme desteği sunar ve Blender, Unity ile Unreal Engine dahil popüler 3D iş akışlarıyla sorunsuz entegre olur. Ürün fotoğraflarından hızlı 3D varlık oluşturmaya ihtiyaç duyan oyun geliştiricileri, ürün tasarımcıları ve e-ticaret ekipleri için özellikle değerlidir. Çıktı mesh'leri yapılandırılabilir çözünürlük ayarlarıyla OBJ ve GLB formatlarında dışa aktarılabilir. DINOv2 vizyon kodlayıcısı giriş görselinden zengin semantik ve yapısal özellikler çıkararak rekonstrüksiyon kalitesini artırır. TripoSR pahalı tarama ekipmanı veya manuel modelleme uzmanlığı gerektirmeden yüksek kaliteli rekonstrüksiyonu erişilebilir kılarak 3D içerik üretiminin demokratikleşmesinde önemli bir adımı temsil eder.

Açık Kaynak

4.5

TRELLIS

Microsoft Research|Unknown

TRELLIS, Microsoft Research tarafından geliştirilen ve yeni bir Structured Latent Diffusion mimarisi kullanarak metin açıklamalarından veya tek 2D görüntülerden yüksek kaliteli 3D varlıklar üreten devrim niteliğinde bir AI modelidir. Aralık 2024'te yayınlanan TRELLIS, geometri, doku ve malzeme özelliklerini ayrı aşamalar olarak ele almak yerine eşzamanlı olarak kodlayan yapılandırılmış bir gizli uzayda çalışarak 3D içerik üretiminde temel bir ilerlemeyi temsil eder. Model, detaylı PBR (Fiziksel Tabanlı Render) dokularıyla eksiksiz 3D mesh'ler üretir ve kapsamlı manuel son işleme olmadan oyun motorları, 3D render boru hatları ve AR/VR uygulamalarında doğrudan kullanımı mümkün kılar. TRELLIS, kullanıcıların istenen nesneleri doğal dilde tanımladığı metinden 3D üretimini ve tek bir fotoğrafın kapalı bakış açılarından çıkarılan geometriyle tam 3D modele dönüştürüldüğü görüntüden 3D rekonstrüksiyonu destekler. Yapılandırılmış gizli temsil, geometrik tutarlılığı sağlar ve havada kalan geometri, doku dikişleri ve gerçekçi olmayan oranlar gibi diğer 3D üretim yaklaşımlarında görülen yaygın artefaktları önler. TRELLIS, UV haritalı dokularla GLB ve OBJ dahil standart 3D formatlarında çıktı üretir ve Blender, Unity, Unreal Engine gibi profesyonel araçlarla entegrasyonu kolaylaştırır. MIT lisansı altında tamamen açık kaynaklıdır. Temel uygulamalar arasında oyun geliştirme için hızlı 3D varlık prototipleme, mimari görselleştirme, ürün tasarım modelleri ve metaverse varlık üretimi yer alır.

Açık Kaynak

4.5

Meshy

Meshy AI|N/A

Meshy, Meshy AI tarafından geliştirilen, metin açıklamalarından ve görsellerden detaylı, üretime hazır 3D modeller oluşturan tescilli bir AI destekli 3D üretim platformudur. Platform metinden 3D'ye ve görselden 3D'ye yetenekleri gelişmiş AI doku kaplama özellikleriyle birleştirerek hızlı 3D içerik üretimi için kapsamlı bir çözüm sunar. Meshy, PBR uyumlu malzemelerle dokulu 3D mesh'ler üreten transformer tabanlı bir mimari kullanır ve çıktıları ek işlem gerektirmeden Unity ve Unreal Engine gibi oyun motorlarında doğrudan kullanılabilir hale getirir. Platform yazılı açıklamalardan nesne oluşturmak için metinden 3D'ye, fotoğrafları 3D modellere dönüştürmek için görselden 3D'ye ve mevcut dokusuz mesh'lere gerçekçi malzemeler uygulamak için AI doku kaplama dahil birden fazla üretim modu sunar. Üretilen modeller uygun UV haritalama, normal haritalar ve profesyonel iş akışlarına uygun fiziksel tabanlı render malzemeleri içerir. Meshy hem web tabanlı arayüz hem de programatik erişim için API sağlayarak bireysel sanatçılar için erişilebilir ve kurumsal süreçler için ölçeklenebilir bir yapı sunar. Platform özellikle büyük hacimde 3D varlık üretmesi gereken oyun geliştiricileri, animasyon stüdyoları ve AR/VR içerik üreticileri arasında popülerdir. 2023'te piyasaya sürülen tescilli bir ticari hizmet olarak Meshy sınırlı üretimler için ücretsiz katman erişimi olan bir abonelik modeliyle çalışır. Platform çıktı kalitesini, topoloji optimizasyonunu ve doku sadakatini iyileştirmek için modellerini sürekli güncellemekte ve hızla gelişen AI 3D üretim pazarındaki diğer hizmetlerle doğrudan rekabet etmektedir.

Tescilli

4.4

Meshy v4

Meshy AI|undisclosed

Meshy v4, Meshy AI'ın metin açıklamalarından ve görsellerden dakikalar içinde detaylı, dokulu 3D modeller oluşturabilen 3D model üretim platformunun dördüncü neslidir. 2024'ün sonlarında yayınlanan Meshy v4, önceki sürümlere göre mesh kalitesi, doku sadakati ve topoloji optimizasyonunda büyük bir yükseltmeyi temsil eder. Model, oyun motorları, animasyon boru hatları ve 3D baskı için uygun temiz topolojiye sahip üretime hazır 3D varlıklar üretir. Hem metinden 3D'ye hem de görselden 3D'ye üretim iş akışlarını destekler. Platform, difüz, normal, pürüzlülük ve metalik haritalar dahil PBR malzemelerle dokulu mesh'ler üreterek çıktıları Unity, Unreal Engine ve Blender ile hemen uyumlu hale getirir. GLB, OBJ, FBX ve STL dahil birden fazla formatta dışa aktarım destekler. Meshy v4, geliştirilmiş detay koruma, ince yapılar ve karmaşık geometrilerin daha iyi işlenmesi ve daha doğru renk ve doku eşleme özelliklerine sahiptir. Platform oyun geliştiricileri, 3D sanatçılar, mimarlar ve ürün tasarımcılarına hizmet eder. Freemium model sınırlı ücretsiz üretim sunar.

Tescilli

4.5

Hızlı Bilgi

ParametreN/A

Tiptransformer

LisansApache 2.0

Yayınlanma2023-12

Puan4.1 / 5

GeliştiriciZexiang Xu

Bağlantılar

Resmi Site GitHub HuggingFace

Etiketler

openlrm

reconstruction

text-to-3d

Siteyi Ziyaret Et

Daha Fazla Kesfet

Tum Metinden 3D Modelleri

Kategoriyi incele

AI ile 3D Modelleme: Metinden Objeye

Rehberi oku

AI 3D Modelleme Başlangıç Rehberi

Rehberi oku

AI ile 3D Modelleme: 2026 Kapsamlı Rehber

Yaziyi oku

AI 3D Modelleme Trendleri: Metin ile 3D Nesne Üretmek Artık Mümkün

Yaziyi oku

Tum AI Modelleri

Tum modelleri incele