LGM
LGM (Large Gaussian Model), Pekin Üniversitesi araştırmacıları tarafından geliştirilen, tek görsellerden veya metin komutlarından yaklaşık beş saniyede 3D Gaussian Splatting temsili kullanarak yüksek kaliteli 3D nesneler üreten bir 3D üretim modelidir. 2024'te MIT lisansı altında yayınlanan LGM, çoklu görünüm görsel üretimini Gaussian tabanlı 3D rekonstrüksiyonla uçtan uca bir çerçevede birleştirir. Model önce çoklu görünüm difüzyon omurgası kullanarak hedef nesnenin birden fazla tutarlı görünümünü üretir, ardından U-Net tabanlı bir Gaussian kod çözücü bu görünümlerden tam 3D temsili oluşturmak için 3D Gaussian parametrelerini tahmin eder. Mesh tabanlı yaklaşımların aksine Gaussian Splatting çıktısı doğru aydınlatma, şeffaflık ve yansıtıcı yüzey efektleri dahil yüksek görsel kaliteyle gerçek zamanlı render imkanı sağlar. LGM üretilen görünümler için 512 piksele kadar çözünürlük destekler ve temiz geometri ile canlı dokularla detaylı 3D içerik üretir. Model hem fotoğraflardan görselden 3D'ye dönüşüm hem de ön uç olarak metinden görsele modeliyle eşleştirildiğinde metinden 3D'ye üretim için kullanılabilir. Kod ve önceden eğitilmiş ağırlıkları GitHub üzerinde mevcut olan açık kaynak bir proje olarak LGM hem akademik çalışma hem de pratik uygulamalar için araştırmacılara ve geliştiricilere açıktır. Model özellikle etkileşimli 3D görselleştirme, sanal gerçeklik içeriği, oyun varlığı prototipleme ve üretilen 3D içeriğin gerçek zamanlı render edilmesinin gerektiği senaryolar için uygundur. LGM Gaussian Splatting'in AI üretimli 3D içerik için geleneksel mesh temsillerine cazip bir alternatif sunduğunu göstermektedir.
Öne Çıkan Özellikler
5 Saniyelik Gaussian Splatting Uretimi
Tek goruntulardan yaklasik 5 saniyede eksiksiz 3D Gaussian Splatting temsilleri olusturur; hizi yuksek gorsel kalite ciktisiyla dengeler
Gercek Zamanli Isitilabilir Cikti
Sinir agi cikarimi olmadan herhangi bir bakis acisindan gercek zamanli isitmAyi mumkun kilan 3D Gaussian temsilleri uretir; etkilesimli 3D uygulamalar icin uygun
Coklu Gorunum Tutarliligi
Yeniden yapilandirmadan once dort tutarli ortogonal gorunum olusturur; saglam 3D sekil kurtarma icin birden fazla perspektiften dogru geometri saglar
Cift Cikti: Gaussian'lar ve Mesh'ler
Gercek zamanli isitma icin 3D Gaussian Splatting formati ve geleneksel 3D is akisi uyumlulugu icin mesh cikarma boru hattini destekler
Hakkında
LGM (Büyük Gaussian Modeli), 3D Gaussian Splatting temsili kullanarak tek görüntülerden yaklaşık 5 saniyede 3D nesneler oluşturan, Pekin Üniversitesi'ndeki araştırmacılar tarafından geliştirilen bir 3D üretim modelidir. 2024'te yayımlanan LGM, Gaussian splatting ışıtleyicileri kullanılarak gerçek zamanlı ışıtılabilen yüksek kaliteli 3D varlıklar üretmek için çoklu görünüm görüntü üretimini Gaussian tabanlı 3D yeniden yapılandırmayla birleştirir. Model, Gaussian Splatting'in 3D üretim boru hatlarına başarılı entegrasyonunu gösteren ilk çalışmalardan biri olarak alanda öncü bir rol üstlenmiştir.
Model iki aşamalı bir boru hattı aracılığıyla çalışır. İlk olarak, çoklu görünüm difüzyon modeli giriş görüntüsünden nesnenin dört tutarlı ortogonal görünümünü oluşturur. Bu dört görünüm daha sonra nesnenin geometrisini, görünümünü ve saydamlığını temsil eden bir 3D Gaussian kümesi tahmin eden Büyük Gaussian Modeli tarafından işlenir. Ortaya çıkan Gaussian temsili, splatting tabanlı ışıtleyiciler kullanılarak herhangi bir bakış açısından gerçek zamanlı olarak ışıtılabilir. Asimetrik U-Net mimarisi, çoklu görünüm görüntülerinden doğrudan Gaussian parametrelerini regresyon yapar ve bu sayede ek optimizasyon adımı gerektirmeden hızlı çıkarım sağlar. Her bir Gaussian elemanı, 3D uzaydaki konumunu, ölçeğini, yönelimini ve renk bilgisini kodlar.
LGM'nin çıktı temsili olarak 3D Gaussian Splatting kullanımı birçok avantaj sunar. Gaussian splatting, sinirsel ışıma alanlarının hesaplama yükü olmadan gerçek zamanlı ışıtmayı mümkün kılar ve oluşturulan varlıkların etkileşimli 3D uygulamalarda hemen kullanılabilir olmasını sağlar. Temsil doğal olarak speküler parlaklıklar ve saydamlık gibi görüme bağlı efektleri işler ve fotorealistik görselleştirme sağlar. Geleneksel mesh formatı gerektiren uygulamalar için LGM, Gaussian temsilini dokulu poligonal mesh'lere dönüştüren bir mesh çıkarma boru hattı içerir. Bu çift çıktı esnekliği, modeli hem etkileşimli görselleştirme hem de geleneksel 3D iş akışları için uygun hale getirir.
Modelin 5 saniyelik üretim süresi hız ve kalite arasında mükemmel bir denge temsil eder. TripoSR kadar hızlı olmasa da (bir saniyenin altında) LGM tipik olarak özellikle görünüm tutarlılığı ve yüzey detayı açısından daha yüksek görsel kaliteli çıktı üretir. Üretim süresi, daha yavaş optimizasyon tabanlı yöntemlerle rekabetçi sonuçlar sunarken etkileşimli iş akışları için yeterince hızlıdır. Gaussian başına konum, ölçek, rotasyon, opaklık ve küresel harmonik katsayıları dahil parametreler öğrenilir ve bu zengin parametre seti detaylı görünüm modellemesi sağlar.
LGM, Objaverse veri kümesi üzerinde eğitilmiştir ve 512x512 çözünürlükte giriş görüntülerini işler. Model, düzgün yüzeylere sahip nesnelerde özellikle iyi performans gösterirken, çok ince geometrik detaylar veya karmaşık iç yapılar içeren nesnelerde sınırlamalar gösterebilir. Çıktıdaki Gaussian sayısı ve dağılımı, geometri karmaşıklığına göre otomatik olarak ayarlanır ve tipik olarak nesne başına binlerce Gaussian elemanı kullanılır.
MIT lisansı altında yayımlanan LGM, GitHub'da mevcut kod ve önceden eğitilmiş ağırlıklarla tamamen açık kaynaklıdır. Model, Gaussian splatting'in 3D üretim modelleri için çıktı formatı olarak uygulanabilirliğini göstermede etkili olmuş ve Gaussian tabanlı 3D araçlar ve uygulamaların büyüyen ekosistemine katkıda bulunmuştur. Araştırma topluluğu, LGM'nin yaklaşımını temel alarak daha yüksek çözünürlüklü ve daha detaylı Gaussian tabanlı 3D üretim yöntemleri geliştirmeye devam etmektedir.
Uygulama alanları açısından LGM, özellikle gerçek zamanlı 3D içerik üretimi gerektiren interaktif uygulamalarda öne çıkmaktadır. Sanal gerçeklik deneyimleri, oyun içi dinamik nesne üretimi ve canlı 3D önizleme sistemleri gibi senaryolarda modelin hız avantajı belirleyici bir faktör olmaktadır. Topluluk benimsenmesi açısından, araştırmacılar LGM'nin Gaussian tabanlı yaklaşımını çeşitli downstream görevlere uyarlamıştır. WebGL ve Three.js tabanlı uygulamalarla entegrasyon, tarayıcı üzerinden erişilebilir 3D deneyimler sunulmasına olanak tanımaktadır.
Kullanım Senaryoları
Etkilesimli 3D Web Deneyimleri
Gercek zamanli isitlenen web tabanli 3D gostergeleri icin Gaussian splatting varliklari olusturun; etkilesimli urun vitrinleri ve sanal galeriler yapin
Hizli 3D Varlik Prototipleme
Tasarim incelemesi, musteri sunumlari ve yinelemeli yaratici gelistirme sureleri icin konsept goruntularinden sanyeler icinde 3D prototipler olusturun
Gercek Zamanli 3D Uygulamalar
Olusturulan Gaussian varliklarini AR deneyimleri, etkilesimli demolar ve mekansal bilgi islem ortamlari dahil gercek zamanli uygulamalara besleyin
3D Icerik Hatti Entegrasyonu
Goruntulerin kataloglar, envanterler ve dijital ikiz olusturma icin olcekte 3D varliklara donusturuldugu otomatik icerik hatlarina entegre edin
Artılar ve Eksiler
Artılar
- 5 saniye içinde 512x512 çözünürlükte 65.536'ya kadar Gaussian ile görsel veya metinden 3D nesne üretir
- ECCV 2024 Sözlü sunum — DreamGaussian ve TriplaneGaussian'a kıyasla üstün görsel kalite sergiler
- Önceki görseldan-3D yöntemlerinde yaygın olan bulanık arka görünümler ve düz geometriyi etkili şekilde ele alır
- Gaussian Splatting temsili, triplane tabanlı NeRF'lerden daha ifade edici ve daha hızlı render edilir
- Hızlı 5 saniyelik üretim hızını korurken yüksek çözünürlüklü üretim (512x512) elde eder
Eksiler
- Çıktı kalitesi yukarı akış çok görünüm difüzyon modeli kalitesine bağlıdır — tutarsız girişler sonuçları bozar
- Alışılmadık veya sıra dışı nesneler için metin promptlarını etkili şekilde takip edemeyebilir
- Nesne merkezli sahnelerle sınırlı — tam sahne rekonstrüksiyonunu işleyemez
- Girdi olarak çok görünümlü görseller gerektirir, üretim ardışık düzeninde ayrı difüzyon modeline bağımlılık ekler
- Gaussian Splatting çıktısı standart 3D uygulamalarda kullanım için ek dönüşüm gerektirir
Teknik Detaylar
Parametre
N/A
Lisans
MIT
Özellikler
- Single Image to 3D Gaussian
- Ultra-Fast 5-Second Generation
- 3D Gaussian Splatting Output
- High-Quality Multi-View Synthesis
- Mesh Extraction Support
- Open-Source MIT License
- Peking University Research
- Real-Time 3D Rendering
Benchmark Sonuçları
| Metrik | Değer | Karşılaştırma | Kaynak |
|---|---|---|---|
| Üretim Süresi | ~5 saniye | InstantMesh: ~10 saniye | ECCV 2024 / arXiv 2402.05054 |
| Eğitim Çözünürlüğü | 512×512 px | OpenLRM: 256×256 | GitHub 3DTopia/LGM |
| Gaussian Sayısı | ~40K 3D Gaussian | — | ECCV 2024 Paper |
| Novel View PSNR | 21.5 dB (GSO) | InstantMesh: 22.2 dB | arXiv 2402.05054 |
Mevcut Platformlar
Sıkça Sorulan Sorular
İlgili Modeller
TripoSR
TripoSR, Stability AI ve Tripo AI tarafından ortaklaşa geliştirilen, tek giriş görsellerinden bir saniyeden kısa sürede detaylı 3D mesh'ler üreten hızlı bir ileri beslemeli 3D rekonstrüksiyon modelidir. Nesne başına dakikalar süren optimizasyon tabanlı yöntemlerin aksine, TripoSR Büyük Rekonstrüksiyon Modeli çerçevesi üzerine inşa edilmiş transformer tabanlı mimarisi sayesinde tek bir 2D fotoğraftan 3D geometriyi doğrudan tahmin eder. Model herhangi bir standart görseli girdi olarak kabul eder ve oyun motorları, 3D modelleme yazılımları ve artırılmış gerçeklik uygulamalarında kullanıma uygun dokulu 3D mesh üretir. Günlük nesneleri, mobilyaları, araçları, karakterleri ve organik şekilleri etkileyici geometrik doğruluk ve yüzey detayıyla yeniden yapılandırmada üstün performans gösterir. Mart 2024'te MIT lisansı altında yayınlanan model tamamen açık kaynaklıdır ve özel donanım gerektirmeden tüketici sınıfı GPU'larda çalışabilir. Birden fazla görselin verimli dönüşümü için toplu işleme desteği sunar ve Blender, Unity ile Unreal Engine dahil popüler 3D iş akışlarıyla sorunsuz entegre olur. Ürün fotoğraflarından hızlı 3D varlık oluşturmaya ihtiyaç duyan oyun geliştiricileri, ürün tasarımcıları ve e-ticaret ekipleri için özellikle değerlidir. Çıktı mesh'leri yapılandırılabilir çözünürlük ayarlarıyla OBJ ve GLB formatlarında dışa aktarılabilir. DINOv2 vizyon kodlayıcısı giriş görselinden zengin semantik ve yapısal özellikler çıkararak rekonstrüksiyon kalitesini artırır. TripoSR pahalı tarama ekipmanı veya manuel modelleme uzmanlığı gerektirmeden yüksek kaliteli rekonstrüksiyonu erişilebilir kılarak 3D içerik üretiminin demokratikleşmesinde önemli bir adımı temsil eder.
TRELLIS
TRELLIS, Microsoft Research tarafından geliştirilen ve yeni bir Structured Latent Diffusion mimarisi kullanarak metin açıklamalarından veya tek 2D görüntülerden yüksek kaliteli 3D varlıklar üreten devrim niteliğinde bir AI modelidir. Aralık 2024'te yayınlanan TRELLIS, geometri, doku ve malzeme özelliklerini ayrı aşamalar olarak ele almak yerine eşzamanlı olarak kodlayan yapılandırılmış bir gizli uzayda çalışarak 3D içerik üretiminde temel bir ilerlemeyi temsil eder. Model, detaylı PBR (Fiziksel Tabanlı Render) dokularıyla eksiksiz 3D mesh'ler üretir ve kapsamlı manuel son işleme olmadan oyun motorları, 3D render boru hatları ve AR/VR uygulamalarında doğrudan kullanımı mümkün kılar. TRELLIS, kullanıcıların istenen nesneleri doğal dilde tanımladığı metinden 3D üretimini ve tek bir fotoğrafın kapalı bakış açılarından çıkarılan geometriyle tam 3D modele dönüştürüldüğü görüntüden 3D rekonstrüksiyonu destekler. Yapılandırılmış gizli temsil, geometrik tutarlılığı sağlar ve havada kalan geometri, doku dikişleri ve gerçekçi olmayan oranlar gibi diğer 3D üretim yaklaşımlarında görülen yaygın artefaktları önler. TRELLIS, UV haritalı dokularla GLB ve OBJ dahil standart 3D formatlarında çıktı üretir ve Blender, Unity, Unreal Engine gibi profesyonel araçlarla entegrasyonu kolaylaştırır. MIT lisansı altında tamamen açık kaynaklıdır. Temel uygulamalar arasında oyun geliştirme için hızlı 3D varlık prototipleme, mimari görselleştirme, ürün tasarım modelleri ve metaverse varlık üretimi yer alır.
Meshy
Meshy, Meshy AI tarafından geliştirilen, metin açıklamalarından ve görsellerden detaylı, üretime hazır 3D modeller oluşturan tescilli bir AI destekli 3D üretim platformudur. Platform metinden 3D'ye ve görselden 3D'ye yetenekleri gelişmiş AI doku kaplama özellikleriyle birleştirerek hızlı 3D içerik üretimi için kapsamlı bir çözüm sunar. Meshy, PBR uyumlu malzemelerle dokulu 3D mesh'ler üreten transformer tabanlı bir mimari kullanır ve çıktıları ek işlem gerektirmeden Unity ve Unreal Engine gibi oyun motorlarında doğrudan kullanılabilir hale getirir. Platform yazılı açıklamalardan nesne oluşturmak için metinden 3D'ye, fotoğrafları 3D modellere dönüştürmek için görselden 3D'ye ve mevcut dokusuz mesh'lere gerçekçi malzemeler uygulamak için AI doku kaplama dahil birden fazla üretim modu sunar. Üretilen modeller uygun UV haritalama, normal haritalar ve profesyonel iş akışlarına uygun fiziksel tabanlı render malzemeleri içerir. Meshy hem web tabanlı arayüz hem de programatik erişim için API sağlayarak bireysel sanatçılar için erişilebilir ve kurumsal süreçler için ölçeklenebilir bir yapı sunar. Platform özellikle büyük hacimde 3D varlık üretmesi gereken oyun geliştiricileri, animasyon stüdyoları ve AR/VR içerik üreticileri arasında popülerdir. 2023'te piyasaya sürülen tescilli bir ticari hizmet olarak Meshy sınırlı üretimler için ücretsiz katman erişimi olan bir abonelik modeliyle çalışır. Platform çıktı kalitesini, topoloji optimizasyonunu ve doku sadakatini iyileştirmek için modellerini sürekli güncellemekte ve hızla gelişen AI 3D üretim pazarındaki diğer hizmetlerle doğrudan rekabet etmektedir.
InstantMesh
InstantMesh, Tencent tarafından geliştirilen, tek giriş görsellerinden çoklu görünüm üretimi ve seyrek görünüm rekonstrüksiyonu hattı aracılığıyla yüksek kaliteli dokulu 3D mesh'ler oluşturan ileri beslemeli bir 3D mesh üretim modelidir. Nisan 2024'te Apache 2.0 lisansı altında yayınlanan InstantMesh, tek görselden 3D rekonstrüksiyonda hem hız hem de kalite elde etmek için çoklu görünüm difüzyon modelini büyük bir rekonstrüksiyon modeliyle birleştirir. Hat önce ince ayarlı çoklu görünüm difüzyon modeli kullanarak giriş nesnesinin birden fazla tutarlı görünümünü üretir, ardından bu görünümleri üç düzlem sinirsel temsili tahmin eden transformer tabanlı bir rekonstrüksiyon ağına besler ve son olarak bu temsil dokulu bir mesh'e dönüştürülür. Bu iki aşamalı yaklaşım tek aşamalı yöntemlerden önemli ölçüde daha yüksek kaliteli sonuçlar üretirken üretim sürelerini yalnızca birkaç saniyede tutar. InstantMesh bir görsel üretim modeliyle birleştirildiğinde metinden 3D'ye iş akışlarını ve fotoğraflardan veya sanat eserlerinden doğrudan görselden 3D'ye dönüşümü destekler. Çıktı mesh'leri standart 3D yazılımlar ve oyun motorlarıyla uyumlu detaylı geometri ve doku haritaları içerir. Model karakterler, araçlar, mobilyalar ve organik şekiller dahil çok çeşitli nesne türlerini iyi geometrik sadakatle işler. Kod ve ağırlıkları GitHub ve Hugging Face üzerinde mevcut olan açık kaynak bir proje olarak InstantMesh, 3D varlık üretim hatları kuran geliştiriciler arasında popüler bir seçim haline gelmiştir. Özellikle hızlı geri dönüş ve makul kalitenin birlikte önemli olduğu oyun geliştirme, e-ticaret ürün görselleştirme ve hızlı prototipleme senaryoları için kullanışlıdır.