Ana SayfaModeller

AI Modelleri

Yaratıcı projeleriniz için en iyi AI modellerini keşfet, karşılaştır ve bul

Filtrele
150 model bulundu
Midjourney v6 icon

Midjourney v6

Midjourney|N/A

Midjourney v6, Midjourney Inc. tarafından geliştirilen ve karakteristik estetik kalitesi ve fotorealistik yetenekleriyle AI ile üretilmiş sanatta sektör lideri olarak kabul edilen en son büyük sürümdür. Yalnızca Discord ve Midjourney web arayüzü üzerinden erişilebilen v6, önceki sürümlere kıyasla prompt anlama, tutarlılık ve görsel kalitede önemli iyileştirmeler getirmiştir. Model, birçok kullanıcının ayırt edici sinematik kalite olarak nitelendirdiği aydınlatma, doku, kompozisyon ve atmosfere dikkat çekici özen gösteren görsel olarak çarpıcı görseller üretmede öne çıkar. Midjourney v6, fotorealistik renderda güçlü performans göstererek kontrollü karşılaştırmalarda sıklıkla profesyonel fotoğrafçılıktan ayırt edilemeyen sonuçlar elde eder. Karmaşık sanatsal yönergeleri iyi yönetir ve stil, atmosfer ve duygusal ton gibi nüanslı açıklamaları anlar. Model standart ve ham stiller, ölçeklendirme seçenekleri ve en-boy oranı özelleştirmesi dahil çeşitli çıktı modlarını destekler. Kamuya açık ağırlıkları olmayan kapalı kaynaklı tescilli bir model olmasına rağmen, tutarlı kalitesi ve kullanım kolaylığı onu en popüler ticari AI görsel üreticisi yapmıştır. Kreatif profesyoneller, illüstratörler, konsept sanatçıları, pazarlama ekipleri ve hobi sahipleri profesyonel portföy çalışmalarından sosyal medya içeriğine ve yaratıcı keşfe kadar her şey için Midjourney v6'ya güvenir. Abonelik tabanlı fiyatlandırma modeli, gündelik kullanıcılardan yüksek hacimli profesyonellere kadar farklı katmanlar sunar.

Tescilli
4.9
Sora icon

Sora

OpenAI|N/A

Sora, OpenAI'nın metin açıklamalarından, sabit görsellerden veya mevcut video girdilerinden bir dakikaya kadar gerçekçi ve yaratıcı video içeriği oluşturabilen çığır açıcı text-to-video üretim modelidir. Şubat 2024'te duyurulan Sora, olağanüstü zamansal tutarlılık ve görsel sadakatle fiziksel dünyayı hareket halinde anlama ve simüle etme konusunda benzeri görülmemiş bir yetenek sergileyerek video üretim yapay zekasında büyük bir ilerlemeyi temsil eder. Model, değişen sürelerde, çözünürlüklerde ve en boy oranlarında geniş bir video ve görsel veri kümesi üzerinde eğitilmiş bir difüzyon transformer olarak çalışır ve kırpma veya yeniden boyutlandırma olmadan birden fazla formatta içerik üretebilir. Sora; karmaşık kamera hareketleri, tutarlı görünümlere sahip birden fazla karakter, doğru aydınlatma ve yansımalarla detaylı ortamlar ve nesneler arasında fiziksel olarak makul etkileşimler içeren videolar üretebilir. Model, üretilen sahnelerde 3B tutarlılık, nesne kalıcılığı ve neden-sonuç ilişkilerini anlama konusunda ortaya çıkan yetenekler sergiler. Metinden videoya üretimin ötesinde Sora; görselden videoya animasyon, video uzatma, videodan videoya stil transferi ve sorunsuz geçişlerle birden fazla video segmentini birleştirme özelliklerini destekler. Model, fotorealistik görüntülerden animasyonlu içeriğe, mimari görselleştirmelerden soyut sanatsal kompozisyonlara kadar geniş bir yaratıcı stil yelpazesini yönetir. Tescilli bir model olan Sora, kullanım tabanlı fiyatlandırma ve içerik güvenliği filtrelemesiyle yalnızca OpenAI platformu üzerinden erişilebilir durumdadır. Model zaman zaman karmaşık fizik simülasyonlarında zorlanıp uzun dizilerde artefaktlar üretebilse de genel kalitesi ve çok yönlülüğü, onu video üretim yeteneği için bir referans noktası haline getirmiş ve dinamik görsel içerik oluşturmada yapay zekanın sınırlarını zorlamıştır.

Tescilli
4.9
DALL-E 3 icon

DALL-E 3

OpenAI|N/A

DALL-E 3, OpenAI tarafından geliştirilen en gelişmiş text-to-image üretim modelidir ve görsel oluşturma için sezgisel bir konuşma arayüzü sağlamak amacıyla ChatGPT ile derinlemesine entegre edilmiştir. Önceki sürümlerden farklı olarak DALL-E 3, metin promptlarındaki bağlamı ve nüansı doğal olarak anlar ve karmaşık prompt mühendisliği ihtiyacını ortadan kaldırır. Model, basit doğal dil açıklamalarından son derece detaylı ve doğru görseller üretebilir ve bu sayede AI görsel üretimini teknik uzmanlığı olmayan kullanıcılar için de erişilebilir kılar. Mimarisi, olağanüstü prompt sadakati sağlayan özel iyileştirmelerle difüzyon modeli prensipleri üzerine inşa edilmiştir; üretilen görseller kullanıcıların tanımladığı içeriğe yakından uyar. DALL-E 3, görseller içinde okunabilir metin oluşturma, uzamsal ilişkileri anlama ve karmaşık çok parçalı talimatları takip etme konularında üstün performans gösterir. Model, fotorealizmden illüstrasyona, karikatürden yağlı boya estetiğine kadar çeşitli sanatsal stilleri destekler. Güvenlik özellikleri model düzeyinde yerleşik olup içerik politikası uygulama ve C2PA köken standartları ile meta veri işaretleme içerir. DALL-E 3, ChatGPT Plus aboneliği ve OpenAI API üzerinden kullanılabilir ve bu sayede hem gündelik kullanıcılar hem de uygulama geliştiren yazılımcılar için uygundur. İçerik üreticileri, pazarlamacılar, eğitimciler ve ürün tasarımcıları sosyal medya grafikleri, sunum görselleri, eğitim materyalleri ve hızlı konsept keşfi için yaygın olarak kullanır.

Tescilli
4.7
FLUX.2 Ultra icon

FLUX.2 Ultra

Black Forest Labs|12B+

FLUX.2 Ultra, Black Forest Labs'in selefı FLUX.1'e kıyasla çözünürlük, prompt uyumu ve görsel kalitede önemli bir sıçrama sunan yeni nesil metinden görsele modelidir. Model, önceki FLUX modellerine göre 4 kata kadar yüksek çözünürlükte görseller üreterek profesyonel baskı ve büyük format görüntüleme uygulamaları için uygun yüksek detaylı çıktılar sağlar. FLUX.2 Ultra, önemli ölçüde geliştirilmiş prompt anlama yeteneğiyle mekansal ilişkiler, sayma doğruluğu ve nitelik bağlama dahil karmaşık çok öğeli açıklamaları önceki modellerin zorlandığı düzeyde doğru biçimde yorumlar. Mimari, FLUX.1 tarafından kurulan akış eşleştirme difüzyon transformer temeli üzerine inşa edilmiş olup eğitim metodolojisi ve model ölçeklendirmesindeki ilerlemeleri birleştirerek üstün üretim kalitesi elde eder. Metin oluşturma yetenekleri geliştirilmiş olup model, üretilen görsellerde okunaklı ve stilistik olarak uygun metin üretebilir; bu, metinden görsele üretimde süregelen bir zorluktur. Model, kalite kaybı olmadan birden fazla en boy oranında yerel üretimi destekler ve fotorealizmden illüstrasyona, konsept sanattan grafik tasarıma kadar çeşitli görsel stilleri tutarlı kaliteyle ele alır. FLUX.2 Ultra, Black Forest Labs'in API platformu aracılığıyla ve iş ortağı uygulamalarına entegre olarak tescilli bulut tabanlı hizmet şeklinde sunulur. Üretim hızı profesyonel iş akışları için optimize edilmiştir. Model, FLUX'un estetik kalite ve kompozisyon tutarlılığı konusundaki itibarını korurken yapay zeka görsel üretiminin detay ve çözünürlük açısından sınırlarını genişletir. Reklam görseli oluşturma, editöryal illüstrasyon, eğlence sektörü için konsept sanat ve mimari görselleştirme başlıca profesyonel uygulamaları arasındadır.

Tescilli
4.9
FLUX.1 [dev] icon

FLUX.1 [dev]

Black Forest Labs|12B

FLUX.1 [dev], Stable Diffusion'ın orijinal yaratıcıları tarafından kurulan Black Forest Labs ekibinin geliştirdiği 12 milyar parametreli açık kaynaklı bir text-to-image difüzyon modelidir. Geleneksel difüzyon yöntemlerinden farklı olarak gürültü ve veri dağılımları arasında doğrudan aktarım yolu öğrenen yenilikçi Flow Matching mimarisi üzerine inşa edilmiştir ve bu sayede daha verimli ve kaliteli görsel üretim sağlar. Guidance Distillation teknolojisi sayesinde classifier-free guidance bilgisini doğrudan model ağırlıklarına gömerek yalnızca 28 çıkarım adımında olağanüstü sonuçlar üretir. Model, karmaşık çok öğeli sahne kompozisyonu, görseller içinde okunabilir metin oluşturma ve anatomik olarak doğru insan figürleri gibi birçok rakibin hâlâ zorlandığı alanlarda üstün performans sergiler. Apache 2.0 lisansı altında yayınlanan model, tam ticari kullanıma açıktır ve 15 ile 30 arası eğitim görseli ile LoRA ince ayar desteği sunar. FLUX.1 [dev] yerel olarak 12GB ve üzeri VRAM'e sahip GPU'larda çalışır, ComfyUI, Diffusers kütüphanesi ve Replicate, fal.ai gibi bulut platformlarıyla sorunsuz entegre olur. Profesyonel sanatçılar, oyun geliştiricileri, grafik tasarımcılar ve açık kaynak topluluğu tarafından konsept sanat, karakter tasarımı, ürün görselleştirme ve pazarlama içeriği üretiminde yaygın olarak kullanılmaktadır. Artificial Analysis Image Arena'da 1074 ELO puanıyla açık kaynak görsel üretiminin lideri konumundadır.

Açık Kaynak
4.8
Runway Gen-3 Alpha icon

Runway Gen-3 Alpha

Runway|N/A

Runway Gen-3 Alpha, Runway tarafından geliştirilen ve üretilen video içeriği üzerinde ince taneli zamansal ve görsel kontrol sunan gelişmiş bir video üretim modelidir. Şirketin önceki Gen-1 ve Gen-2 modellerinden önemli bir evrim temsil eder. Haziran 2024'te yayınlanan Gen-3 Alpha, hem uzamsal kompozisyon hem de zamansal dinamikler hakkında derin bir anlayış geliştirmek için görüntüler ve videolar üzerinde birlikte eğitilmiş olup öncüllerine kıyasla önemli ölçüde iyileştirilmiş hareket tutarlılığı, görsel sadakat ve prompt uyumu sunar. Model, hem metinden videoya hem de görselden videoya üretim modlarını destekleyerek kullanıcıların detaylı metin açıklamalarından video içeriği oluşturmasına veya mevcut durağan görselleri doğal, fiziksel olarak makul hareketlerle canlandırmasına olanak tanır. Gen-3 Alpha, kullanıcıların sezgisel metin tabanlı veya parametrik kontroller aracılığıyla kaydırma, eğme, yakınlaştırma ve takip çekimleri dahil kamera hareketlerini belirlemesini sağlayan gelişmiş kamera kontrol yetenekleri sunar. Model, kareler arasında tutarlı karakter görünümlerini koruma, birden fazla hareketli öğeye sahip karmaşık sahnelerde zamansal tutarlılığı sürdürme ve metin istemlerinden nüanslı yaratıcı yönlendirmeyi doğru yorumlama konularında üstün performans gösterir. Fotorealistik görüntüler, sinematik kompozisyonlar, stilize animasyon ve sanatsal yorumlar dahil çeşitli görsel stilleri profesyonel kalitede yönetir. Model ayrıca yerelleştirilmiş hareket kontrolü için hareket fırçası işlevselliği ve mevcut kliplerin sorunsuz şekilde devam ettirilmesi için video uzatma desteği sunar. Yalnızca Runway platformu üzerinden erişilebilen tescilli bir model olan Gen-3 Alpha, çeşitli abonelik katmanlarıyla kredi tabanlı bir fiyatlandırma sistemiyle çalışır. Daha önce kapsamlı canlı çekim veya karmaşık CGI üretim süreçleri gerektiren video içeriği için hızlı prototipleme ve üretim aracı olarak sinemacılar, içerik üreticileri, reklam profesyonelleri ve yaratıcı ajanslar tarafından yaygın şekilde benimsenmiştir.

Tescilli
4.8
Segment Anything (SAM) icon

Segment Anything (SAM)

Meta|636M

Segment Anything Model (SAM), Meta AI'nin noktalar, sınırlayıcı kutular, maskeler veya metin açıklamaları dahil giriş promptlarına dayalı olarak herhangi bir görseldeki herhangi bir nesneyi segmente etmek için tasarlanmış yönlendirilebilir görsel segmentasyon temel modelidir. Nisan 2023'te 11 milyon görselden 1 milyardan fazla maske içeren SA-1B veri setiyle birlikte yayınlanan SAM, göreve özel ince ayar gerektirmeden çeşitli görevleri ele alan genel amaçlı segmentasyon modeli oluşturur. Mimari üç bileşenden oluşur: giriş görsellerini gömmelere işleyen Vision Transformer görsel kodlayıcı, farklı prompt türlerini ele alan esnek prompt kodlayıcı ve gerçek zamanlı segmentasyon maskeleri üreten hafif maske çözücü. SAM'ın sıfır atışlı aktarım yeteneği, eğitim sırasında görmediği nesneleri segmente edebileceği anlamına gelir ve onu tıbbi görüntülemeden uydu fotoğrafçılığına, yaratıcı içerik düzenlemeye kadar her görsel alana uygulanabilir kılar. Model, görseldeki her şeyi segmente eden otomatik maske üretimi, hassas nesne seçimi için etkileşimli nokta tabanlı segmentasyon ve bölge hedefleme için kutu yönlendirmeli segmentasyonu destekler. SAM, video desteğiyle SAM 2, kenar dağıtımı için EfficientSAM ve daha hızlı çıkarım için FastSAM dahil türev çalışmalara ilham vermiştir. Uygulamalar arka plan kaldırma, tıbbi görsel açıklama, otonom sürüş algısı, tarımsal izleme, CBS haritalama ve etkileşimli düzenleme araçlarını kapsar. Apache 2.0 lisansıyla tamamen açık kaynaklı olan SAM, PyTorch implementasyonları ve Meta'nın depolarından ücretsiz erişilebilir modelleriyle segmentasyon yaklaşımını temelden değiştiren en etkili bilgisayar görüşü modellerinden biri haline gelmiştir.

Açık Kaynak
4.8
GPT Image 1 icon

GPT Image 1

OpenAI|Unknown

GPT Image 1, OpenAI'ın GPT mimarisi içinde doğal olarak entegre olan, birleşik bir otoregresif çerçevede dil anlama yetenekleri ile görsel üretim kapasitesini bir araya getiren en yeni ve en gelişmiş görsel üretim modelidir. Difüzyon tabanlı rakip modellerin aksine, GPT Image 1 metin üretimine benzer bir otoregresif süreçle görselleri token token üretir ve kullanıcıların üretilen çıktıları diyalog yoluyla iteratif olarak iyileştirebildiği doğal bir konuşma arayüzü sunar. Model, görseller içinde metin oluşturmada belirgin üstünlük gösterir ve difüzyon modellerinin tarihsel olarak zayıf kaldığı okunaklı ve doğru konumlandırılmış tipografi üretebilir. Hem metin açıklamalarından sıfırdan görsel üretimini hem de mevcut görsellerin doğal dil talimatlarıyla düzenlenmesini destekler; kullanıcılar fotoğraflarını yükleyip istenen değişiklikleri detaylı biçimde tanımlayabilir. GPT Image 1, birden fazla özne, karmaşık mekansal ilişkiler ve belirli nitelikler içeren kompozisyon promptlarını başarıyla anlayarak açıklanan öğeleri doğru biçimde yansıtan görsel olarak tutarlı sahneler üretir. Fotorealizmden illüstrasyona, yağlı boya tarzı resimlerden grafik tasarıma ve teknik diyagramlara kadar çeşitli görsel stilleri yüksek sadakatle ele alır. Düzenleme yetenekleri arasında mevcut görsellerin inpainting'i, stil dönüşümü, arka plan değiştirme, nesne ekleme veya kaldırma ve renk ayarlaması yer alır; bu özelliklerin tümü sezgisel konuşma metni girdisiyle kontrol edilir. Model, uygulama entegrasyonu için programatik erişim sunan OpenAI API aracılığıyla ve tüketici kullanımı için ChatGPT platformu üzerinden erişilebilir durumdadır. Kapsamlı güvenlik sistemleri zararlı veya politika ihlali içeren içerik üretimini etkin biçimde engeller. Üretilen tüm görseller OpenAI hizmet şartları kapsamında tam ticari kullanım haklarıyla kullanıcıya aittir. GPT Image 1, dil ve görsel yetenekleri sorunsuz harmanlayan çok modlu yapay zeka sistemlerine doğru atılmış önemli bir adımı temsil eder.

Tescilli
4.8
Whisper Large v3 icon

Whisper Large v3

OpenAI|1.5B

Whisper Large v3, OpenAI tarafından geliştirilen ve 100'den fazla dili kapsayan 680.000 saatten fazla çeşitli ses verisi üzerinde eğitilmiş 1,55 milyar parametreli en gelişmiş çok dilli otomatik konuşma tanıma modelidir. Encoder-Decoder Transformer mimarisi üzerine inşa edilen model, ham ses dalga formlarını girdi olarak alır ve noktalama, büyük harf kullanımı ve konuşmacıya uygun biçimlendirmeyle doğru metin transkripsiyonları üretir. Whisper Large v3, İngilizce transkripsiyon için insana yakın doğruluk elde eder ve diğer ASR sistemlerinin zorlandığı düşük kaynaklı diller dahil düzinelerce dilde güçlü performans sunar. Model, hem kaynak dildeki konuşma transkripsiyonunu hem de İngilizce'ye doğrudan çeviriyi destekleyerek tek bir modelden çapraz dil içerik erişilebilirliği sağlar. V3'teki önemli iyileştirmeler arasında genişletilmiş dil kapsamı, sessiz veya gürültülü ses segmentlerinde azaltılmış halüsinasyon, aksanlı konuşmanın daha iyi işlenmesi ve altyazı üretimi için geliştirilmiş zaman damgası doğruluğu yer alır. Whisper Large v3, kayan pencere yaklaşımıyla sesi 30 saniyelik parçalar halinde işleyerek kısa sesli mesajlardan saatlerce süren ders ve podcast'lere kadar her uzunluktaki kayıtları ele alır. MIT lisansı altında tamamen açık kaynaklı olan model, açık ASR sistemleri için altın standart haline gelmiştir. Hugging Face üzerinden erişilebilir, Transformers kütüphanesiyle entegre olur ve gerçek zamanlı işleme için faster-whisper ve whisper.cpp gibi çerçevelerle hızlandırılabilir. Yaygın uygulamalar arasında toplantı transkripsiyonu, podcast ve video altyazılama, sesli metin girdisi, tıbbi dikte, işitme engelli kullanıcılar için erişilebilirlik hizmetleri ve çok dilli pazarlarda ses kontrollü uygulamalar geliştirme yer alır.

Açık Kaynak
4.8
ControlNet icon

ControlNet

Lvmin Zhang|1.4B

ControlNet, kenar haritaları, derinlik haritaları, insan poz iskeletleri, segmentasyon maskeleri ve normal haritalar gibi çeşitli koşullandırma girdileri aracılığıyla görsel üretim sırasında hassas yapısal rehberlik sağlayan Stable Diffusion modelleri için koşullu bir kontrol çerçevesidir. Stanford Üniversitesi'nde Lvmin Zhang ve Maneesh Agrawala tarafından geliştirilen ControlNet, donmuş difüzyon modeli kodlayıcılarına eğitilebilir kopya dalları ekleyerek modelin orijinal yeteneklerini değiştirmeden uzamsal koşullandırmayı öğrenmesini sağlar. Bu mimari, üretilen görsellerin kompozisyonu, yapısı ve uzamsal düzeni üzerinde ince ayarlı kontrol eklerken temel modelin üretim kalitesini korur. ControlNet birden fazla koşullandırma türünü eş zamanlı destekler ve kullanıcıların poz, derinlik ve kenar bilgisini birleştirerek olağanüstü hassasiyetle üretimi yönlendirebildiği karmaşık çok koşullu iş akışları oluşturur. Çerçeve, üretilen görsellerde tutarlı uzamsal yapıları sürdürmenin temel zorluğunu çözerek profesyonel AI görsel üretim iş akışlarında devrim yaratmıştır. Karakter pozları, mimari düzenler, ürün yerleşimleri ve sahne kompozisyonları üzerinde hassas kontrol ihtiyacı olan profesyonel sanatçılar ve tasarımcılar için vazgeçilmez bir araç haline gelmiştir. ControlNet açık kaynaklıdır ve SD 1.5 ile SDXL dahil çeşitli Stable Diffusion sürümleri için önceden eğitilmiş modellerle Hugging Face üzerinde mevcuttur. ComfyUI ve Automatic1111 ile sorunsuz entegre olur. Konsept sanatçıları, karakter tasarımcıları, mimari görselleştiriciler, moda tasarımcıları ve animasyon stüdyoları üretim iş akışları için ControlNet'e güvenir. Etkisi Stable Diffusion'ın ötesine geçerek FLUX.1 ve diğer modern modellerde benzer kontrol mekanizmalarına ilham vermiştir.

Açık Kaynak
4.8
Stable Diffusion XL icon

Stable Diffusion XL

Stability AI|6.6B

Stable Diffusion XL, Stability AI'ın amiral gemisi açık kaynaklı text-to-image modelidir ve önemli ölçüde geliştirilmiş prompt anlama kapasitesi için OpenCLIP ViT-bigG ve CLIP ViT-L metin kodlayıcılarını birleştiren çift metin kodlayıcı mimarisi sunar. Temel ve iyileştirici modelleri genelinde yaklaşık 3,5 milyar parametreye sahip olan SDXL, dikkat çekici detay ve tutarlılıkla doğal 1024x1024 çözünürlüklü görseller üretir. Model, temel modelin ilk kompozisyonu oluşturduğu ve isteğe bağlı iyileştirici modelin ince detaylar ve dokular eklediği iki aşamalı bir pipeline sunmuştur. SDXL, fotorealizm, dijital sanat, anime, yağlı boya ve sulu boya dahil geniş bir yelpazede sanatsal stili destekler ve hepsinde tutarlı kalite sunar. CreativeML Open RAIL-M lisansı altındaki açık kaynak yapısı, AI görsel üretiminde en büyük topluluk uzantıları ekosistemini oluşturmuştur; binlerce LoRA modeli, özel checkpoint ve ControlNet adaptasyonu mevcuttur. Model, 8GB ve üzeri VRAM'e sahip tüketici GPU'larında verimli çalışır ve ComfyUI, Automatic1111 ve InvokeAI gibi popüler arayüzlerle entegre olur. Profesyonel tasarımcılar, bağımsız oyun geliştiricileri, dijital sanatçılar ve hobi sahipleri dünya genelinde konsept sanattan karakter tasarımına, pazarlama materyallerinden kişisel yaratıcı projelere kadar her şey için SDXL kullanır. FLUX.1 gibi daha yeni modeller tarafından ham kalitede geçilmesine rağmen, olgun ekosistemi ve kapsamlı topluluk desteği sayesinde en yaygın kullanılan açık kaynak görsel üretim modeli olmaya devam etmektedir.

Açık Kaynak
4.5
Veo 3 icon

Veo 3

Google DeepMind|Unknown

Veo 3, Google DeepMind'in metin açıklamalarından doğal sesle birlikte yüksek kaliteli video içeriği üretebilen en gelişmiş video üretim modelidir. Model, dikkat çekici zamansal tutarlılık, akıcı hareket ve gerçekçi fizik simülasyonuyla 4K çözünürlüğe kadar videolar üretir. En ayırt edici özelliği, görsel içerikle eşleşen ortam sesleri, müzik, diyalog ve ses efektleri dahil video ile eşzamanlı ses üretebilmesidir; bu, ayrı ses üretimi ihtiyacını ortadan kaldırır. Dolly çekimleri, pan ve zoom gibi kamera hareketleri, aydınlatma koşulları, alan derinliği ve film grenli efektler dahil sinematik kavramları anlayarak promptlarda profesyonel düzeyde sinematografik yönlendirmeler sağlar. Veo 3, tutarlı etkileşimlerle karmaşık çok özneli sahneleri ele alır, kliplerde karakter tutarlılığını korur ve eylemler ile pozlar arasında doğal geçişler üretir. Mimari, Google DeepMind'in difüzyon transformer uzmanlığı üzerine inşa edilmiş olup fotorealistik görüntülerden animasyona ve sanatsal yorumlamalara kadar geniş stilistik yelpaze için çeşitli video veri setleri üzerinde büyük ölçekli eğitimden yararlanır. Video çıktıları düzgün zamansal tutarlılıkla birden fazla saniyeye uzanır. Google'ın AI platformları aracılığıyla ve Google ekosistemindeki yaratıcı araçlara entegre olarak sunulur. Reklam içerik oluşturma, sosyal medya video üretimi, film ön görselleştirmesi, eğitim içeriği ve yaratıcı hikaye anlatımı başlıca uygulama alanlarıdır. Veo 3, üretken video alanında kalite, ses entegrasyonu ve prompt anlama konusunda yeni standartlar belirleyen güncel son teknolojiyi temsil eder.

Tescilli
4.9
FLUX.1 [pro] icon

FLUX.1 [pro]

Black Forest Labs|12B

FLUX.1 [pro], Black Forest Labs tarafından geliştirilen FLUX.1 model ailesinin en yüksek kaliteli premium varyantıdır ve mümkün olan en iyi çıktıyı talep eden profesyonel ve ticari görsel üretim için tasarlanmıştır. Artificial Analysis Image Arena'da 1143 Arena ELO puanıyla Midjourney v6 ve DALL-E 3 dahil kategorisindeki tüm modelleri geride bırakır. Pro modeli, dev varyantıyla aynı 12 milyar parametreli Flow Matching mimarisi üzerine inşa edilmiştir ancak ek eğitim optimizasyonları sayesinde belirgin şekilde üstün ince detay, karmaşık aydınlatma efektleri ve nüanslı renk doğruluğu sunar. Fotorealistik render, karmaşık sahne kompozisyonları ve görseller içinde hassas metin üretiminde mükemmeldir. Açık kaynaklı dev ve schnell varyantlarından farklı olarak FLUX.1 [pro], yalnızca Replicate, fal.ai ve resmi BFL API gibi platformlarda API erişimi üzerinden kullanılabilir ve üretim başına ödeme fiyatlandırma modeliyle çalışır. Bu özelliği, tutarlı premium kalitenin maliyeti haklı kıldığı üretim ortamları için özellikle uygun hale getirir. Model 2 megapiksele kadar yüksek çözünürlükleri destekler ve fotorealizmden dijital illüstrasyona ve konsept sanata kadar çeşitli stillerde olağanüstü sonuçlar verir. Kreatif ajanslar, profesyonel fotoğrafçılar, reklam stüdyoları ve kurumsal içerik ekipleri, görsel kalitenin kritik olduğu nihai üretim varlıkları, pazarlama kampanyaları ve müşteri teslimatları için FLUX.1 [pro] modelini tercih eder.

Tescilli
4.9
Suno AI icon

Suno AI

Suno|N/A

Suno AI, metin açıklamalarından vokal, şarkı sözleri ve enstrümantal düzenlemelerle komple şarkılar oluşturan ticari bir AI müzik üretim platformudur. 2023'te eski Kensho Technologies mühendislerinden oluşan bir ekip tarafından kurulan Suno AI, kullanıcıların doğal dilde istenen türü, ruh halini, konuyu ve stili tanımlayarak profesyonel kalitede şarkılar üretmesini sağlayan erişilebilir bir web arayüzü sunar. Platform melodi, armoni, ritim, enstrümantasyon, vokal performansı ve şarkı sözleri dahil bir şarkının tüm bileşenlerini tek bir entegre süreçte üreten tescilli transformer tabanlı bir mimari kullanır. Suno AI pop ve rock'tan hip-hop, country, klasik, elektronik, caz ve deneysel tarzlara kadar oldukça geniş bir müzik türü yelpazesini destekler ve sıradan dinleyiciler için insan yapımı müzikten ayırt edilemez çıktılar üretir. Üretilen şarkılar birkaç dakikaya kadar sürebilir ve düzgün telaffuz, duygusal ifade ve müzikal frazlama içeren gerçekçi şarkı sesleri içerir. Platform kullanıcıların özel şarkı sözleri vermesine veya AI'ın bir tema veya konsepte dayalı sözler üretmesine olanak tanır. Suno AI sınırlı ücretsiz üretimler ve daha yüksek hacim ile ticari kullanım hakları için ücretli katmanlarla freemium abonelik modeliyle çalışır. Platform müzik eğitimi olmayan kişilerin komple şarkılar üretmesini mümkün kılarak müzik yaratımını demokratikleştirmesiyle önemli ilgi görmüştür. Suno AI özellikle geleneksel müzik prodüksiyonunun maliyeti ve karmaşıklığı olmadan videolar, podcast'ler veya kişisel projeler için orijinal müziğe ihtiyaç duyan içerik üreticileri, sosyal medya pazarlamacıları ve hobi müzisyenleri arasında popülerdir.

Tescilli
4.7
Adobe Generative Fill icon

Adobe Generative Fill

Adobe|N/A

Adobe Generative Fill, Adobe'nin tescilli Firefly görsel üretim modeli tarafından desteklenen ve doğrudan Adobe Photoshop'a entegre edilmiş güçlü bir üretken yapay zeka özelliğidir. 2023 yılında tanıtılan bu özellik, kullanıcıların tanıdık Photoshop arayüzünde doğal dil metin promptları kullanarak görsellere yeni içerik eklemesine, mevcut içerikleri değiştirmesine veya istenmeyen öğeleri kaldırmasına olanak tanır. Herhangi bir Photoshop seçim aracıyla bölge seçilir, bağlamsal görev çubuğuna açıklayıcı prompt yazılır ve saniyeler içinde üç farklı AI üretimi varyasyon sunulur. Üretilen içerik ayrı bir katmana yerleştirilir, böylece Photoshop'un profesyonellerin uzun yıllardır güvendiği tahribatsız düzenleme iş akışı korunur. Temel farklılaştırıcı unsur, Firefly'ın yalnızca lisanslı Adobe Stock görselleri, açık lisanslı içerikler ve kamu malı materyallerle eğitilmiş olmasıdır; bu yaklaşım rakip çözümlerin sunamadığı ticari güvenlik ve fikri mülkiyet tazminatı sağlar. Generative Fill çevredeki renk, aydınlatma, perspektif ve doku uyumunu otomatik olarak koruyarak sorunsuz ve doğal birleştirme sağlar. Generative Expand özelliği ile görselleri orijinal tuval sınırlarının ötesine genişletmek de mümkündür. Profesyonel uygulamalar arasında reklam kampanyası iterasyonu, fotoğraf post-prodüksiyonu, emlak mekan düzenlemesi, ürün fotoğrafçılığında arka plan değiştirme, moda renk modifikasyonu ve editöryal görsel hazırlama yer alır. Creative Cloud aboneliği ile aylık üretken kredi sistemiyle Photoshop'tan ve ayrıca Adobe Express ile web tabanlı Firefly uygulamasından erişilebilir. Content Credentials metadata'sı AI kullanımını belirterek şeffaflık standartlarını destekler ve profesyonel düzeyde en güvenli AI görsel düzenleme çözümü olarak öne çıkar.

Tescilli
4.7
Segment Anything 2 (SAM 2) icon

Segment Anything 2 (SAM 2)

Meta|300M

Segment Anything 2 (SAM 2), Meta AI tarafından geliştirilen ve görüntü ile video segmentasyonunu streaming bellek modülüyle güçlendirilmiş tek bir Transformer tabanlı mimaride birleştiren evrensel bir segmentasyon modelidir. Orijinal SAM'in çığır açıcı başarısını video alanına taşıyan SAM 2, kullanıcıların tek bir karede nokta, sınırlayıcı kutu veya maske gibi basit promptlar sağlayarak herhangi bir nesneyi video kareleri boyunca segmente etmesine olanak tanır. Model, bellek dikkat mekanizması sayesinde segmentasyonu tüm video boyunca otomatik olarak yayar ve oklüzyonlar ile nesne yeniden görünmeleri sırasında bile zamansal tutarlılığı korur. Yaklaşık 300 milyon parametreyle SAM 2, çeşitli segmentasyon kıyaslamalarında son teknoloji doğruluk sunarken gerçek zamanlı performans sağlar. Mimari, hem görüntüleri hem de tek tek video karelerini paylaşımlı bir görüntü kodlayıcı aracılığıyla işleyerek statik ve dinamik içerik için çok yönlü bir çözüm sunar. SAM 2, 50.000 video üzerinde 600.000'den fazla masklet açıklaması içeren bugüne kadarki en büyük video segmentasyon veri seti olan SA-V üzerinde eğitilmiştir. Apache 2.0 lisansı altında yayınlanan model tamamen açık kaynaklıdır ve önceden eğitilmiş ağırlıklarla GitHub üzerinden erişilebilir. Video düzenleme, görsel efektler, otonom sürüş algısı, tıbbi görüntüleme, artırılmış gerçeklik ve robotik gibi geniş bir uygulama yelpazesine hizmet eder.

Açık Kaynak
4.8
ElevenLabs Turbo v2.5 icon

ElevenLabs Turbo v2.5

ElevenLabs|Unknown

ElevenLabs Turbo v2.5, ElevenLabs tarafından geliştirilen ve metin girdisi ile ses çıkışı arasında minimum gecikme gerektiren gerçek zamanlı uygulamalar için özel olarak optimize edilmiş en hızlı ticari metin-konuşma modelidir. Tescilli bir mimari üzerine inşa edilen model, 300 milisaniye kadar düşük gecikmelerle neredeyse anlık konuşma sentezi sunarak canlı konuşma AI ajanları, etkileşimli sesli yanıt sistemleri ve gerçek zamanlı çeviri hizmetleri için uygun hale gelir. Hız odağına rağmen Turbo v2.5, uygun prozodi, nefes alma kalıpları ve duygusal nüanslarla dikkat çekici derecede doğal ve ifade dolu konuşma kalitesini korur. Model, 32 dili ana dil kalitesinde telaffuzla destekler ve ElevenLabs'ın ses klonlama teknolojisini kullanarak özel klonlanmış seslerle, profesyonel ses kütüphanesi sesleriyle veya sentetik tasarımcı sesleriyle konuşabilir. Turbo v2.5, deneme için ücretsiz katmandan yüksek hacimli üretim kullanımı için kurumsal planlara kadar kullanım tabanlı fiyatlandırma katmanlarıyla ElevenLabs'ın bulut API'si üzerinden özel bir hizmet olarak sunulur. API, REST uç noktaları ve Python, JavaScript gibi popüler diller için resmi SDK'lar aracılığıyla basit entegrasyon sağlar. Temel uygulamalar arasında AI sohbet botlarını ve sanal asistanları ses çıkışıyla güçlendirme, gerçek zamanlı dublajlı içerik oluşturma, metni anında konuşmaya dönüştüren erişilebilir uygulamalar geliştirme, otomatik müşteri hizmetleri sistemleri ve oyun NPC diyalogları yer alır.

Tescilli
4.8
Runway Gen-4 Turbo icon

Runway Gen-4 Turbo

Runway|Unknown

Runway Gen-4 Turbo, Runway'in seleflerine kıyasla önemli ölçüde geliştirilmiş hız, görsel sadakat ve hareket tutarlılığıyla yüksek kaliteli AI üretimi video oluşturmak için tasarlanmış en hızlı ve en gelişmiş video üretim modelidir. Metin açıklamaları ve görsel girdilerden geliştirilmiş zamansal tutarlılıkla video üretir; klip boyunca özne bütünlüğünü koruyan akıcı ve doğal hareketler oluşturur. Gen-4 Turbo, önceki Runway modellerine göre önemli ölçüde daha hızlı çıkarım sunarak hızlı geri bildirimin zorunlu olduğu iteratif yaratıcı iş akışları için pratik bir çözüm sağlar. Gerçekçi vücut mekaniği ve yüz ifadeleriyle insan figürleri, dinamik öğeler içeren doğal çevreler, doğru perspektifle mimari sahneler ve soyut sanatsal kompozisyonlar dahil çeşitli içerik türlerini ele alır. Açıklamalardan klip oluşturmak için metinden videoya, durağan görselleri hareketlendiren görselden videoya ve mevcut görüntülere stil dönüşümleri uygulayan videodan videoya dahil birden fazla üretim modunu destekler. Mimari, Runway'in video difüzyon araştırmasını temel alır ve fiziksel olarak makul sonuçlar üreten zamansal dikkat mekanizmaları ile hareket modelleme ilerlemelerini birleştirir. Runway'in web platformu ve API'si aracılığıyla yaratıcı uygulamalar için entegrasyon seçenekleriyle sunulur. Ticari içerik oluşturma, sosyal medya video üretimi, müzik videosu konseptleri, film ön görselleştirmesi, ürün reklamcılığı ve hareket tasarımı başlıca profesyonel kullanım alanlarıdır. Runway abonelik katmanları içinde kredi tabanlı fiyatlandırma sistemiyle çalışır. Gen-4 Turbo, yaratıcılara geleneksel üretim altyapısı olmadan çekici video içerik üretme imkanı sunan profesyonel araçlar sunarak Runway'in öncü konumunu sağlamlaştırır.

Tescilli
4.7
Stable Diffusion 3.5 Large icon

Stable Diffusion 3.5 Large

Stability AI|8B

Stable Diffusion 3.5 Large, Stability AI tarafından geliştirilen ve yenilikçi Multimodal Diffusion Transformer (MMDiT) mimarisi üzerine inşa edilmiş 8 milyar parametreli en gelişmiş açık kaynak metin-görsel modelidir. Bu mimari, geleneksel UNet omurgasını metin ve görüntü modalitelerini paralel akışlarla işleyen transformer tabanlı bir tasarımla değiştirerek üstün prompt anlama ve görsel kalite elde eder. Model ailesi üç varyant sunar: maksimum kalite için SD 3.5 Large, daha az adımla hızlandırılmış üretim için Large Turbo ve kaynak kısıtlı dağıtımlar için hafif seçenek olan Medium. SD 3.5 Large, görseller içinde metin oluşturma, karmaşık kompozisyon sahneleri ve çeşitli stillerde fotorealistik çıktı konusunda olağanüstü performans sergiler. MMDiT mimarisi, derin semantik anlayış için CLIP ve T5-XXL dahil üç metin kodlayıcısı kullanarak uzun ve karmaşık promptların nüanslı yorumlanmasını sağlar. Model, çeşitli en boy oranlarını ve çözünürlükleri destekleyerek 512x512'den 1024x1024 ve ötesine kadar yüksek kaliteli çıktılar üretir. Stability AI Community License altında yayınlanan SD 3.5, büyük işletmeler için gelir tabanlı kısıtlamalarla hem kişisel hem de ticari kullanıma açıktır. ComfyUI, Diffusers kütüphanesi ve Automatic1111 dahil popüler araçlarla entegre olur ve özel stil adaptasyonu için LoRA ince ayar desteği sunar. Profesyonel tasarımcılar, illüstratörler ve bağımsız içerik üreticileri konsept sanat, reklam görselleri ve ürün görüntüleri için SD 3.5'i kullanır. Model, 12GB ve üzeri VRAM'e sahip tüketici GPU'larında yerel olarak çalışır.

Açık Kaynak
4.7
FLUX.1 [schnell] icon

FLUX.1 [schnell]

Black Forest Labs|12B

FLUX.1 [schnell], Black Forest Labs tarafından özellikle neredeyse gerçek zamanlı görsel üretimi için tasarlanmış FLUX.1 model ailesinin en hızlı varyantıdır. FLUX.1 [dev]'in ihtiyaç duyduğu 28 adıma kıyasla yalnızca 1 ile 4 çıkarım adımı gerektirerek dikkat çekici bir hız elde eder ve bu özelliğiyle interaktif uygulamalar, canlı önizlemeler ve hızlı prototipleme iş akışları için idealdir. Kardeş modelleriyle aynı Flow Matching mimarisi üzerine inşa edilmiş ancak agresif adım distilasyonu ile optimize edilmiş olan Schnell, dramatik hız avantajına rağmen şaşırtıcı derecede yüksek görsel kalitesini korur. Modern GPU'larda bir saniyenin altında görsel üreterek, difüzyon modelleriyle daha önce pratik olmayan gerçek zamanlı yaratıcı araçlar ve duyarlı tasarım asistanları gibi kullanım senaryolarını mümkün kılar. Apache 2.0 açık kaynak lisansı altında yayınlanan model, hem kişisel hem ticari kullanım için serbestçe erişilebilir durumdadır. Aynı 12 milyar parametreli mimariyi destekler ve yerel olarak 12GB üzeri VRAM ile veya Replicate, fal.ai, Together AI gibi bulut API'leri üzerinden çalıştırılabilir. ComfyUI ve Diffusers kütüphanesiyle entegre olur. Dev ve pro varyantlarına kıyasla bazı ince detay ve karmaşık sahne doğruluğunu feda etse de hız-kalite oranında açık kaynak ekosisteminde rakipsizdir. Oyun geliştiricileri, UI tasarımcıları ve AI destekli yaratıcı araçlar geliştiren uygulama geliştiricileri Schnell'in anında üretim kapasitesinden özellikle faydalanır.

Açık Kaynak
4.6
Kling 1.5 icon

Kling 1.5

Kuaishou|N/A

Kling 1.5, Kuaishou Technology tarafından geliştirilen ve etkileyici görsel sadakat ve zamansal tutarlılıkla iki dakikaya kadar tutarlı video içeriği üreten yüksek kaliteli bir video üretim modelidir. Haziran 2024'te yayınlanan Kling, Çin'in önde gelen kısa video platformlarından birinden doğmuş ve hızla gelişen yapay zeka video üretim alanında üst düzey bir rakip olarak kendini hızla kanıtlamıştır. Model, hem metinden videoya hem de görselden videoya üretim modlarını destekleyerek detaylı doğal dil açıklamalarını veya referans görselleri girdi olarak kabul eder ve akıcı hareket, tutarlı karakter görünümleri ve fiziksel olarak makul sahne dinamikleri içeren video klipler üretir. Kling 1.5, birçok rakip modelin hâlâ zamansal artefaktlar ve kimlik tutarsızlığıyla mücadele ettiği alanlarda karmaşık insan hareketi, yüz ifadeleri ve çok karakterli etkileşimler içeren videolar üretmede özellikle güçlüdür. Model, değişken çıktı süreleri ve çözünürlükleri sunarak kısa beş saniyelik kliplerden uzun iki dakikalık dizilere kadar içerik üretebilir. Bu özellik, onu hem sosyal medya içeriği hem de uzun formatlı yaratıcı projeler için çok yönlü kılar. Kling, kullanıcıların üretilen içerikte takip çekimleri, yakınlaştırmalar ve perspektif değişiklikleri belirlemesine olanak tanıyan kamera hareketi kontrolünü destekler. Model, fotorealistik sahneler, animasyonlu içerik ve stilize sanatsal yorumlar dahil çeşitli görsel stilleri yönetir. Tescilli bir model olan Kling 1.5, kendi platformu üzerinden ve fal.ai ile Replicate dahil üçüncü taraf API sağlayıcıları aracılığıyla erişilebilir olup özel yaratıcı iş akışlarına ve uygulamalara entegrasyon sağlar. Model, uluslararası kıyaslamalarda ve topluluk karşılaştırmalarında önemli bir tanınırlık kazanmış olup kendini Sora, Runway Gen-3 ve Veo ile birlikte mevcut önde gelen video üretim modelleri arasında konumlandırmıştır.

Tescilli
4.7
Real-ESRGAN icon

Real-ESRGAN

Tencent ARC|N/A

Real-ESRGAN, Tencent ARC Lab'da Xintao Wang ve işbirlikçileri tarafından geliştirilen, düşük çözünürlüklü, bozulmuş veya sıkıştırılmış görselleri dikkat çekici detay kurtarmayla yüksek çözünürlüklü çıktılara dönüştüren açık kaynak görsel büyütme ve restorasyon modelidir. 2021'de BSD lisansı altında yayınlanan Real-ESRGAN, sıkıştırma yapıları, gürültü, bulanıklık ve alt örnekleme dahil gerçek dünya görsellerinde bulunan karmaşık ve öngörülemeyen kalite kaybını simüle eden yüksek dereceli bozulma modelleme yaklaşımını tanıtarak orijinal ESRGAN mimarisi üzerine inşa edilmiştir. Model üretici ağı olarak Residual-in-Residual Dense Block'lu U-Net mimarisi kullanır ve keskin, doğal görünümlü büyütülmüş sonuçlar üretmek için algısal kayıp, GAN kaybı ve piksel kaybı kombinasyonuyla eğitilmiştir. Real-ESRGAN 2x, 4x ve daha yüksek büyütme faktörlerini destekler ve genel amaçlı fotoğraf modelinin yanı sıra anime ve illüstrasyon içeriği için özelleştirilmiş model varyantları içerir. Model yalnızca sentetik bozulma desenleri üzerinde eğitilen öncülü ESRGAN'a kıyasla gerçek dünya bozulmalarını çok daha iyi işler. Real-ESRGAN masaüstü araçlar, web servisleri, mobil uygulamalar ve profesyonel görsel düzenleme iş akışları dahil sayısız uygulamaya entegre edilerek en yaygın dağıtılan AI büyütme çözümlerinden biri haline gelmiştir. Model hem CPU hem de GPU'da verimli çalışır ve daha hafif RealESRGAN-x4plus-anime varyantı tüketici donanımı için optimize edilmiştir. Önceden eğitilmiş ağırlıklarla GitHub üzerinde mevcut tamamen açık kaynak bir proje olarak Upscayl ve çeşitli ComfyUI düğümleri gibi popüler araçların omurgası olarak hizmet eder. Real-ESRGAN doğal görünümü korurken ve gerçekçi detay eklerken görsel çözünürlüğünü artırması gereken fotoğrafçılar, içerik üreticileri ve oyun geliştiricileri için vazgeçilmezdir.

Açık Kaynak
4.7
RemBG icon

RemBG

Daniel Gatis|N/A

RemBG, Daniel Gatis tarafından geliştirilen, görsellerden otomatik arka plan kaldırma için basit ve verimli bir çözüm sunan, manuel seçim veya profesyonel düzenleme becerisi gerektirmeden ön plan öğelerini izole eden popüler bir açık kaynak araçtır. Araç, genel nesneler, insan figürleri, anime karakterleri ve kıyafetler gibi farklı kullanım alanları için optimize edilmiş U2-Net, IS-Net, SAM ve çeşitli özelleşmiş varyantlar dahil birden fazla önceden eğitilmiş segmentasyon modelinden yararlanır. RemBG, anlamsal segmentasyon uygulayarak ön plan öğelerini belirler ve öğeleri arka planlarından temiz biçimde ayıran hassas alfa mat maskeleri üreterek hemen kullanıma hazır şeffaf PNG çıktıları oluşturur. Uçuşan saçlar, yarı saydam kumaşlar, ince takılar ve düzensiz sınırlara sahip nesneler gibi karmaşık kenar durumlarını başarıyla ele alır. Pip ile kurulabilen Python kütüphanesi, toplu işleme için komut satırı arayüzü ve üretim dağıtımı için API entegrasyonları olarak sunulur. Verileri harici sunuculara göndermeden yerel olarak işleyebildiğinden gizlilik duyarlı uygulamalar için uygundur. Yaygın kullanım alanları e-ticaret ürün fotoğrafı hazırlama, sosyal medya içerik oluşturma, vesikalık fotoğraf işleme, grafik tasarım kompozitleme, emlak fotoğrafçılığı ve pazarlama materyali oluşturmadır. JPEG, PNG ve WebP formatlarını destekler ve tekli görseller ile toplu dizin işleme yapabilir. GitHub'da milyonlarca indirmeyle en çok yıldız alan arka plan kaldırma depolarından biri olan RemBG, MIT lisansıyla ücretli servislere ücretsiz ve ticari olarak uygulanabilir bir alternatif sunar.

Açık Kaynak
4.6
FLUX.2 Kontext icon

FLUX.2 Kontext

Black Forest Labs|12B+

FLUX.2 Kontext, Black Forest Labs'in yaratıcı projelerde karakter ve sahne sürekliliği için birden fazla üretilen görsel genelinde görsel tutarlılığı korumak üzere tasarlanmış bağlam farkındalıklı görsel üretim modelidir. Model, kullanıcıların metin promptlarıyla birlikte referans görseller sağlamasına olanak tanıyan gelişmiş bağlam koşullandırması sunar ve referanslardan karakter görünümü, giysi detayları, yüz özellikleri, marka varlıkları ve çevre karakteristikleri gibi görsel öğeleri sadakatle koruyan yeni görseller üretir. Bu, standart metinden görsele modellerin ayrı üretim çağrılarında tutarlı kimlik koruyamaması sınırlamasını ele alır. FLUX.2 Kontext, referans görsel özelliklerini kodlayan ve dikkat mekanizmaları aracılığıyla üretim sürecine entegre eden özelleşmiş bir mimari kullanarak çıktının hem metin promptuna hem görsel bağlama uymasını sağlar. Daha hassas bağlam belirlemesi için birden fazla referans görseli destekler ve karakterin kimliğini korurken pozunu değiştirme gibi karmaşık senaryoları ele alır. Başlıca kullanım alanları çizgi roman, storyboard ve çocuk kitapları için tutarlı karakter illüstrasyonları, kampanyalar genelinde marka tutarlı pazarlama görselleri, farklı açılardan ürün görselleştirmeleri ve birden fazla görünümde mimari tasarım tutarlılığıdır. FLUX ekosistemini destekleyen yaratıcı araçlara entegre edilerek Black Forest Labs'in API'si aracılığıyla tescilli hizmet olarak sunulur. FLUX.2 Kontext, kontrol edilebilir görsel üretimde önemli bir ilerlemeyi temsil eder ve yaratıcı profesyonellerin çıktılar arasında görsel tutarlılığın temel gereksinim olduğu güvenilir bir üretim aracı olarak yapay zekayı kullanmasını mümkün kılar.

Tescilli
4.8
Kling 3.0 icon

Kling 3.0

Kuaishou|Unknown

Kling 3.0, Kuaishou'nun rakip modellerin çoğundan daha uzun video süreleri desteğiyle sinematik kalitede çıktı sunan üçüncü nesil AI video üretim modelidir. Çin'in popüler Kuaishou kısa video platformunun arkasındaki AI ekibi tarafından geliştirilen model, etkileyici görsel sadakat, gerçekçi hareket dinamikleri ve uzun kliplerde güçlü zamansal tutarlılık ile videolar üretir. Metinden videoya ve görselden videoya üretim modlarını destekleyerek metin açıklamalarından video oluşturmaya veya durağan görselleri doğal hareket ve kamera hareketleriyle canlandırmaya olanak tanır. Uzun süreli video yeteneği önemli bir farklılaştırıcıdır; birçok rakibin tipik birkaç saniyelik çıktılarından önemli ölçüde daha uzun kliplerin üretilmesine izin vererek anlatı içerik ve tam sahne üretimi için uygundur. Çok karakterli etkileşimler, dinamik kamera hareketleri, çevresel efektler ve gerçekçi fizik simülasyonu dahil karmaşık senaryoları tutarlı kaliteyle ele alır. Önceki video modellerine kıyasla azaltılmış artifaktlarla insan hareketi, yüz ifadeleri ve el hareketleri üretmede özel güç gösterir. Mimari, daha uzun zaman ufuklarında tutarlılığı koruyan özelleşmiş zamansal modelleme bileşenleriyle gelişmiş difüzyon transformer tekniklerini kullanır. Kuaishou'nun Kling AI platformu ve API'si aracılığıyla ücretsiz ve premium seçeneklerle erişilebilir. Sosyal medya içerik oluşturma, reklam video üretimi, eğlence sektörü ön görselleştirmesi, eğitim içeriği ve yaratıcı hikaye anlatımı başlıca kullanım alanlarıdır. Görsel kalite, hareket gerçekçiliği ve uzun süre desteğiyle Kling 3.0, Runway, Google ve OpenAI teklifleriyle doğrudan rekabet eden önde gelen video üretim modellerinden biri olarak kendini kanıtlamıştır.

Tescilli
4.7
Stable Diffusion 3 icon

Stable Diffusion 3

Stability AI|8B

Stable Diffusion 3, Stability AI'ın yeni nesil text-to-image modelidir ve önceki Stable Diffusion sürümlerinde kullanılan U-Net tabanlı yaklaşımdan köklü bir ayrılışı temsil eden Multimodal Diffusion Transformer mimarisini tanıtır. MMDiT mimarisi, metin ve görsel bilgisini paylaşılan dikkat mekanizmaları aracılığıyla birlikte işleyerek dramatik şekilde geliştirilmiş metin render doğruluğu ve kompozisyonel anlayış sağlar. 800 milyon ile 8 milyar parametre arasında değişen boyutlarda sunulan SD3, farklı donanım gereksinimleri ve kullanım senaryoları için esneklik sunar. Model, eşsiz prompt kavrama kapasitesi için birlikte çalışan T5-XXL, CLIP ViT-L ve OpenCLIP ViT-bigG olmak üzere üç metin kodlayıcı içerir. Metin render yetenekleri sektörün en iyileri arasında yer alarak birden fazla yazı tipi ve stilde görseller içinde okunabilir metin üretir. SD3, örnekleme süreci için geleneksel difüzyon gürültü programlarından daha düz çıkarım yörüngeleri ve daha iyi eğitim verimliliği sağlayan Rectified Flow kullanır. Model 1024x1024 çözünürlükte yüksek kaliteli görseller üretir ve çeşitli en-boy oranlarını destekler. Ticari olmayan kullanım için topluluk lisansı ve ayrı bir ticari lisans altında yayınlanan SD3, hem araştırmacıları hem profesyonel içerik üreticilerini hedefler. Dijital sanatçılar, grafik tasarımcılar ve AI araştırmacıları hassas metin entegrasyonu, karmaşık sahne üretimi ve yüksek kompozisyonel doğruluk gerektiren projeler için kullanır. FLUX.1 ile karşılaştırıldığında fotorealizm konusunda tartışmalı karşılansa da mimari yenilikleri açık kaynak görsel üretiminde önemli bir kilometre taşıdır.

Açık Kaynak
4.6
Adobe Firefly icon

Adobe Firefly

Adobe|N/A

Adobe Firefly, Adobe tarafından geliştirilen ve yalnızca lisanslı Adobe Stock içeriği, açık lisanslı materyaller ve kamu malı eserlerle eğitilmiş olmasıyla öne çıkan ticari olarak güvenli bir AI görsel üretim modelidir. Bu eğitim yaklaşımı, çoğu AI görsel üreticisini çevreleyen telif hakkı endişelerini doğrudan ele alarak Firefly'ı yasal uyumluluğun kritik olduğu ticari ve kurumsal kullanım için benzersiz biçimde uygun kılar. Photoshop, Illustrator ve Adobe Express dahil Adobe Creative Cloud uygulamalarına doğal olarak entegre edilen Firefly, milyonlarca yaratıcı profesyonelin günlük kullandığı araçlarda sorunsuz AI destekli iş akışları sağlayan Generative Fill, Generative Expand ve Text Effects gibi özellikleri güçlendirir. Model, güçlü prompt uyumuyla çeşitli stillerde yüksek kaliteli görseller üretir ve özellikle ticari olarak cilalı ve markaya uygun hissettiren içerik üretmede üstün performans gösterir. Adobe, kurumsal müşteriler için Firefly ile üretilen içerikle ilgili telif hakkı taleplerine karşı yasal koruma sunan bir fikri mülkiyet tazminat programı sağlar. Model, text-to-image üretimi, stil transferi, metin efektleri ve üretken düzenleme özelliklerini destekler. Adobe uygulamaları, özel Firefly web arayüzü ve geliştiriciler için bir API üzerinden erişilebilir. İçerik üreticileri, pazarlama ekipleri, reklam ajansları ve kurumsal tasarım departmanları Firefly'ı yasal güvenliği, mevcut Adobe iş akışlarıyla sorunsuz entegrasyonu ve tutarlı profesyonel çıktı kalitesi nedeniyle değerli bulur. Midjourney gibi modellerin sanatsal esnekliğine ulaşamasa da ticari güvenliği ve profesyonel araç entegrasyonu onu yasal olarak savunulabilir AI üretimi gerektiren işletmeler için vazgeçilmez kılar.

Tescilli
4.4
InstantID icon

InstantID

InstantX Team|N/A

InstantID, InstantX Team tarafından geliştirilen ve yalnızca tek bir referans fotoğrafı kullanarak belirli bir kişinin çeşitli stil, poz ve bağlamlarda görsellerini üretebilen sıfır atışlı kimlik koruyucu görsel üretim çerçevesidir. Birden fazla referans görsel veya zaman alıcı ince ayar gerektiren geleneksel yüz değiştirme veya kişiselleştirme yöntemlerinden farklı olarak InstantID, bir yüz kodlayıcı, IP-Adapter ve yüz referans noktası rehberliği için ControlNet'i birleştiren yenilikçi bir mimari aracılığıyla yalnızca bir yüz fotoğrafından doğru kimlik koruması sağlar. Sistem, referans görselinden detaylı yüz kimlik özelliklerini çıkarır ve üretim sürecine enjekte ederek üretilen kişinin çeşitli çıktı senaryolarında tanınabilir yüz hatlarını, oranlarını ve karakteristiklerini korumasını sağlar. InstantID, farklı sanatsal stillerde portreler üretme, kişiyi hayal edilen sahne veya bağlamlara yerleştirme, profil resimleri ve avatarlar oluşturma ve tutarlı karakter temsilleri içeren pazarlama materyalleri üretme dahil çeşitli yaratıcı uygulamaları destekler. Model, temel olarak Stable Diffusion XL ile çalışır ve açık kaynaklıdır, yerel dağıtım için GitHub ve Hugging Face üzerinde mevcuttur. Topluluk tarafından geliştirilen düğümler aracılığıyla ComfyUI ile entegre olur ve bulut API'leri üzerinden erişilebilir. Portre fotoğrafçıları, sosyal medya içerik üreticileri, kişiselleştirilmiş kampanyalar oluşturan pazarlama ekipleri, karakter varyantları tasarlayan oyun geliştiricileri ve kimlik tabanlı yaratıcı çalışmaları keşfeden dijital sanatçılar InstantID'yi kullanır. Çerçeve, sonraki kimlik koruma modellerini etkilemiştir ve açık kaynak ekosisteminde tek görsellik kimlik transferi için en etkili çözümlerden biri olmaya devam etmektedir.

Açık Kaynak
4.7
Luma Dream Machine icon

Luma Dream Machine

Luma AI|N/A

Luma Dream Machine, Luma AI tarafından geliştirilen ve metin istemlerinden veya referans görsellerden etkileyici hız ve görsel kaliteyle gerçekçi beş saniyelik video klipler oluşturan hızlı bir video üretim modelidir. Haziran 2024'te yayınlanan Dream Machine, doğal hareket dinamikleri, tutarlı karakter görünümleri ve fiziksel olarak tutarlı sahne geçişleri içeren klipler üretmek için büyük ölçekli video verisi üzerinde eğitilmiş transformer tabanlı bir mimariden yararlanır. Modelin öne çıkan özelliği üretim hızıdır; rekabetçi görsel kaliteyi korurken birçok rakip modelden önemli ölçüde daha hızlı video çıktıları üreterek hızlı denemenin vazgeçilmez olduğu iteratif yaratıcı iş akışları için özellikle uygun hale gelir. Dream Machine; kullanıcıların sahneleri detaylı doğal dil istemleriyle tanımladığı metinden videoya modunu ve durağan bir görselin başlangıç karesi olarak hizmet ettiği ve modelin makul ileri hareket ve sahne evrimi ürettiği görselden videoya modunu destekler. Model, insan hareketi, su akışı ve rüzgar efektleri gibi çevresel dinamikler, kamera hareketleri ve aydınlatma geçişleri üretmede güçlü yetenekler sergiler. Fotorealistik içerikten stilize ve sanatsal yorumlara kadar çeşitli görsel stilleri yönetir. Dream Machine'in mimarisi, uzamsal ilişkileri anlamasını ve üretilen diziler boyunca 3B tutarlılığı korumasını sağlayarak nesnelerin kareler arasında göreceli konumlarını ve oranlarını koruduğu videolar üretir. Luma AI platformu üzerinden tescilli bir hizmet olarak sunulan ve fal.ai ile Replicate gibi sağlayıcılar aracılığıyla API erişimi olan Dream Machine, sıradan kullanıcılar için ücretsiz katman erişimi ile kredi tabanlı bir fiyatlandırma modeliyle çalışır. Model, hızlı görsel prototipleme ve içerik üretim iş akışları için üretim hızı ve çıktı kalitesi kombinasyonuna değer veren içerik üreticileri, sinemacılar ve tasarımcılar arasında popüler hale gelmiştir.

Tescilli
4.6
Runway Image-to-Video icon

Runway Image-to-Video

Runway|N/A

Runway Image-to-Video, Runway'in Gen-3 Alpha modeli içindeki görsel animasyon yeteneğidir ve durağan görselleri profesyonel kalitede dinamik video içeriğine dönüştürmek için gelişmiş kamera ve hareket kontrolleri sunar. Haziran 2024'te yayınlanan bu mod, Gen-3 Alpha'nın güçlü video üretim mimarisini tek görselleri koşullandırma girdisi olarak kabul edecek şekilde genişleterek kaynak görselin görsel kimliğini, kompozisyonunu ve estetik niteliklerini korurken doğal hareket dinamikleri ekleyen makul zamansal evrim üretir. Model, metin tabanlı hareket açıklamaları, kaydırma, eğme, yakınlaştırma ve takip hareketlerini belirtmek için parametrik kamera kontrolleri ve görselin belirli bölgelerine hareket yönleri boyamak için hareket fırçası aracı dahil birden fazla arayüz seçeneği aracılığıyla üretilen hareket üzerinde ayrıntılı kontrol sağlar. Bu kontrol düzeyi, sahnenin nasıl canlandırılacağı konusunda yalnızca modelin otomatik hareket çıkarımına güvenmek yerine kesin yönetmenlik niyetine izin vererek Runway'in görselden videoya yeteneğini rakiplerinden ayırır. Model, gerçekçi kamera hareketleri, çevresel dinamikler, karakter animasyonları ve fiziksel etkileşimler üretmede olağanüstü kalite sergiler ve daha az gelişmiş yaklaşımlarda yaygın olan titreme veya morflama artefaktları olmadan üretilen kareler arasında zamansal tutarlılığı korur. Runway Image-to-Video; fotoğraflar, konsept sanat, illüstrasyonlar ve renderlanmış sahneler dahil çeşitli giriş içeriklerini yönetir ve her kaynağın görsel stiline ve fiziksel özelliklerine saygı duyan uygun hareket kalıpları uygular. Platform ayrıca daha önce üretilen bir klibin sonundan ek kareler üretmeye devam etmeyi sağlayan video uzatma desteği sunar. Runway platformu içinde tescilli bir özellik olan Image-to-Video, diğer Gen-3 Alpha yetenekleriyle aynı kredi tabanlı fiyatlandırma yapısıyla çalışır ve yüksek hacimli profesyonel video içeriği üretimi gerektiren bireysel yaratıcılar ve kurumsal ekipler için çeşitli abonelik katmanları sunar.

Tescilli
4.7
MusicGen icon

MusicGen

Meta|3.3B

MusicGen, Meta AI Research tarafından AudioCraft çerçevesinin bir parçası olarak geliştirilen tek aşamalı transformer tabanlı müzik üretim modelidir. Haziran 2023'te MIT lisansı altında yayınlanan MusicGen, birden fazla model gerektiren kademeli yaklaşımların aksine EnCodec'ten gelen sıkıştırılmış ayrık ses temsilleri üzerinde çalışan tek bir otoregresif dil modeli kullanır. Model 300M'den 3.3B parametreye kadar birden fazla boyutta sunularak kullanıcıların kalite ile hesaplama gereksinimleri arasında denge kurmasına olanak tanır. MusicGen metin açıklamalarından 32 kHz'de yüksek kaliteli mono ve stereo müzik üretir ve geniş bir tür, enstrüman, ruh hali ve müzikal stil yelpazesini destekler. Kullanıcılar tür, tempo, enstrümantasyon ve atmosfer gibi doğal dil komutlarıyla istenen müziği tanımlayabilir ve model belirtilen özelliklere uyan tutarlı müzikal kompozisyonlar üretir. Metinden müzik üretiminin ötesinde MusicGen, mevcut bir ses klibinin üretilen çıktının melodik yapısını yönlendirdiği melodi koşullandırmayı da destekleyerek daha kontrollü müzik oluşturmaya imkan tanır. Model hem nesnel ölçütlerde hem de öznel dinleme değerlendirmelerinde güçlü sonuçlar elde eder ve 30 saniyeye kadar doğal ve müzikal açıdan tutarlı müzik üretir. Kod ve ağırlıkları GitHub ve Hugging Face üzerinde mevcut olan tamamen açık kaynak bir model olarak MusicGen hem araştırma hem de yaratıcı topluluklarda en yaygın benimsenen AI müzik üretim araçlarından biri haline gelmiştir. Audiocraft Python kütüphanesi ve topluluk tarafından oluşturulan çeşitli arayüzler aracılığıyla mevcut ses prodüksiyon iş akışlarına kolayca entegre olur. MusicGen özellikle talep üzerine telifsiz arka plan müziği üretmeye ihtiyaç duyan içerik üreticileri, oyun geliştiricileri ve müzisyenler arasında popülerdir.

Açık Kaynak
4.6
Udio icon

Udio

Udio|N/A

Udio, eski Google DeepMind araştırmacıları tarafından geliştirilen, metin komutlarından vokal, şarkı sözleri ve enstrümantallerle yüksek kaliteli şarkılar üreten bir AI müzik üretim platformudur. Nisan 2024'te piyasaya sürülen Udio, ses sadakati açısından profesyonel stüdyo kayıtlarıyla yarışan dikkat çekici derecede gerçekçi ve müzikal açıdan tutarlı çıktılar üretmesiyle hızla ilgi toplamıştır. Platform vokal performansları, enstrümantal düzenlemeler, armoniler ve prodüksiyon efektleri dahil müzikal kompozisyonun tüm yönlerini birleşik bir süreçte üreten tescilli transformer tabanlı bir mimari kullanır. Udio ana akım pop ve rock'tan lo-fi, synthwave, Afrobeat ve çeşitli kültürlerden geleneksel halk müziğine kadar geniş bir müzik türü ve stil yelpazesini destekler. Üretilen şarkılar yüksek örnekleme hızlarında stüdyo kalitesinde ses, gerçekçi vokal tınıları, uygun müzikal dinamikler ve profesyonel ses miksajı ile mastering sunar. Platform kullanıcıların özel şarkı sözleri vermesine, şarkı yapısını belirlemesine ve metin açıklamaları aracılığıyla çeşitli müzikal parametreleri kontrol etmesine olanak tanır. Udio ayrıca kullanıcıların mevcut şarkıları uzatmak için ek bölümler üretebildiği ses uzatma özelliğini destekleyerek yinelemeli üretim yoluyla tam uzunlukta parçalar oluşturmayı mümkün kılar. Platform ücretsiz günlük üretimler ve ticari kullanım ile daha yüksek üretim limitleri için ücretli abonelik katmanlarıyla freemium modelde çalışır. Udio özellikle birçok rakip platformun başarmakta zorlandığı doğal vibrato, nefes sesleri ve duygusal ifade içeren vokal kalitesiyle dikkat çeker. Platform içerik üreticileri, AI destekli kompozisyonu keşfeden bağımsız müzisyenler, orijinal müziğe ihtiyaç duyan pazarlama ekipleri ve müzik eğitimi olmadan profesyonel şarkılar üretmek isteyen hobiciler arasında popülerdir.

Tescilli
4.6
Topaz Gigapixel AI icon

Topaz Gigapixel AI

Topaz Labs|N/A

Topaz Gigapixel AI, Topaz Labs tarafından geliştirilen, profesyonel fotoğrafçılar, grafik tasarımcılar ve görüntü işleme uzmanları için endüstri standardı bir araç olarak konumlanan AI destekli görsel büyütme ve iyileştirme için ticari bir masaüstü uygulamasıdır. Windows ve macOS'ta kullanılabilen yazılım, ince detayları, dokuları ve keskinliği koruyarak ve hatta geliştirerek görselleri yüzde 600'e kadar büyütmek için birden fazla AI modelini birleştiren tescilli bir hibrit sinir ağı mimarisi kullanır. Topaz Gigapixel AI yüzler, standart fotoğrafçılık, bilgisayar grafikleri ve düşük çözünürlüklü kaynaklar dahil farklı içerik türleri için özelleştirilmiş işleme modları içerir ve her mod hedef içeriği için mümkün olan en iyi sonuçları üretmek üzere optimize edilmiştir. Yazılım büyütme sırasında yüz detaylarını iyileştiren akıllı yüz algılama ve geliştirme özelliğine sahiptir ve çok düşük çözünürlüklü kaynak görsellerden bile doğal görünümlü sonuçlar üretir. Topaz Gigapixel AI büyük görsel hacimlerini işlemek için toplu işleme desteği sunar ve Adobe Lightroom ile Photoshop'a eklenti olarak entegre olarak profesyonel fotoğrafçılık iş akışlarına sorunsuz uyum sağlar. Uygulama görselleri GPU hızlandırması kullanarak kullanıcının makinesinde yerel olarak işler ve internet bağlantısı gerektirmeden gizlilik ve hızlı işleme sağlar. Çıktı kalitesi ticari büyütme yazılımları arasında en iyilerden biri olarak kabul edilir ve özellikle doğal dokuları korumada ve birçok AI büyütücüde yaygın olan yapay yumuşatmadan kaçınmada güçlüdür. Tek seferlik satın alma veya abonelik modeliyle tescilli bir ürün olarak Topaz Gigapixel AI özellikle baskıları büyüten profesyonel fotoğrafçılar, mülk görsellerini iyileştiren emlak fotoğrafçıları, kanıt görsellerini geliştiren adli analistler ve tarihi fotoğrafları modern çözünürlük standartlarına restore eden arşivciler tarafından değerlidir.

Tescilli
4.6
YOLOv10 icon

YOLOv10

Tsinghua University|8M-68M

YOLOv10, Tsinghua Üniversitesi araştırmacıları tarafından geliştirilen YOLO (You Only Look Once) gerçek zamanlı nesne algılama serisinin onuncu büyük iterasyonudur. Model, önceki tüm YOLO sürümlerinde bulunan son işleme darboğazını ortadan kaldıran, NMS gerektirmeyen (Non-Maximum Suppression free) temelden yeniden tasarlanmış bir mimari sunarak tutarlı gecikme ile gerçek uçtan uca nesne algılama sağlar. YOLOv10, eğitim sırasında bire-çok ve bire-bir etiket atamalarını birleştiren çift atama eğitim stratejisi kullanır ve gereksiz tahminler olmadan verimli çıkarım sürdürürken zengin denetim sinyalleri elde eder. Geliştirilmiş özellik birleştirmeli CSPNet omurgası üzerine inşa edilen model, Nano'dan (8M parametre) Ekstra Büyük'e (68M parametre) kadar altı ölçek varyantında sunularak uç cihazlar, mobil platformlar ve yüksek performanslı sunucularda dağıtıma olanak tanır. Her varyant hedef donanım profili için optimize edilmiştir ve kendi sınıfında en iyi doğruluk-gecikme dengesini sunar. YOLOv10, COCO kıyaslamasında son teknoloji performans elde ederek önceki YOLO sürümlerini ve RT-DETR gibi rakip modelleri önemli ölçüde düşük hesaplama maliyetiyle geride bırakır. AGPL-3.0 lisansı altında açık kaynak olarak yayınlanan model, eğitim, doğrulama ve dağıtım için Ultralytics ekosistemiyle sorunsuz entegre olur. Otonom sürüş, endüstriyel kalite kontrol, güvenlik gözetleme, perakende analitik ve robotik gibi alanlarda yaygın olarak kullanılır.

Açık Kaynak
4.7
PaddleOCR icon

PaddleOCR

Baidu|15M

PaddleOCR, Baidu tarafından PaddlePaddle derin öğrenme çerçevesi üzerinde geliştirilen, 80'den fazla dili endüstri düzeyinde doğruluk ve hızla destekleyen kapsamlı bir optik karakter tanıma sistemidir. En son PP-OCRv4 mimarisi, her biri maksimum performans için bağımsız olarak optimize edilmiş metin algılama, yön sınıflandırma ve metin tanıma olmak üzere üç aşamalı bir boru hattı kullanır. Hafif yapılandırmasında yaklaşık 15 milyon parametreyle PaddleOCR, doğruluk ve çıkarım hızı arasında olağanüstü bir denge sağlayarak hem sunucu GPU'larında hem de cep telefonları ve gömülü sistemler dahil uç cihazlarda verimli şekilde çalışır. Sistem, eğri metin, döndürülmüş metin, yoğun çok satırlı düzenler ve dokulu arka planlar üzerine yerleştirilmiş metin dahil karmaşık gerçek dünya senaryolarında metin tanımada mükemmel performans sergiler. PaddleOCR, her dil ailesi için özel tanıma modelleriyle Latin, Çince, Japonca, Korece, Arapça, Kiril ve düzinelerce başka yazı sistemini destekler. Temel OCR'nin ötesinde araç seti, taranan belgelerden tablo, başlık ve paragraf çıkarmak için belge yapı analizi ile fatura, fiş ve formlar için anahtar bilgi çıkarma yetenekleri içerir. Apache 2.0 lisansı altında tamamen açık kaynaklı olan PaddleOCR, GitHub'daki en çok yıldızlı OCR depolarından biri haline gelmiştir. Önceden eğitilmiş modeller, eğitim betikleri ve ONNX, TensorRT formatlarında dağıtım araçları sunar. Belge dijitalleştirme, plaka tanıma, fiş işleme ve el yazısı tanıma gibi alanlarda yaygın olarak kullanılır.

Açık Kaynak
4.6
FLUX LoRA icon

FLUX LoRA

Community|1M-50M (adapter)

FLUX LoRA, FLUX görüntü üretim modellerini özel stiller, konular ve kavramlarla özelleştirmek için LoRA (Low-Rank Adaptation) tekniği etrafında inşa edilmiş kapsamlı bir ince ayar çerçevesi ve adaptör ekosistemidir. Tipik olarak 1 ile 50 milyon parametre arasında değişen LoRA adaptörleri, temel FLUX modelinin dikkat katmanlarına eğitilebilir düşük ranklı matrisler enjekte ederek orijinal 12 milyar parametreli ağırlıkları değiştirmeden verimli özelleştirme sağlar. Bu yaklaşım, özelleştirme için hesaplama gereksinimlerini dramatik şekilde azaltır ve kullanıcıların yalnızca 15 ile 30 eğitim görüntüsü kullanarak bir saatten kısa sürede 8GB VRAM'e sahip tüketici GPU'larında özel LoRA adaptörleri eğitmesine olanak tanır. Ortaya çıkan adaptör dosyaları kompakttır, tipik olarak 50 ile 200 megabayt arasındadır ve öğrenilen stili veya konuyu etkinleştirmek için çıkarım zamanında herhangi bir FLUX temel modelinin üzerine yüklenebilir. FLUX LoRA ekosistemi, CivitAI ve Hugging Face gibi platformlarda binlerce topluluk tarafından oluşturulan adaptörle hızla büyümüştür; fotorealistik portrelerden anime'ye, belirli sanatsal tekniklerden marka kimliklerine ve bireysel yüz veya ürün görünümlerine kadar çeşitli stilleri kapsar. Birden fazla LoRA adaptörü, ayarlanabilir ağırlıklarla eşzamanlı olarak birleştirilebilir ve tek bir üretimde farklı stiller ile kavramların yaratıcı harmanlanmasını sağlar. Apache 2.0 lisansı altında tamamen açık kaynaklı olan eğitim araçları, Diffusers kütüphanesi, kohya-ss eğitici ve ComfyUI dahil popüler platformlarla entegre olur. Temel uygulamalar arasında marka tutarlı görsel kimlikler oluşturma, e-ticaret için ürüne özel modeller eğitme ve özel sanatsal stiller geliştirme yer alır.

Açık Kaynak
4.5
FLUX.1 LoRA icon

FLUX.1 LoRA

Black Forest Labs|12B

FLUX.1 LoRA, kullanıcıların güçlü 12 milyar parametreli FLUX.1 modellerini kendi eğitim verileriyle özelleştirerek uzmanlaşmış görsel üretim modelleri oluşturmasını sağlayan FLUX.1 model ailesi için Düşük Sıralı Adaptasyon ince ayar çerçevesidir. LoRA, donmuş temel model ağırlıklarına küçük eğitilebilir adaptör katmanları ekleyerek çalışır ve tam model eğitimi için gereken hesaplama kaynaklarına ihtiyaç duymadan belirli stilleri, karakterleri, nesneleri veya görsel kavramları yakalayan verimli ince ayar sağlar. FLUX.1 LoRA ile kullanıcılar en az 15 ile 30 referans görsel kullanarak özel modeller eğitebilir ve kişiselleştirilmiş AI görsel üretimini bireysel yaratıcılar ve küçük ekipler için erişilebilir kılar. Ortaya çıkan LoRA adaptörleri tipik olarak 50MB ile 200MB arasında değişen kompakt dosyalardır ve çıkarım zamanında uyumlu herhangi bir FLUX.1 temel modelinin üzerine yüklenebilir. Yaygın kullanım senaryoları arasında tutarlı karakter temsilleri, markaya özel görsel stiller, ürün görünüm modelleri, belirli sanatsal teknikler ve özel estetik tercihler eğitme yer alır. FLUX.1 LoRA ekosistemi hızla büyümüştür ve anime karakterlerden fotoğraf ön ayarlarına kadar çeşitli stilleri kapsayan binlerce topluluk tarafından oluşturulmuş LoRA, CivitAI ve Hugging Face gibi platformlarda mevcuttur. Eğitim, kohya-ss, ai-toolkit ve çeşitli bulut tabanlı eğitim platformları kullanılarak gerçekleştirilebilir. LoRA modelleri ComfyUI, Diffusers kütüphanesi ve diğer FLUX.1 destekleyen arayüzlerle uyumludur. Üretilen görsellerde tutarlı görsel kimlik gerektiren profesyonel tasarımcılar, marka yöneticileri, oyun stüdyoları ve içerik üreticileri FLUX.1 LoRA'nın özelleştirme yeteneklerinden özellikle faydalanır.

Açık Kaynak
4.7
Pika 1.0 icon

Pika 1.0

Pika Labs|N/A

Pika 1.0, Pika Labs tarafından geliştirilen ve güçlü yapay zeka video sentezini sezgisel düzenleme araçlarıyla birleştirerek profesyonel kalitede video oluşturmayı teknik uzmanlığı olmayan kullanıcılar için erişilebilir kılan yaratıcı bir video üretim platformudur. Aralık 2023'te yayınlanan Pika, Stanford araştırmasından doğarak kullanılabilir en kullanıcı dostu video üretim platformlarından biri haline gelmiş ve sadeleştirilmiş bir web arayüzü üzerinden hem metinden videoya hem de görselden videoya yetenekler sunmaktadır. Model, doğal dil açıklamalarından kısa video klipler üreterek yaratıcı istemleri tutarlı hareket, tutarlı aydınlatma ve görsel olarak çekici kompozisyonlarla içeriğe dönüştürür. Pika, kare içindeki belirli bölgelerde hareketi yönlendirmek için hareket kontrolü, mevcut klipleri uzatmak için video genişletme ve üretilen veya yüklenen içeriğin görsel estetiğini dönüştürmeye olanak tanıyan yeniden stillendirme yetenekleri gibi özellikler içeren entegre düzenleme araç seti ile kendini farklılaştırır. Platform, üretilen karakterlere konuşma eklemek için dudak senkronizasyonu işlevselliği sunar ve en boy oranlarını değiştirmek veya video içeriğinin görsel sınırlarını genişletmek için tuval genişletme özellikleri sağlar. Pika; sinematik görüntüler, animasyon, 3B renderlar ve stilize sanatsal içerik dahil çeşitli yaratıcı stilleri yönetir ve özellikle sosyal medya ve pazarlama için uygun görsel olarak cilalı kısa formatlı içerik üretiminde güçlüdür. Model, sınırlı ücretsiz üretimler sunan freemium fiyatlandırmayla bulut tabanlı tescilli bir hizmet olarak çalışır ve profesyonel kullanıcılar için ücretli abonelik katmanları sağlar. Pika, geleneksel video üretim kaynaklarına veya kapsamlı yapay zeka uzmanlığına erişimi olmadan hızla çekici video içeriği üretmesi gereken içerik üreticileri, sosyal medya yöneticileri ve pazarlama ekipleri arasında önemli bir ilgi kazanmıştır.

Tescilli
4.5
GroundingDINO icon

GroundingDINO

IDEA Research|172M

Grounding DINO, IDEA Research tarafından geliştirilen ve doğal dil metin açıklamalarına dayalı olarak bir görüntüdeki herhangi bir nesneyi bulan ve tanımlayan güçlü bir açık küme nesne algılama modelidir. Sabit kategori algılamadan dile dayalı görsel anlamaya doğru bir paradigma değişimini temsil eder. 172 milyon parametresiyle model, DINO algılama mimarisini metin grounding yetenekleriyle birleştirerek eğitim sırasında hiç görülmemiş nesneleri basitçe kelimelerle tanımlayarak algılamayı mümkün kılar. COCO'nun 80 sınıfı gibi sabit kategoriler üzerinde eğitilmiş geleneksel nesne algılayıcılardan farklı olarak Grounding DINO, 'raftaki kırmızı ayakkabılar' veya 'binadaki çatlamış pencere' gibi serbest biçimli metin sorguları kabul ederek rastgele nesneleri, parçaları, malzemeleri veya görsel kavramları bulabilir. Mimari, çapraz modalite dikkat katmanları aracılığıyla görüntü kodlayıcıdan görsel özellikleri metin kodlayıcıdan metinsel özelliklerle birleştirir ve görsel bölgeleri semantik açıklamalarıyla hizalamayı öğrenir. Grounding DINO, sıfır atış nesne algılama kıyaslamalarında son teknoloji sonuçlar elde eder ve SAM (Segment Anything Model) ile birleştirildiğinde herhangi bir görsel kavramın metin güdümlü segmentasyonu için güçlü bir boru hattı oluşturur. Apache 2.0 lisansı altında tamamen açık kaynaklı olan model, bilgisayarlı görü araştırma ve üretim sistemlerinde yaygın olarak kullanılır. Temel uygulamalar arasında otomatik görüntü açıklama ve etiketleme, görsel arama motorları, sözlü komutları anlayan robotik manipülasyon sistemleri, içerik moderasyon sistemleri ve görüntü içeriklerini tanımlayan erişilebilirlik araçları yer alır.

Açık Kaynak
4.6
Leonardo AI icon

Leonardo AI

Leonardo AI|N/A

Leonardo AI, oyun varlıkları, karakter tasarımı, konsept sanat ve ürün fotoğrafçılığı dahil belirli yaratıcı alanlara optimize edilmiş birden fazla ince ayarlı model sunan kapsamlı bir AI görsel üretim platformudur. Tek model çözümlerinden farklı olarak Leonardo, kullanıcıların belirli ihtiyaçlarına göre seçebileceği Leonardo Diffusion XL, Leonardo Vision XL ve DreamShaper gibi bir dizi özelleştirilmiş model sunar. Platform, gerçek zamanlı tuval düzenleme, AI destekli görsel rehberlik, 3D varlıklar için doku üretimi ve hareket oluşturma yetenekleri için yerleşik araçlara sahip sezgisel bir web arayüzü sunar. Leonardo'nun model eğitim pipeline'ı, kullanıcıların kendi veri setlerini kullanarak özel ince ayarlı modeller oluşturmasına olanak tanır ve en az 10 eğitim görseli ile markaya veya stile özel görsel üretim sağlar. Platform özellikle oyun geliştirme iş akışlarında öne çıkar ve tutarlı oyun ortamları, karakterler, öğeler ve arayüz elemanları üretmek için özel modeller sunar. ControlNet tarzı görsel koşullandırma, inpainting, outpainting ve prompt geliştirme özelliklerini destekler. Leonardo AI, ücretsiz kullanıcılar için günlük token tahsisi ve daha yüksek hacim ihtiyaçları için premium abonelik katmanları sunan freemium bir model üzerinde çalışır. Oyun geliştiricileri, bağımsız stüdyolar, konsept sanatçıları, e-ticaret işletmeleri ve sosyal medya içerik üreticileri birincil kullanıcı kitlesini oluşturur. API erişimi, ölçekte otomatik içerik üretimi için üretim pipeline'larına entegrasyonu mümkün kılar. Leonardo AI, sadece bir model değil hepsi bir arada yaratıcı platform olarak konumlanır.

Tescilli
4.5
RVC v2 icon

RVC v2

RVC Project|40M

RVC v2 (Retrieval-based Voice Conversion v2), bir kişinin sesini orijinal konuşma içeriğini, tonlama kalıplarını ve duygusal ifadeselliği koruyarak başka bir kişinin sesine dönüştüren gerçek zamanlı ses dönüştürme için açık kaynaklı bir AI modelidir. Geri alma tabanlı yaklaşımla geliştirilmiş VITS mimarisi üzerine inşa edilen yaklaşık 40 milyon parametreli model, hedef konuşmacının eğitim verisinden en yakın vokal özelliklerini bulmak ve eşleştirmek için bir özellik dizini kullanarak son derece doğal ve artefaktsız ses dönüşümleri sağlar. RVC v2, bir ses modeli eğitmek için hedef konuşmacıdan yalnızca 10 ile 20 dakikalık temiz ses gerektirir ve bu özelliğiyle mevcut en erişilebilir ses klonlama çözümlerinden biridir. Model, canlı yayın ve sesli sohbet uygulamaları için uygun gecikmelerle gerçek zamanlı çalışır ve modern tüketici GPU'larında gerçek zamandan daha hızlı ses işler. V2'deki önemli iyileştirmeler arasında azaltılmış nefeslilik artefaktları, RMVPE algoritmasıyla daha iyi perde takibi, geliştirilmiş ünsüz netliği ve 48kHz çıktı kalitesi desteği yer alır. MIT lisansı altında yayınlanan RVC v2, önceden eğitilmiş ses modelleri, eğitim kılavuzları ve entegrasyon eklentileri sağlayan kapsamlı bir toplulukla en yaygın kullanılan açık kaynak ses dönüştürme aracı haline gelmiştir. Yaygın uygulamalar arasında karakter sesleriyle içerik oluşturma, farklı vokal stillerinde müzik cover üretimi, ses gizliliği ve anonimleştirme, konuşma engelli kullanıcılar için erişilebilirlik araçları ve yaratıcı ses prodüksiyonu yer alır.

Açık Kaynak
4.4
FLUX Fill icon

FLUX Fill

Black Forest Labs|12B

FLUX Fill, Black Forest Labs tarafından geliştirilen FLUX model ailesinin profesyonel düzeyde bölge düzenleme, içerik doldurma ve görüntü genişletme için tasarlanmış özelleşmiş inpainting ve outpainting modelidir. Tüm FLUX modellerini güçlendiren 12 milyar parametreli Diffusion Transformer mimarisi üzerine inşa edilen FLUX Fill, bir girdi görüntüsü ve değiştirilecek bölgeyi gösteren ikili bir maske alarak çevreleyen bağlamla stil, aydınlatma, perspektif ve detay düzeyinde kusursuz şekilde uyumlu içerik üretir. Model, hem görüntü içindeki maskelenmiş alanların bağlamsal olarak uygun içerikle doldurulduğu inpainting görevlerinde hem de daha geniş kompozisyonlar oluşturmak için görüntü sınırlarının genişletildiği outpainting görevlerinde mükemmel performans sergiler. FLUX Fill, FLUX mimarisinin üstün prompt uyumunu kullanarak kullanıcıların maskelenmiş bölgede ne görünmesi gerektiğini metin açıklamalarıyla yönlendirmesine olanak tanır ve çıktı üzerinde hassas yaratıcı kontrol sağlar. Model, birden fazla malzeme ve dokuya yayılan bölgelerin doldurulması, mimari öğelerin yapısal sürekliliğinin korunması ve maskelenmiş yüz alanlarında fotorealistik insan özellikleri üretilmesi dahil karmaşık senaryoları işler. Tescilli bir model olarak FLUX Fill, Black Forest Labs'ın API'si ve Replicate, fal.ai dahil iş ortağı platformları üzerinden kullanım tabanlı fiyatlandırmayla erişilebilir. Profesyonel fotoğrafçılar istenmeyen öğeleri kaldırmak ve kompozisyonları genişletmek için, e-ticaret ekipleri ürün arka planı değiştirmek için, dijital sanatçılar yaratıcı kompozitleme için kullanır.

Tescilli
4.7
Ideogram 2.0 icon

Ideogram 2.0

Ideogram|N/A

Ideogram 2, Ideogram AI tarafından geliştirilen ve AI ile üretilen görsellerde tipografi ve metin render konusunda sektör standardı olarak kendini kanıtlamış bir text-to-image üretim modelidir. Çoğu görsel üretim modeli okunabilir ve doğru yazılmış metin üretmekte zorlanırken, Ideogram 2 posterler, logolar, kitap kapakları ve sosyal medya grafikleri dahil çeşitli bağlamlarda görsellere doğal şekilde entegre olan yüksek kaliteli tipografiyi tutarlı biçimde üretir. Model, önceki sürümünün başarısı üzerine geliştirilmiş fotorealistik yetenekler, iyileştirilmiş kompozisyonel doğruluk ve karmaşık çok öğeli promptların daha iyi anlaşılmasıyla inşa edilmiştir. Ideogram 2, fotorealizm ve 3D renderdan illüstrasyon, anime ve grafik tasarım estetiğine kadar birden fazla sanatsal stili destekler. Model, Ideogram web platformu ve API üzerinden erişilebilir olup hem ücretsiz hem de premium abonelik katmanları sunar. Mimarisi, standart difüzyon modeli yeteneklerinin ötesine geçen metin konumlandırma ve render için özelleştirilmiş dikkat mekanizmaları içerir. Grafik tasarımcılar, sosyal medya yöneticileri, pazarlama profesyonelleri ve küçük işletme sahipleri özellikle markalı içerik, tanıtım materyalleri ve harici araçlarda son işlem gerektirmeden entegre tipografi içeren tasarımlar oluşturmak için Ideogram 2'yi değerli bulur. Model ayrıca genel görsel üretim görevlerinde de iyi performans göstererek çeşitli konularda detaylı ve tutarlı görseller üretir. Metin render konusundaki benzersiz gücü, rakiplerin henüz tutarlı biçimde eşleştiremediği kritik bir boşluğu doldurur.

Tescilli
4.7
IP-Adapter icon

IP-Adapter

Tencent|22M

IP-Adapter, Tencent AI Lab tarafından geliştirilen ve temel modelin herhangi bir ince ayarını gerektirmeden text-to-image difüzyon modelleri için görsel rehberli üretim sağlayan bir görsel prompt adaptörüdür. Adaptör, bir CLIP görsel kodlayıcı kullanarak referans görsellerden görsel özellikler çıkarır ve bu özellikleri ayrıştırılmış bir dikkat mekanizması aracılığıyla difüzyon modelinin çapraz dikkat katmanlarına enjekte ederek çalışır. Bu, kullanıcıların metin promptlarının yanında referans görselleri görsel promptlar olarak sağlamasına olanak tanır ve metin açıklamasını takip ederken referansla stilistik öğeleri, kompozisyonel özellikleri veya görsel karakteristikleri paylaşan görseller üretmek için üretim sürecini yönlendirir. IP-Adapter, üretilen görselin referansın sanatsal stilini benimsediği stil transferi ve referanstan belirli konuların veya öğelerin çıktıda göründüğü içerik transferi dahil birden fazla çalışma modunu destekler. Adaptör hafiftir ve temel modelin çıkarım sürecine minimum hesaplama yükü ekler. Poz, stil ve içeriğin her birinin bağımsız olarak kontrol edilebildiği sofistike iş akışları sağlayarak çok modlu koşullandırma için ControlNet gibi diğer kontrol mekanizmalarıyla birleştirilebilir. IP-Adapter açık kaynaklıdır ve SD 1.5 ile SDXL dahil çeşitli Stable Diffusion sürümleri için mevcuttur. Topluluk uzantıları aracılığıyla ComfyUI ve Automatic1111 ile entegre olur. Üretilen görsellerde görsel tutarlılık sağlaması veya referans materyalden belirli estetik nitelikleri aktarması gereken dijital sanatçılar, ürün tasarımcıları, marka yöneticileri ve içerik üreticileri IP-Adapter'ın yeteneklerinden özellikle faydalanır.

Açık Kaynak
4.6
Veo 2 icon

Veo 2

Google DeepMind|N/A

Veo 2, Google DeepMind'ın 4K çözünürlüğe kadar yüksek kaliteli video içeriği üretebilen en gelişmiş video üretim modelidir ve yapay zeka destekli video sentezinin ön saflarını temsil eder. Aralık 2024'te yayınlanan Veo 2, Google'ın video anlama ve üretim alanındaki kapsamlı araştırmalarına dayanarak görsel sadakat, hareket gerçekçiliği, zamansal tutarlılık ve prompt kavrama açısından öncülüne göre önemli iyileştirmeler sunar. Model, hem metinden videoya hem de görselden videoya üretim modlarını destekleyerek detaylı doğal dil açıklamalarını yorumlayarak belirtilen sahneleri, karakterleri, eylemleri ve atmosferik koşulları doğru şekilde yansıtan video dizileri oluşturur. Veo 2, gerçek dünya fiziğinin olağanüstü anlayışını sergileyerek gerçekçi aydınlatma, gölgeler, yansımalar ve ikna edici bir fiziksel varlık hissi uyandıran malzeme özellikleri içeren videolar üretir. Model; alan derinliği, dolly çekimleri ve vinç hareketleri gibi kamera hareketleri ile gelişmiş kompozisyon teknikleri dahil karmaşık sinematik kavramları yöneterek görsel sofistikasyonu açısından profesyonel sinematografiyle yarışan görüntüler oluşturulmasını sağlar. Veo 2, uzun diziler boyunca karakter tutarlılığını koruma, doğal insan hareketi ve yüz ifadeleri üretme ile fotorealistik görüntülerden animasyon ve sanatsal yorumlara kadar çeşitli stillerde içerik üretmede üstün performans gösterir. Model, çoğu rakibe kıyasla daha uzun video dizilerinin üretimini destekler ve titreme ile morflama gibi yaygın artefaktları azaltan gelişmiş zamansal kararlılık sunar. Tescilli bir model olan Veo 2, şu anda Google ekosistemi içindeki sınırlı erişim kanalları aracılığıyla kullanılabilir olup Google ürün ve hizmetlerine daha geniş entegrasyon planlanmaktadır. Model, OpenAI'nın Sora'sı ve Runway'in Gen-3 Alpha'sı ile birlikte rekabetçi yapay zeka video üretim alanında Google'ın stratejik konumlanmasını temsil eder.

Tescilli
4.8
Kling Image-to-Video icon

Kling Image-to-Video

Kuaishou|N/A

Kling Image-to-Video, Kuaishou'nun Kling video üretim platformunun doğal hareket, zamansal tutarlılık ve yüksek görsel sadakatle referans görsellerden video içeriği oluşturmak için özel olarak tasarlanmış görsel animasyon modudur. Haziran 2024'te daha geniş Kling 1.5 model paketi kapsamında yayınlanan bu görselden videoya yeteneği, kullanıcıların başlangıç karesi olarak durağan bir görsel sağlamasına ve sahneyi bağlamsal olarak uygun hareket dinamikleriyle canlandıran video dizileri üretmesine olanak tanır. Model, giriş görselinin uzamsal kompozisyonunu, derinlik ilişkilerini ve anlamsal içeriğini anlamak için Kling'in güçlü transformer tabanlı mimarisinden yararlanır ve ardından üretilen dizi boyunca kaynak materyalle tutarlılığı koruyan makul zamansal evrim üretir. Kling Image-to-Video, gerçekçi yüz ifadeleri, vücut hareketleri ve giysi dinamikleri ile insan özneleri canlandırmanın yanı sıra rüzgar efektleri, su akışı ve atmosferik değişiklikler gibi doğal çevresel hareket üretmede özellikle güçlüdür. Model, kısa sosyal medya animasyonlarından uzun formatlı içerik üretimine kadar farklı yaratıcı ve ticari uygulamalar için esneklik sağlayan çeşitli çıktı süreleri ve çözünürlükleri destekler. Kullanıcılar, üretilen hareketin yönünü ve doğasını yönlendirmek için referans görselin yanında isteğe bağlı metin istemleri sağlayarak animasyon sonuçları üzerinde ek yaratıcı kontrol elde edebilir. Model, fotoğraflar, dijital sanat eserleri, illüstrasyonlar ve renderlanmış sahneler dahil çeşitli giriş içerik türlerini yönetir ve kaynağın görsel stiline ve fiziksel özelliklerine saygı duyan hareket kalıpları uygular. Tescilli bir hizmet olan Kling Image-to-Video, Kuaishou platformu ve fal.ai ile Replicate dahil üçüncü taraf API sağlayıcıları aracılığıyla erişilebilir olup profesyonel içerik üreticileri ve geliştirme ekipleri için özel yaratıcı araçlara ve üretim hatlarına entegrasyon sağlar.

Tescilli
4.6
Upscayl icon

Upscayl

Upscayl Team|N/A

Upscayl, Real-ESRGAN ve diğer süper çözünürlük modelleri üzerine inşa edilmiş, AI destekli görsel büyütme için ücretsiz ve açık kaynak bir masaüstü uygulamasıdır. Nayam Amarshe ve TGS963 tarafından geliştirilen Upscayl, gelişmiş AI görsel büyütmeyi Windows, macOS ve Linux platformlarında teknik olmayan kullanıcılar için erişilebilir kılan kullanıcı dostu bir grafik arayüz sağlar. Uygulama birden fazla AI büyütme modelini Electron tabanlı bir masaüstü uygulamasında sarmalayarak kullanıcıların herhangi bir komut satırı bilgisi veya Python ortamı kurulumu olmadan yalnızca birkaç tıklamayla görsel çözünürlüğünü artırmasına olanak tanır. Upscayl genel fotoğrafçılık, dijital sanat, anime ve keskinleştirme dahil farklı içerik türleri için optimize edilmiş önceden yüklenmiş birkaç büyütme modeli içerir ve her model hedef içeriğine uygun farklı estetik özellikler üretir. Kullanıcılar 2x, 3x veya 4x büyütme faktörlerini seçebilir ve toplu işleme yoluyla tek tek görselleri veya tüm klasörleri işleyebilir. Uygulama PNG, JPG ve WebP dahil yaygın görsel formatlarını destekler ve çıktı formatı ile kalite ayarları için seçenekler sunar. Upscayl ayrıca özel model yüklemeyi destekleyerek kullanıcıların topluluktan ek NCNN uyumlu büyütme modelleri içe aktarmasına olanak tanır. AGPL-3.0 lisansı altında yayınlanan Upscayl kodu GitHub üzerinde mevcut olan tamamen açık kaynaklıdır ve geniş bir kullanıcı ve katkıda bulunan topluluğu edinmiştir. Uygulama tamamen yerel olarak çalışır ve hassas görseller için gizlilik sağlayarak internet bağlantısı gerektirmez. Upscayl özellikle abonelik veya bulut işleme bağımlılığı olmadan görsel kalitesini artırmak için basit ve ücretsiz bir çözüme ihtiyaç duyan fotoğrafçılar, grafik tasarımcılar ve içerik üreticileri arasında popülerdir.

Açık Kaynak
4.5
SD Inpainting icon

SD Inpainting

Stability AI|1B

Stable Diffusion Inpainting, Stability AI'nin Stable Diffusion modelinin görüntü inpainting görevleri için özel olarak ince ayar yapılmış uzmanlaşmış varyantıdır ve kullanıcıların metin promptları rehberliğinde maskelenmiş görsel bölgelerini bağlamsal olarak tutarlı içerikle doldurmasını sağlar. 2022'de yayınlanan model, latent difüzyon mimarisini temel alır ancak maske farkındalıklı işleme için ek giriş kanallarıyla genişletilmiştir; orijinal görsel, maske ve maskelenmiş görsel U-Net mimarisine ek kanallar olarak beslenir. RunwayML iş birliğiyle geliştirilen v1.5 inpainting modeli 595K özenle seçilmiş örnek üzerinde eğitilmiş, topluluk tarafından geliştirilen SDXL tabanlı varyantlar ise daha yüksek çözünürlük ve gelişmiş kalite sunmuştur. Yaygın kullanım alanları arasında fotoğraflardan istenmeyen nesnelerin sorunsuz kaldırılması, hasarlı veya eksik bölgelerin tamamlanması, sahnelere yeni öğeler eklenmesi ve filigran ile metin katmanlarının temizlenmesi yer alır. Profesyonel uygulamalar fotoğraf post-prodüksiyonu, reklam görseli hazırlama, emlak fotoğrafçılığında mekan düzenleme, ürün fotoğrafçılığında arka plan değiştirme ve dijital sanat iş akışlarını kapsar. Model; AUTOMATIC1111 WebUI, ComfyUI, InvokeAI ve Hugging Face Diffusers kütüphanesi gibi popüler açık kaynak arayüzlerden kolayca erişilebilir. Maskeler fırça araçlarıyla manuel veya SAM gibi segmentasyon modelleriyle otomatik oluşturulabilir ve ControlNet entegrasyonu hassas çıktı yönlendirmesi için ek kontrol katmanları sağlar. CreativeML Open RAIL-M lisansıyla yayınlanan model, 8GB VRAM'li GPU'larda çalışır ve xFormers gibi optimizasyonları destekleyerek en yaygın açık kaynak inpainting çözümlerinden biri olmaya devam eder.

Açık Kaynak
4.4
This Person Does Not Exist icon

This Person Does Not Exist

Philip Wang|N/A

This Person Does Not Exist, Uber yazılım mühendisi Philip Wang tarafından oluşturulan, NVIDIA'nın StyleGAN teknolojisini kullanarak tamamen kurgusal insanların fotorealistik portrelerini üreten web tabanlı bir gösterim projesidir. Şubat 2019'da başlatılan web sitesi, sayfa her yenilendiğinde yeni bir AI üretimi insan yüzü oluşturarak viral bir sansasyona dönüşmüş ve üretken çekişmeli ağların gerçek fotoğraflardan ayırt edilemeyecek inandırıcı portreler sentezleme yeteneğini sergilemiştir. Temelindeki model, 70.000 yüksek çözünürlüklü gerçek insan yüzü fotoğrafı içeren FFHQ veri seti üzerinde eğitilmiş olup gerçekçi cilt dokuları, saç desenleri, aydınlatma, göz yansımaları ve doğal asimetrilere sahip özgün yüz kompozisyonları üretmeyi öğrenmiştir. Üretilen yüzler çeşitli yaş grupları, etnik kökenler ve cinsiyetler dahil geniş bir demografik çeşitlilik yelpazesini kapsar. Çıktılar ilk bakışta inandırıcı olsa da dikkatli inceleme zaman zaman asimetrik küpeler, bozuk arka planlar veya görsel kenarlarındaki saç tutarsızlıkları gibi belirleyici artifaktları ortaya çıkarabilir. Proje gösterim ötesinde birçok amaca hizmet eder: deepfake teknolojisi ve medya okuryazarlığı tartışmalarında yaygın olarak kullanılmış, tasarım mockup'ları ve arayüz prototiplemesi için gizlilik koruyan yer tutucu portre kaynağı olarak hizmet vermiş ve lisans endişesi olmadan stok fotoğraf benzeri görseller sunmuştur. Web sitesi tescilli olmakla birlikte temelindeki StyleGAN mimarisi açık kaynaklıdır. Proje, GAN yeteneklerinin en tanınmış kamusal gösterimlerinden biri olmaya devam etmekte ve giderek sofistike hale gelen sentetik içerik çağında AI üretimi medya özgünlüğü ve dijital güven hakkında önemli tartışmaları tetiklemektedir.

Tescilli
4.3
BRIA RMBG icon

BRIA RMBG

BRIA AI|N/A

BRIA RMBG, sorumlu ve ticari olarak lisanslı üretken yapay zeka çözümlerinde uzmanlaşmış İsrailli startup BRIA AI tarafından geliştirilen son teknoloji arka plan kaldırma modelidir. Model, ince saç detayları, saydam nesneler, karmaşık kenarlar, duman ve cam dahil zorlu senaryoları dikkat çekici hassasiyetle ele alarak ön plan öğelerini arka planlardan olağanüstü doğrulukla ayırır. BRIA RMBG, münhasıran lisanslı ve etik olarak temin edilmiş veriler üzerinde eğitilmiş tescilli bir mimari üzerine inşa edilmiştir ve internet'ten toplanan verilerle eğitilen modellerden farklılaşarak tam ticari güvenlik ve fikri mülkiyet uyumluluğu sağlar. İnce kenar detaylarını ve doğal saydamlık gradyanlarını koruyan yüksek kaliteli alfa matlar üreterek profesyonel iş akışlarına uygun temiz kesimler sağlar. RMBG 1.4 ve RMBG 2.0 sürümlerinde sunulan model, DIS5K ve HRS10K dahil arka plan kaldırma benchmark'larında sürekli en iyi performans gösterenler arasında yer alır. Hem araştırma hem ticari kullanım için izin verici lisansla Hugging Face üzerinden ve BRIA'nın ölçeklenebilir bulut işleme sunan ticari API platformu aracılığıyla erişilebilir. Python SDK, REST API ve popüler görsel işleme pipeline'larıyla uyumluluk dahil entegrasyon seçenekleri mevcuttur. Uygulamalar e-ticaret ürün fotoğrafçılığı, grafik tasarım kompozitleme, video konferans sanal arka planları, otomotiv ve emlak fotoğrafçılığı, sosyal medya içerik oluşturma ve belge sayısallaştırmayı kapsar. Modern GPU'larda milisaniyeler içinde işlem yapan model, gerçek zamanlı uygulamalar ve yüksek hacimli toplu işleme için uygundur. BRIA RMBG, mevcut en ticari güvenilir ve teknik açıdan gelişmiş arka plan kaldırma çözümlerinden biri olarak kendini kanıtlamıştır.

Açık Kaynak
4.7
Wan Video 2.1 icon

Wan Video 2.1

Alibaba|14B

Wan Video 2.1, Alibaba'nın yüksek görsel kaliteyi kontrol edilebilir üretim yetenekleriyle birleştiren, serbestçe erişilebilir en yetenekli video sentez çözümlerinden birini sunan açık kaynaklı video üretim modelidir. Difüzyon transformer mimarisi üzerine inşa edilen model, önceki açık kaynak video modellerine kıyasla geliştirilmiş zamansal tutarlılık, akıcı hareket ve iyileştirilmiş görsel sadakatle metinden videoya ve görselden videoya üretimi destekler. Hareket kontrolü, kamera yörüngesi belirleme ve referans görsel stillendirme dahil metin promptlarının ötesinde koşullandırma sinyalleriyle üretimi yönlendirmeye olanak tanıyan kontrol edilebilirlik özellikleri sunar ve tescilli çözümlere yaklaşan yaratıcı kontrol sağlar. Gerçekçi insan hareketinden doğal manzaralara, mimari çevrelerden stilize sanatsal içeriğe kadar çeşitli içerik türlerini tutarlı kaliteyle ele alır. Tüketici GPU'larına uygun hafif versiyonlardan maksimum kalite için tam ölçekli modellere kadar farklı donanım yetenekleri için optimize edilmiş çeşitli model varyantları mevcuttur. Apache 2.0 lisansı topluluk uzantılarını, özel ince ayarı ve yaratıcı pipeline'lara entegrasyonu teşvik eder. Bulut bağımlılığı olmadan yerel olarak çalışarak veri gizliliğini sağlar ve abonelik maliyetlerini ortadan kaldırır. Sosyal medya içerik oluşturma, reklam video üretimi, film konsept görselleştirmesi ve yaratıcı deneyler başlıca uygulamalardır. Hugging Face üzerinden dokümantasyon ve ComfyUI ile Diffusers entegrasyonlarıyla sunulur. Wan Video 2.1, Runway, Google ve OpenAI'ın tescilli modellerine rekabetçi alternatif sunarak Alibaba'yı açık kaynak video üretim ekosisteminde önemli bir katkıda bulunan olarak konumlandırır.

Açık Kaynak
4.5
Depth Anything v2 icon

Depth Anything v2

TikTok / ByteDance|25M-335M

Depth Anything v2, TikTok ve ByteDance araştırmacıları tarafından orijinal Depth Anything'in önemli bir yükseltmesi olarak geliştirilen son teknoloji monoküler derinlik tahmini modelidir. Model, stereo çiftlere veya özel derinlik sensörlerine ihtiyaç duymadan tek RGB görüntülerden hassas derinlik haritaları çıkarır. DPT (Dense Prediction Transformer) kod çözücü başlığıyla birleştirilmiş DINOv2 görüş temel modeli omurgası üzerine inşa edilen Depth Anything v2, selefine kıyasla ince ayrıntı koruma ve kenar keskinliğinde kayda değer iyileştirmeler sağlar. Model, farklı dağıtım senaryoları için doğruluk ve çıkarım hızı arasında esnek dengeler sunan 25 milyon ile 335 milyon parametre arasında değişen üç ölçek varyantında sunulur. V2'deki önemli bir yenilik, hassas derinlik sensörlerinden üretilen büyük ölçekli sentetik eğitim verilerinin sözde etiketli gerçek görüntülerle birleştirilmesidir ve bu yaklaşım önceki monoküler derinlik modellerindeki gürültü ve artefaktları önemli ölçüde azaltır. Model hem göreceli hem de metrik derinlik tahminleri üretir ve 3D sahne rekonstrüksiyonu, artırılmış gerçeklik, otonom navigasyon ve robotik gibi çeşitli uygulamalar için uygundur. Apache 2.0 lisansı altında tamamen açık kaynaklıdır ve Hugging Face üzerinden önceden eğitilmiş kontrol noktalarıyla erişilebilir. Stable Diffusion ve FLUX için ControlNet derinlik koşullandırma dahil yaratıcı AI iş akışlarıyla doğal olarak entegre olur ve sanatçıların derinlik farkındalı kompozisyonlar üretmesini sağlar.

Açık Kaynak
4.6
LivePortrait icon

LivePortrait

Kuaishou|Unknown

LivePortrait, Kuaishou Technology tarafından geliştirilen ve tek bir statik portre fotoğrafından ifade dolu ve canlı yüz animasyonları üreten verimli bir AI portre animasyon modelidir. Model, bir kaynak portre görüntüsü ve yüz hareketleri içeren bir sürücü video alır, ardından videodaki ifadeleri, baş rotasyonlarını, göz hareketlerini ve ağız jestlerini orijinal kişinin kimliğini ve görünümünü koruyarak portreye aktarır. Çarpıtma tabanlı render ile örtük anahtar nokta algılama mimarisi üzerine inşa edilen LivePortrait, etkileşimli uygulamalar ve canlı içerik oluşturma için pratik hale getiren gerçek zamanlı çıkarım hızları sağlar. Model, portre animasyonunda yüz sınırı bozulması, boyun kopması ve doğal olmayan göz hareketleri gibi yaygın artefaktları önleyen dikiş ve yeniden hedefleme modülleri sunarak öznenin doğal görünümünü koruyan kusursuz sonuçlar üretir. LivePortrait, fotoğraflar, tablolar, illüstrasyonlar ve hatta çizgi film karakterleri dahil çeşitli portre türlerini işleyerek animasyon yaklaşımını farklı sanatsal stillere uyarlar. Model, kaş kaldırma, göz kırpma veya gülümseme yoğunluğu gibi belirli yüz özelliklerinin bağımsız olarak seçici animasyonuna olanak tanıyan bireysel yüz eylem birimleri üzerinde ince ayarlı kontrol destekler. MIT lisansı altında tamamen açık kaynaklı olan LivePortrait, ComfyUI ve diğer yaratıcı araçlara entegre edilmiştir. Yaygın uygulamalar arasında sosyal medya için animasyonlu avatarlar oluşturma, sanal sunucular için yüz animasyonları üretme, tarihi fotoğraflardan ilgi çekici içerik oluşturma ve müzeler için etkileşimli portre deneyimleri geliştirme yer alır.

Açık Kaynak
4.5
OpenPose icon

OpenPose

CMU|25M

OpenPose, Carnegie Mellon Üniversitesi'nde geliştirilen ve görüntüler ile videolarda birden fazla kişinin vücut, yüz, el ve ayak anahtar noktalarını eşzamanlı olarak algılayan öncü gerçek zamanlı çoklu kişi poz tahmin sistemidir. Gerçek zamanlı çoklu kişi poz algılaması gerçekleştiren ilk açık kaynak sistem olarak OpenPose, bilgisayarlı görü araştırma ve yaratıcı AI uygulamalarında temel bir araç haline gelmiştir. Yaklaşık 25 milyon parametreli CNN (Evrişimli Sinir Ağı) mimarisi üzerine inşa edilen model, kalabalık sahnelerde algılanan vücut parçalarını doğru bireylerle ilişkilendirmek için Part Affinity Fields (PAF'ler) kullanır ve insanlar örtüştüğünde veya birbirini kısmen kapattığında bile doğru poz tahmini sağlar. OpenPose, kişi başına 25 noktalı tam vücut iskeleti, her el için 21 nokta ve 70 noktalı yüz olmak üzere 135'e kadar anahtar nokta algılayarak detaylı hareket analizi için kapsamlı poz bilgisi sunar. Sistem hem görüntüleri hem de video akışlarını işleyerek modern GPU'larda etkileşimli uygulamalar için uygun gerçek zamanlı performans sağlar. OpenPose, özellikle Stable Diffusion ve FLUX tabanlı üretim boru hatlarında ControlNet koşullandırma için standart poz çıkarma yöntemi olarak AI görüntü üretim iş akışlarına kapsamlı şekilde entegre edilmiştir. Özel ticari olmayan lisans altında yayınlanan kaynak kodu GitHub'da mevcuttur ve bilgisayarlı görü depoları arasında en yüksek yıldız sayılarından birine ulaşmıştır. Temel uygulamalar arasında animasyon ve oyun için hareket yakalama, fitness ve rehabilitasyon takibi, spor biyomekaniği analizi, işaret dili tanıma ve AI görüntü üretim araçları için poz koşullandırma sağlama yer alır.

Açık Kaynak
4.3
AnimateDiff icon

AnimateDiff

Yuwei Guo|N/A

AnimateDiff, Yuwei Guo tarafından geliştirilen ve mevcut mimariye öğrenilebilir zamansal dikkat katmanları ekleyerek herhangi bir kişiselleştirilmiş text-to-image difüzyon modelini video üreticisine dönüştüren bir hareket modülü çerçevesidir. Temmuz 2023'te yayınlanan AnimateDiff, hareket öğrenimini görsel görünüm öğreniminden ayırarak video üretimine çığır açıcı bir yaklaşım getirmiş ve kullanıcıların ince ayarlanmış Stable Diffusion modellerinin ve LoRA adaptasyonlarının geniş ekosistemini yeniden eğitim olmadan video oluşturmak için kullanmasına olanak tanımıştır. Temel yenilik, video verilerinden genel hareket kalıplarını öğrenen ve herhangi bir Stable Diffusion kontrol noktasına eklenerek o kontrol noktasının belirli görsel stilini ve kalitesini korurken çıktılarını canlandırabilen tak-çıkar bir hareket modülüdür. Hareket modülü, kareler arası öz dikkat içeren zamansal transformer blokları içerir ve nesnelerin doğal hareket ettiği ve sahne dinamiklerinin tutarlı kaldığı zamansal olarak tutarlı dizilerin üretilmesini sağlar. AnimateDiff, her mimari için optimize edilmiş farklı hareket modülü sürümleriyle hem SD 1.5 hem de SDXL temel modellerini destekler. Çerçeve, özelleştirilebilir kare sayıları, kare hızları ve hareket yoğunlukları ile animasyonlu GIF'ler ve kısa video döngüleri üretmeyi sağlar. Kullanıcılar AnimateDiff'i poz rehberli animasyon için ControlNet, referans tabanlı hareket için IP-Adapter ve stile özgü video üretimi için çeşitli LoRA modelleriyle birleştirebilir. Yaygın uygulamalar arasında animasyonlu sanat eserleri oluşturma, sosyal medya içeriği, oyun varlık animasyonu, ürün görselleştirme ve yaratıcı hikaye anlatımı dizileri yer alır. Apache 2.0 lisansı altında sunulan AnimateDiff, Hugging Face, Replicate ve fal.ai üzerinde erişilebilir olup ComfyUI iş akışları ve Automatic1111 uzantıları aracılığıyla kapsamlı topluluk desteğine sahiptir. Çerçeve, yaratıcıların emsalsiz esneklik ve kontrolle stilize animasyonlu içerik üretmesini sağlayarak en etkili açık kaynak video üretim yaklaşımlarından biri haline gelmiştir.

Açık Kaynak
4.5
IP-Adapter FaceID icon

IP-Adapter FaceID

Tencent|22M (adapter)

IP-Adapter FaceID, Tencent AI Lab tarafından geliştirilen ve yüz kimlik bilgisini difüzyon görüntü üretim sürecine enjekte ederek belirli bir kişinin yüz özelliklerini sadakatle koruyan yeni görüntüler oluşturmayı mümkün kılan özelleştirilmiş bir adaptör modülüdür. Geleneksel yüz değiştirme yaklaşımlarından farklı olarak, IP-Adapter FaceID, InsightFace kütüphanesinden yüz tanıma özellik vektörleri çıkarır ve bunları çapraz dikkat katmanları aracılığıyla difüzyon modeline besler, böylece modelin tutarlı yüz kimliğini korurken çeşitli sahneler, stiller ve kompozisyonlar üretmesine olanak tanır. Mevcut Stable Diffusion modellerinin üzerine katmanlanan yalnızca yaklaşık 22 milyon adaptör parametresiyle FaceID, kişiye özel ince ayar veya birden fazla referans görüntü gerektirmeden dikkat çekici kimlik koruması sağlar. Tek bir net yüz fotoğrafı, kişiyi çeşitli sanatsal stillerde, farklı kıyafetlerle, çeşitli ortamlarda ve yeni pozlarda üretmek için yeterlidir. Adaptör hem SDXL hem de SD 1.5 temel modellerini destekler ve poz, derinlik ve kompozisyon üzerinde ek kontrol için diğer ControlNet adaptörleriyle birleştirilebilir. IP-Adapter FaceID Plus varyantları, geliştirilmiş benzerlik ve ayrıntı koruması için yüz gömülerinin yanına ek CLIP görüntü özellikleri ekler. Apache 2.0 lisansı altında tamamen açık kaynaklı olan model, ComfyUI iş akışlarına ve Diffusers kütüphanesine yaygın olarak entegre edilmiştir. Yaygın uygulamalar arasında kişiselleştirilmiş avatar oluşturma, çeşitli sanatsal stillerde özel portre üretimi, hikaye anlatımında karakter tutarlılığı ve kişiselleştirilmiş pazarlama içeriği yer alır.

Açık Kaynak
4.5
XTTS v2 icon

XTTS v2

Coqui AI|467M

XTTS v2 (Cross-lingual Text-to-Speech v2), Coqui AI tarafından geliştirilen ve yalnızca 6 saniyelik bir ses örneğinden herhangi bir kişinin sesini kopyalayarak 17 desteklenen dilde konuşma sentezleyebilen çok dilli ses klonlama ve metinden konuşmaya modelidir. HiFi-GAN vocoder ile eşleştirilmiş GPT benzeri otoregresif mimari üzerine inşa edilen XTTS v2, 467 milyon parametresiyle doğal prozodi, tonlama ve duygusal ifadesellikle gerçekçi konuşma üretir. Modelin çapraz dil yeteneği, İngilizce bir örnekten klonlanan sesin orijinal konuşmacının vokal özelliklerini korurken Fransızca, İspanyolca, Almanca, Türkçe ve desteklenen diğer dillerde akıcı şekilde konuşmasına olanak tanır. XTTS v2 bunu, ses kimliğini dilsel içerikten ayıran dilden bağımsız konuşmacı gömme uzayı aracılığıyla başarır. Sentez kalitesi birçok dilde insan düzeyi doğallığına yaklaşır ve özellikle İngilizce, İspanyolca ve Portekizce'de güçlü performans sergiler. Model, gerçek zamanlı uygulamalar için akış çıkarımını destekleyerek konuşmalı AI ve etkileşimli ses asistanları için uygun gecikmelerde konuşma üretir. MPL-2.0 lisansı altında açık kaynaklı olan XTTS v2, gizlilik hassasiyeti olan uygulamalar için yerel olarak dağıtılabilir. Yaygın kullanım alanları arasında çok dilli sesli kitap anlatımları oluşturma, tutarlı ses kimliğiyle video içeriği yerelleştirme, erişilebilir metin-konuşma arayüzleri geliştirme, özel ses asistanları oluşturma ve e-öğrenme içerik üretimi yer alır.

Açık Kaynak
4.5
FLUX Redux icon

FLUX Redux

Black Forest Labs|12B

FLUX Redux, Black Forest Labs tarafından geliştirilen FLUX model ailesinin özel görsel varyasyon modeli olup referans görüntülerin temel stilini, renk paletini ve kompozisyon özünü korurken yaratıcı varyasyonlar üretmek için tasarlanmıştır. 12 milyar parametreli Diffusion Transformer mimarisi üzerine inşa edilen FLUX Redux, girdi olarak bir referans görüntü alır ve orijinalin görsel DNA'sını korurken içerik, kompozisyon veya perspektifte kontrollü varyasyonlar sunan yeni görüntüler üretir. Model, sanatsal teknik, renk uyumu, aydınlatma atmosferi ve doku nitelikleri dahil üst düzey stilistik özellikleri yakalar, ardından bunları kaynak materyalle estetik olarak tutarlı hissettiren taze kompozisyonlar üretmek için uygular. FLUX Redux, varyasyonun yönünü belirlemek için metin promptlarıyla birleştirilebilir ve kullanıcıların 'aynı stil ama dağ manzarası ile' veya 'benzer renk paleti ile kentsel sahne' gibi belirli değişiklikler talep etmesine olanak tanır. Bu özellik, pazarlama ekiplerinin birleşik bir estetiği paylaşan birden fazla görsele ihtiyaç duyduğu marka tutarlılığı iş akışları için özellikle güçlü kılar. Model ayrıca referansın güçlü bir stilistik önsel olarak hizmet ettiği ve metin promptlarının yeni içeriği tanımladığı görüntüden görüntüye iş akışlarını destekler. Tescilli bir model olan FLUX Redux, Black Forest Labs'ın API'si ve Replicate, fal.ai dahil iş ortağı platformları üzerinden kullanım tabanlı fiyatlandırmayla erişilebilir. Temel uygulamalar arasında sosyal medya kampanyaları için tutarlı görsel içerik serileri üretme, reklamcılıkta A/B testi için stil tutarlı varyasyonlar oluşturma ve sanatçıların her seferinde sıfırdan başlamadan görsel yön üzerinde yineleme yapması yer alır.

Tescilli
4.6
GFPGAN icon

GFPGAN

Tencent ARC|N/A

GFPGAN, Tencent ARC tarafından geliştirilen ve ciddi şekilde bozulmuş yüz görsellerini olağanüstü kaliteyle onarmak için önceden eğitilmiş bir StyleGAN2 modelinde gömülü üretici yüz önceliklerinden yararlanan pratik bir yüz restorasyon algoritmasıdır. İlk olarak Aralık 2021'de yayınlanan GFPGAN, giriş görsellerinin düşük çözünürlük, bulanıklık, gürültü, sıkıştırma artefaktları ve diğer bozulma biçimlerinin bilinmeyen kombinasyonlarından muzdarip olabileceği kör yüz restorasyon problemini ele alır. Modelin mimarisi, bir bozulma giderme modülünü StyleGAN2 tabanlı üretici öncelikle birleştirerek orijinal yüze sadakat ile üretici modelin sağladığı yüksek kaliteli yüz detayları arasında denge kuran yeni bir kanal bölünmeli uzamsal özellik dönüşüm katmanı kullanır. Bu yaklaşım, GFPGAN'ın bozulmuş girişte tamamen kaybolan cilt dokuları, göz netliği, saç telleri ve diş tanımı dahil ince yüz detaylarını geri kazanmasını sağlar. Model, bozulmuş görselden çoklu çözünürlükte özellikler çıkaran bir U-Net kodlayıcısı aracılığıyla yüzleri işler ve bu özellikler StyleGAN2 kod çözücüsünün özellik haritalarını modüle ederek orijinal kimliği korurken kaliteyi dramatik şekilde artıran bir çıktı üretir. GFPGAN; eski fotoğraf restorasyonu, düşük çözünürlüklü güvenlik kamerası görüntülerini iyileştirme, video görüşme kalitesini artırma, hasarlı aile fotoğraflarını kurtarma ve düşük kaliteli kaynak materyali profesyonel kullanıma hazırlama konularında üstün performans gösterir. Apache 2.0 lisansı altında açık kaynak olan model, Hugging Face ve Replicate üzerinde erişilebilir olup çok sayıda yaratıcı yapay zeka aracı ve iş hattına entegre edilmiş temel bir bileşen haline gelmiştir. Sentetik bozulma yerine gerçek dünya bozulma kalıplarını işleyebilme yeteneği, onu fotoğrafçılar, arşivciler ve içerik üreticileri tarafından karşılaşılan pratik restorasyon görevleri için özellikle değerli kılar.

Açık Kaynak
4.5
Luma Image-to-Video icon

Luma Image-to-Video

Luma AI|N/A

Luma Image-to-Video, Luma AI'nın Dream Machine'inin durağan görsellerden doğal hareket dinamikleri üreterek çekici video içeriği oluşturmak için tasarlanmış görsel animasyon yeteneğidir. Haziran 2024'te yayınlanan bu özellik, kullanıcıların fotoğrafları, illüstrasyonları ve dijital sanat eserlerini öznelerin doğal hareket ettiği, ortamların canlandığı ve kamera perspektiflerinin sinematik akıcılıkla değiştiği animasyonlu dizilere dönüştürmesini sağlar. Model, giriş görselini analiz ederek uzamsal kompozisyonunu, derinlik katmanlarını, özne konumlarını ve anlamsal içeriğini anlar, ardından bağlamsal olarak uygun ve fiziksel olarak makul hareket üreterek animasyon boyunca kaynağın görsel kimliğini korur. Dream Machine'in görselden videoya modu, metinden videoya yeteneğiyle aynı hızlı üretim hızından yararlanarak birçok rakipten önemli ölçüde daha hızlı sonuçlar üretir ve yaratıcı keşif sırasında hızlı iterasyon sağlar. İnsan hareketi ve ifadeleri, akan su ve sallanan bitkiler gibi çevresel dinamikler, kamera hareketleri ve ince atmosferik efektler dahil çeşitli hareket türleri üretmede yetkinlik sergiler. Kullanıcılar üretilen hareketin yönünü yönlendirmek için isteğe bağlı metin istemleri sağlayabilir. Farklı platform gereksinimlerine uyum sağlayan çeşitli çözünürlükleri ve süreleri destekler. Luma AI platformu üzerinden ve fal.ai ile Replicate aracılığıyla API erişimi sunan hizmet, ücretsiz katman erişimi ile Dream Machine kredi sistemiyle çalışır. Mevcut görsel varlıklardan özelleşmiş animasyon becerileri olmadan hızla animasyonlu içerik üretmesi gereken sosyal medya yaratıcıları, dijital sanatçılar ve pazarlama profesyonelleri arasında popüler hale gelmiştir.

Tescilli
4.5
CodeFormer icon

CodeFormer

Tencent ARC|N/A

CodeFormer, Nanyang Teknoloji Üniversitesi ve Tencent ARC iş birliğiyle geliştirilen, NeurIPS 2022 konferansında sunulan son teknoloji kör yüz restorasyon modelidir. Model, ciddi biçimde bozulmuş yüz görsellerini yüksek sadakatle restore etmek için ayrık codebook arama mekanizmasına sahip benzersiz bir Transformer tabanlı mimari kullanır. En ayırt edici özelliği, 0.0 ile 1.0 arasında değişen ayarlanabilir w parametresiyle kullanıcılara kimlik koruma ile restorasyon kalitesi arasında hassas ve esnek kontrol imkanı sunmasıdır. Mimari olarak üç temel bileşenden oluşur: yüksek kaliteli yüz veri setlerinden ayrık görsel kodlar öğrenen VQGAN encoder-decoder, bu öğrenilmiş temsilleri kalıcı olarak depolayan ayrık codebook ve restorasyon sırasında optimal kod kombinasyonlarını tahmin eden güçlü Transformer modülü. Bu yaklaşım, modelin ciddi bozulmalarda bile inandırıcı ve gerçekçi yüz detayları üretmesini sağlar çünkü bilgiyi bozuk girdiden değil önceden öğrenilmiş yüksek kaliteli ön bilgilerden alır. CelebA-HQ ve WIDER-Face veri setlerinde yapılan kapsamlı benchmark testlerinde CodeFormer, FID, NIQE ve kimlik benzerliği metriklerinde önceki yöntemlere kıyasla tutarlı biçimde üstün sonuçlar elde etmiştir. Pratik kullanım alanları arasında eski aile fotoğraflarının restorasyonu, yapay zeka ile üretilmiş görsellerdeki yüz kalitesinin iyileştirilmesi, düşük çözünürlüklü video karelerinden yüz detayı çıkarma ve profesyonel fotoğraf rötuşlama yer alır. Açık kaynaklı olan model, ComfyUI, AUTOMATIC1111 WebUI ve Fooocus gibi popüler araçlarla entegre çalışır ve Replicate API ile Hugging Face Spaces üzerinden bulut tabanlı erişim sunar.

Açık Kaynak
4.6
DWPose icon

DWPose

IDEA Research|100M

DWPose, IDEA Research tarafından geliştirilen ve vücut anahtar noktalarını, el hareketlerini ve yüz referans noktalarını tek bir birleşik çerçevede algılayan son teknoloji tüm vücut poz tahmini modelidir. CNN ve Transformer bileşenlerini birleştiren RTMPose tabanlı mimari üzerine inşa edilen DWPose, hızlı çıkarım hızlarını korurken OpenPose ve diğer geleneksel poz tahmin sistemlerine kıyasla üstün doğruluk elde eder. Yaklaşık 100 milyon parametreli model, tam vücut iskeleti, bireysel parmak eklemleriyle her iki el ve 68 yüz referans noktasını kapsayan 133 anahtar noktayı tek bir ileri geçişte eşzamanlı olarak tahmin ederek kapsamlı poz bilgisi sağlar. DWPose, çıkarılan poz verilerinin Stable Diffusion ve FLUX gibi difüzyon modellerini belirli vücut pozisyonları ve jestlere uygun görüntüler üretmeye yönlendirdiği ControlNet tabanlı görüntü üretim iş akışları için tercih edilen poz tahmini omurgası haline gelmiştir. Model, tek bir karede birden fazla kişiyi işler, farklı vücut tipleri, giysi stilleri ve kısmi oklüzyonlarda güvenilir çalışır ve örtüşen uzuvlar veya alışılmadık pozlar gibi zorlu senaryolarda bile doğruluğunu korur. Apache 2.0 lisansı altında yayınlanan DWPose tamamen açık kaynaklıdır ve ComfyUI, Diffusers kütüphanesi ve özel animasyon boru hatlarıyla sorunsuz entegre olur. AI görüntü üretiminin ötesinde, oyun geliştirme için hareket yakalama, fitness takip uygulamaları, işaret dili tanıma, dans koreografi analizi ve spor biyomekaniği araştırmalarında hizmet verir.

Açık Kaynak
4.5
DreamShaper icon

DreamShaper

Lykon|1B

DreamShaper, Lykon tarafından geliştirilen ve fotorealistik ile sanatsal çıktı stilleri arasındaki olağanüstü dengesiyle yaygın olarak tanınan Stable Diffusion ekosistemindeki en popüler topluluk ince ayar modellerinden biridir. Stable Diffusion ve sonradan SDXL temel modellerinden ince ayarlanmış özel bir checkpoint olarak inşa edilen DreamShaper, her biri gerçekçi aydınlatma ve dokuları resimsel sanatsal niteliklerle harmanlayan canlı, detaylı görseller üretme becerisini rafine eden birçok sürüm boyunca evrimleşmiştir. Model, portre üretimi, fantezi ve bilimkurgu illüstrasyonu, manzara fotoğrafçılığı ve karakter konsept sanatında mükemmeldir ve minimum prompt mühendisliği gerektirerek tutarlı biçimde görsel olarak çekici sonuçlar üretir. DreamShaper'ın ayırt edici estetiği, zengin renk paletleri, sinematik aydınlatma ve dijital sanatçılar ve içerik üreticileri arasında favori yapan doğal bir derinlik hissi sunar. CivitAI ve Hugging Face üzerinde açık kaynak lisansıyla mevcut olan model, ücretsiz indirilebilir ve ComfyUI, Automatic1111 ve InvokeAI dahil tüm büyük Stable Diffusion arayüzleriyle uyumludur. SD 1.5 sürümleri için 4GB ve üzeri, SDXL varyantları için 8GB ve üzeri VRAM ile tüketici GPU'larında verimli çalışır. Hobi sahipleri, dijital sanatçılar, oyun geliştiricileri ve sosyal medya içerik üreticileri birincil topluluğunu oluşturur. DreamShaper, LoRA kombinasyonlarını, ControlNet koşullandırmasını ve tüm standart Stable Diffusion iş akışlarını destekler. Birden fazla Stable Diffusion nesli boyunca süren popülerliği, açık kaynak AI ekosisteminde topluluk odaklı model geliştirmenin değerini göstermektedir.

Açık Kaynak
4.4
FaceSwap ROOP icon

FaceSwap ROOP

s0md3v|N/A

FaceSwap ROOP, s0md3v tarafından oluşturulan ve InsightFace algılama ile inswapper sinir ağını birleştirerek görsel ve videolarda tek tıkla yüz değiştirme imkanı sunan açık kaynaklı bir yüz değiştirme aracıdır. Mayıs 2023'te yayınlanan araç, herhangi bir veri seti hazırlığı veya model eğitimi gerektirmeden yalnızca tek bir kaynak görsel ve hedef medya dosyasıyla yüz değiştirmeyi mümkün kılarak basitliği ve etkinliğiyle hızla popülerlik kazanmıştır. Altyapıdaki mimari, hem kaynak hem de hedef içerikte yüzleri tanımlamak için doğru yüz algılama ve işaret noktası tanıma amacıyla InsightFace'i kullanırken, inswapper modeli doğal aydınlatma, cilt tonu ve ifade özelliklerini koruyarak kaynaktan hedefe yüz özelliklerini eşleştirerek gerçek yüz değiştirme işlemini gerçekleştirir. ROOP, değiştirilen yüzler ile çevreleyen bağlam arasında sorunsuz harmanlama elde etmek için geleneksel bilgisayarla görme tekniklerini derin öğrenme modelleriyle birleştiren hibrit bir sistem olarak çalışır. Araç hem görsel hem de video işlemeyi destekler ve video içeriğinde zamansal tutarlılıkla kare kare yüz değiştirme gerçekleştirir. Yaygın kullanım alanları arasında yaratıcı içerik üretimi, film ve video post-prodüksiyon, sosyal medya eğlencesi, yüz anonimleştirme yoluyla gizlilik koruması ve yapay zeka yeteneklerinin eğitim amaçlı gösterimi yer alır. MIT lisansı altında sunulan ROOP, yerel olarak çalıştırılabilir veya Replicate ve fal.ai gibi bulut platformları üzerinden erişilebilir. Kötüye kullanımı önlemek için yerleşik NSFW filtreleme ve etik kullanım yönergeleri içerir. Kullanım kolaylığı, açık kaynak erişilebilirliği ve sıfır eğitim gereksinimi kombinasyonuyla yapay zeka topluluğunda en yaygın kullanılan yüz değiştirme araçlarından biri konumundadır.

Açık Kaynak
4.3
Stable Video Diffusion icon

Stable Video Diffusion

Stability AI|1.5B

Stable Video Diffusion, Stability AI tarafından geliştirilen ve görsellerden ile metin istemlerinden kısa video klipler üreten temel bir video üretim modelidir. Kasım 2023'te yayınlanan SVD, hareket kalitesi ve görsel çeşitliliği vurgulayan sistematik bir veri kürasyon hattıyla yüksek kaliteli video kliplerden oluşan küratörlü veri kümesi üzerinde eğitilmiş, rekabetçi video üretim kalitesi sergileyen ilk açık kaynak modellerden biridir. Gizli difüzyon yaklaşımını zamansal alana genişleten 1,5 milyar parametreli mimari üzerine inşa edilen SVD, video karelerini sıkıştırılmış gizli uzaya kodlar ve tutarlı kare dizileri için zamansal dikkat katmanlarına sahip 3B U-Net uygular. Temel model, 576x1024 çözünürlükte 14 kare üreterek akıcı hareketli iki ila dört saniyelik video oluşturur. SVD birincil modu olarak görselden videoya üretimi destekler; koşullandırma görseli alarak makul ileri hareket üretir. Doğal kamera hareketleri, akan su ve hareket eden bulutlar gibi çevresel dinamikler ve ince nesne animasyonları üretmede yetkinlik sergiler. Eğitim hattı üç aşamayı vurgular: görsel ön eğitim, küratörlü veri üzerinde video ön eğitimi ve premium içerik üzerinde yüksek kaliteli video ince ayarı. Stability AI Community lisansı altında yayınlanan SVD, Stability AI, fal.ai, Replicate ve Hugging Face üzerinden erişilebilir olup uygun GPU kaynaklarıyla yerel olarak çalıştırılabilir. Model, çeşitli alt akış uygulamaları için yapı taşı olarak hizmet eder ve topluluk ince ayarı ile yaratıcı iş akışı entegrasyonu yoluyla genişletilmiştir.

Açık Kaynak
4.3
Hailuo MiniMax icon

Hailuo MiniMax

MiniMax|N/A

Hailuo MiniMax, Çinli yapay zeka şirketi MiniMax tarafından geliştirilen, etkileyici hareket kalitesi ve doğal, akıcı hareket dinamikleriyle görsel olarak çekici video içeriği üretme yeteneğiyle öne çıkan yüksek kaliteli bir video üretim modelidir. Eylül 2024'te yayınlanan Hailuo, yapay zeka video modelleri arasında en gerçekçi hareket kalıplarından bazılarını üreterek uluslararası tanınırlık kazanmış ve özellikle insan hareketi, yüz ifadeleri ve karmaşık fiziksel etkileşimlerde üstün performans sergilemiştir. Model, hem metinden videoya hem de görselden videoya üretim modlarını destekleyerek doğal dil açıklamalarını ve referans görselleri kabul eder ve tutarlı görsel kalite ile zamansal tutarlılığa sahip kısa video klipler oluşturur. Hailuo'nun transformer tabanlı mimarisi, yerçekimi, momentum, kumaş hareketi ve çevresel etkileşimler dahil fiziksel dünya dinamiklerinin güçlü anlayışını sergileyen video içeriği üretmek için çok modlu girdileri işler. Model, fotorealistik sahnelerden stilize sanatsal içeriğe kadar çeşitli içerik türlerini yönetir ve özellikle profesyonel düzeyde aydınlatma ve kompozisyonla sinematik kalitede görüntüler üretmede güçlüdür. Çeşitli çıktı çözünürlüklerini ve en boy oranlarını destekleyerek sosyal medya, reklam materyalleri ve farklı platformlardaki yaratıcı projeler için uygun hale gelir. Uluslararası video üretim kıyaslamalarında rekabetçi performans sergileyerek hareket kalitesi değerlendirmelerinde sıklıkla Batılı rakiplerle aynı seviyede veya üzerinde yer alır. Tescilli bir model olan Hailuo, MiniMax platformu ve fal.ai ile Replicate dahil üçüncü taraf API sağlayıcıları aracılığıyla erişilebilir olup geliştiricilerin yeteneklerini özel uygulamalara ve üretim iş akışlarına entegre etmesini sağlar. Model, üretici video teknolojisinde Çin yapay zeka araştırmasının artan gücünü temsil etmektedir.

Tescilli
4.6
Pika Image-to-Video icon

Pika Image-to-Video

Pika Labs|N/A

Pika Image-to-Video, Pika Labs'ın yaratıcı video platformunun durağan görselleri yaratıcı hareket efektleri ve sezgisel kontrollerle dinamik video içeriğine dönüştüren görsel animasyon özelliğidir. Aralık 2023'te Pika 1.0 kapsamında yayınlanan bu yetenek, kullanıcıların herhangi bir görseli yüklemesine ve sahnenin yapay zeka tarafından çıkarılan hareket dinamikleriyle hayat bulduğu video dizileri üretmesine olanak tanıyarak statik görsellerden çekici animasyonlu içerik oluşturmaya basit ama güçlü bir yaklaşım sunar. Model, giriş görselini analiz ederek uzamsal kompozisyonunu, konu içeriğini ve derinlik ilişkilerini anlar, ardından kaynak materyalin görsel bütünlüğünü korurken sahneyi canlandıran bağlamsal olarak uygun hareket kalıpları uygular. Pika'nın görselden videoya özelliği, görselin seçili bölgelerine belirli hareket türleri ekleme, animasyon sırasında görsel stili değiştirme ve statik görselleri görsel olarak çarpıcı video içeriğine dönüştüren dramatik sinematik efektler uygulama gibi basit kamera hareketlerinin ötesine geçen yaratıcı hareket efektleri ile kendini farklılaştırır. Platform, animasyonlu içeriğin çerçevelemesini değiştirmek için tuval genişletme, karakter portrelerine konuşma eklemek için dudak senkronizasyonu ve kare içinde belirli hareket kalıplarını yönlendirmek için hareket kontrolü fırçaları gibi özellikleri destekler. Model; fotoğraflar, illüstrasyonlar, dijital sanat, memler ve tasarım maketleri dahil çeşitli giriş içerik türlerini yöneterek sosyal medya içerik oluşturmadan pazarlama materyali üretimine ve sanatsal deneyime kadar geniş bir yaratıcı uygulama yelpazesi için erişilebilir hale gelir. Difüzyon tabanlı mimari, üretilen diziler boyunca akıcı zamansal geçişler ve tutarlı görsel kalite sağlar. Pika'nın bulut tabanlı platformu içinde tescilli bir özellik olan Image-to-Video, sınırlı ücretsiz üretimlerle freemium fiyatlandırma ve içerik üretim iş akışları için daha yüksek hacimli çıktı ve gelişmiş yaratıcı kontroller gerektiren profesyonel kullanıcılar için ücretli abonelik katmanları aracılığıyla sunulur.

Tescilli
4.4
TripoSR icon

TripoSR

Stability AI & Tripo|N/A

TripoSR, Stability AI ve Tripo AI tarafından ortaklaşa geliştirilen, tek giriş görsellerinden bir saniyeden kısa sürede detaylı 3D mesh'ler üreten hızlı bir ileri beslemeli 3D rekonstrüksiyon modelidir. Nesne başına dakikalar süren optimizasyon tabanlı yöntemlerin aksine, TripoSR Büyük Rekonstrüksiyon Modeli çerçevesi üzerine inşa edilmiş transformer tabanlı mimarisi sayesinde tek bir 2D fotoğraftan 3D geometriyi doğrudan tahmin eder. Model herhangi bir standart görseli girdi olarak kabul eder ve oyun motorları, 3D modelleme yazılımları ve artırılmış gerçeklik uygulamalarında kullanıma uygun dokulu 3D mesh üretir. Günlük nesneleri, mobilyaları, araçları, karakterleri ve organik şekilleri etkileyici geometrik doğruluk ve yüzey detayıyla yeniden yapılandırmada üstün performans gösterir. Mart 2024'te MIT lisansı altında yayınlanan model tamamen açık kaynaklıdır ve özel donanım gerektirmeden tüketici sınıfı GPU'larda çalışabilir. Birden fazla görselin verimli dönüşümü için toplu işleme desteği sunar ve Blender, Unity ile Unreal Engine dahil popüler 3D iş akışlarıyla sorunsuz entegre olur. Ürün fotoğraflarından hızlı 3D varlık oluşturmaya ihtiyaç duyan oyun geliştiricileri, ürün tasarımcıları ve e-ticaret ekipleri için özellikle değerlidir. Çıktı mesh'leri yapılandırılabilir çözünürlük ayarlarıyla OBJ ve GLB formatlarında dışa aktarılabilir. DINOv2 vizyon kodlayıcısı giriş görselinden zengin semantik ve yapısal özellikler çıkararak rekonstrüksiyon kalitesini artırır. TripoSR pahalı tarama ekipmanı veya manuel modelleme uzmanlığı gerektirmeden yüksek kaliteli rekonstrüksiyonu erişilebilir kılarak 3D içerik üretiminin demokratikleşmesinde önemli bir adımı temsil eder.

Açık Kaynak
4.5
Bark icon

Bark

Suno AI|N/A

Bark, Suno AI tarafından geliştirilen, metni doğal ses tonuyla konuşma, müzik ve ses efektlerine dönüştüren transformer tabanlı text-to-audio üretim modelidir. Nisan 2023'te MIT lisansı altında açık kaynak olarak yayınlanan Bark, geleneksel text-to-speech sistemlerinin çok ötesine geçerek metin açıklamalarından yalnızca konuşulan kelimeleri değil aynı zamanda gülme, iç çekme, müzik ve ortam seslerini de üretir. Model ses belirteçleri üreten ve ardından dalga biçimlerine dönüştürülen bir GPT tarzı otoregresif transformer mimarisi ile EnCodec ses tokenizörü kullanır. Bark İngilizce, Çince, Fransızca, Almanca, Hintçe, İtalyanca, Japonca, Korece, Lehçe, Portekizce, Rusça, İspanyolca ve Türkçe dahil birçok dili destekleyerek mevcut en çok dilli açık kaynak ses üretim modellerinden biri konumundadır. Model kısa ses örneklerinden ses özelliklerini klonlayabilir ve kullanıcıların belirli seslerde veya konuşma stillerinde konuşma üretmesine olanak tanır. Bark sıfır atışlı bir şekilde çalışır yani göreve özel ince ayar olmadan çeşitli çıktılar üretebilir. Üretim insan konuşma kalıplarını yakından taklit eden doğal prozodi, duygu ve tonlama içerir. Model çoğu uygulama için makul kalitede 24 kHz örnekleme hızında ses üretir. Önceden eğitilmiş ağırlıkları Hugging Face ve GitHub üzerinde mevcut olan tamamen açık kaynak bir proje olarak Bark ses uygulamaları geliştiren yazılımcılar, çok dilli ses içeriği üreten içerik üreticileri ve üretken ses modellerini araştıran akademisyenler tarafından yaygın olarak kullanılır. Model özellikle tek bir birleşik mimaride çeşitli ses türlerini işlemedeki çok yönlülüğü ve ses üretim uygulamalarının hızlı prototiplenmesi için erişilebilirliğiyle değerlidir.

Açık Kaynak
4.4
Lama Cleaner icon

Lama Cleaner

Sanster|N/A

Lama Cleaner, fotoğraflardan istenmeyen nesneleri, filigranları, metin katmanlarını ve kusurları minimum çabayla kaldırmak için tasarlanmış, LaMa (Large Mask Inpainting) modeli üzerine kurulu açık kaynaklı bir görsel inpainting aracıdır. Sanster tarafından erişilebilir bir masaüstü uygulaması olarak geliştirilen araç, kullanıcı dostu fırça tabanlı bir arayüz sunar; kullanıcılar kaldırmak istedikleri alanı boyar ve yapay zeka bölgeyi çevre görüntüyle uyumlu içerikle doldurur. Temelindeki LaMa modeli, geleneksel inpainting yaklaşımlarının zayıf noktası olan büyük maskelenmiş alanları başarıyla işleyen hızlı Fourier evrişim tabanlı bir mimari kullanır. Bulut işleme gerektiren birçok AI aracının aksine, Lama Cleaner tamamen yerel olarak çalışarak gizliliği korur ve abonelik maliyetlerini ortadan kaldırır. Araç, LaMa'nın yanı sıra LDM, ZITS, MAT ve Stable Diffusion tabanlı modeller dahil birden fazla inpainting motorunu destekleyerek kullanıcılara görevlerine en uygun motoru seçme esnekliği sağlar. Çeşitli görsel formatlarını destekler ve hem fotoğrafları hem de illüstrasyonları etkili biçimde işleyebilir. Yaygın kullanım alanları arasında seyahat fotoğraflarından turistlerin kaldırılması, mimari çekimlerden elektrik hatlarının silinmesi, taranan fotoğraflardan tarih damgalarının temizlenmesi ve portrelerde cilt kusurlarının giderilmesi yer alır. Pip ile kurulabilen Python paketi olarak ve tarayıcı erişimi için web tabanlı arayüz olarak sunulur. Güçlü AI inpainting, yerel işleme ve sıfır maliyet kombinasyonu, onu hızlı nesne kaldırma ihtiyacı duyan fotoğrafçılar, tasarımcılar ve içerik üreticileri için vazgeçilmez bir araç haline getirir.

Açık Kaynak
4.5
Chatterbox TTS icon

Chatterbox TTS

Resemble AI|300M

Chatterbox TTS, Resemble AI tarafından geliştirilen, minimal ses örneklerinden duygu kontrolü ve ses klonlama yetenekleriyle doğal sesli konuşma üreten açık kaynaklı bir metinden konuşmaya modelidir. Duygusal ton, konuşma hızı, perde varyasyonu ve vurgu üzerinde ince ayarlı kontrol ile ifadeli ve insan benzeri konuşma sentezi üretir; uygun duygusal bağlamı ileten dinamik seslendirmeler oluşturur. Kısa ses referanslarından sıfır atışlı ses klonlamayı destekler; kullanıcılar birkaç saniyelik örnek ses kullanarak belirli bir kişinin sesinde konuşma sentezleyebilir ve klonlanmış ses konuşmacının karakteristik tınısını, aksanını ve konuşma kalıplarını korur. Mimari, profesyonel medya üretimi için uygun standart örnekleme hızlarında yüksek sadakatli ses çıktısı üretmek üzere akustik modellemeyi vokoder sentezi ile birleştirir. Sentezlenen konuşmanın robotik değil konuşma dilini andıran doğal prozodi, uygun duraklamalar ve bağlamsal farkındalıklı tonlama kalıplarıyla birden fazla dili ve aksanı ele alır. İzin verici açık kaynak lisansı altında yayınlanarak bulut tabanlı TTS hizmetlerinin yinelenen maliyetleri olmadan hem araştırma hem ticari uygulamalar için serbestçe kullanılabilir. GPU hızlandırma desteğiyle tüketici donanımında yerel olarak çalışarak hassas ses sentezi görevleri için veri gizliliğini sağlar. Yaygın uygulamalar podcast ve sesli kitap anlatımı, video seslendirme üretimi, erişilebilirlik araçları, etkileşimli sesli asistanlar, oyun karakter diyalogları, e-öğrenme içerik oluşturma ve otomatik müşteri hizmeti ses üretimini kapsar. Pip ile kurulabilir ve uygulama entegrasyonu için Python API'leri sunar.

Açık Kaynak
4.5
Wav2Lip icon

Wav2Lip

IIIT Hyderabad|Unknown

Wav2Lip, IIIT Hyderabad araştırmacıları tarafından geliştirilen ve herhangi bir ses kaydından mükemmel şekilde senkronize dudak hareketleri üreten, görsel konuşma sentezinde çığır açan bir derin öğrenme modelidir. Model, girdi olarak bir yüz videosu ve ses parçası alır, ardından orijinal yüz kimliğini, ifadelerini ve baş hareketlerini korurken konuşma içeriğiyle tam olarak eşleşen gerçekçi dudak hareketleri üretir. GAN (Generative Adversarial Network) mimarisi üzerine inşa edilen Wav2Lip, üretilen ağız hareketlerinin gerçek konuşmadan algısal olarak ayırt edilemez olmasını sağlayan önceden eğitilmiş bir dudak senkronizasyonu ayrıştırıcısı kullanır. Bu ayrıştırıcı, senkronizasyon kalitesini ince ayrıntı düzeyinde değerlendirerek önceki yaklaşımlardan önemli ölçüde daha doğru dudak senkronizasyonu sağlar. Model, kimlik, etnisite veya dil fark etmeksizin herhangi bir yüzle çalışır ve konuşma, şarkı söyleme ve dublaj dahil çeşitli ses türlerini işleyebilir. Wav2Lip, önceden kaydedilmiş videoların yanı sıra konuşma güdümlü dudak hareketleriyle canlandırdığı statik görüntülerle de çalışır. Apache 2.0 lisansı altında açık kaynak olarak yayınlanan model, içerik oluşturma topluluğu tarafından yaygın olarak benimsenmiştir. Yaygın uygulamalar arasında yabancı dil filmlerin dublajı, çok dilli video içerik üretimi, avatar ve sanal karakter canlandırma, sentetik sunucularla eğitim materyali oluşturma ve işitme engelli kullanıcılar için erişilebilirlik uygulamaları yer alır.

Açık Kaynak
4.3
IC-Light icon

IC-Light

Lvmin Zhang|1B+

IC-Light (Intrinsic Compositing Light), ControlNet'in yaratıcısı Lvmin Zhang tarafından geliştirilen ve fotoğraflardaki aydınlatma koşullarını olağanüstü gerçekçilikle manipüle eden ve dönüştüren bir AI aydınlatma modelidir. Özelleştirilmiş aydınlatma koşullandırması ile Stable Diffusion omurgası üzerine inşa edilen bir milyardan fazla parametreli model, herhangi bir nesne veya kişi fotoğrafını alarak fotorealistik gölgeleri, vurguları ve yüzey yansımalarını korurken ışık kaynağı yönünü, renk sıcaklığını, yoğunluğunu ve ortam aydınlatmasını tamamen değiştirebilir. IC-Light iki farklı modda çalışır: öznenin bağımsız olarak çıkarılıp yeniden aydınlatıldığı ön plan aydınlatması ve aydınlatmanın yeni bir arka plan ortamına uyacak şekilde ayarlandığı arka plan uyumlu aydınlatma. Model, speküler yansımalar, ciltte yüzey altı saçılma, metalik yüzeyler ve şeffaf malzemeler dahil fiziksel ışık davranışını anlar ve gerçek dünya optik özelliklerine saygı duyan sonuçlar üretir. IC-Light, hedef aydınlatma düzenini tanımlamak için metin açıklamaları veya referans görüntüler kabul ederek nihai görünüm üzerinde sezgisel kontrol sunar. Apache 2.0 lisansı altında tamamen açık kaynaklı olan model, özel iş akışı düğümleriyle ComfyUI'ye entegre edilmiştir. Profesyonel fotoğrafçılar, ürün fotoğrafçıları, dijital sanatçılar ve e-ticaret ekipleri IC-Light'ı mevcut fotoğraflardaki olumsuz aydınlatmayı düzeltmek, günlük çekimlerden stüdyo kalitesinde aydınlatma oluşturmak, katalog görüntüleri arasında ürün aydınlatmasını eşleştirmek ve yaratıcı projeler için dramatik sinematik aydınlatma üretmek amacıyla kullanır.

Açık Kaynak
4.5
CogVideoX-5B icon

CogVideoX-5B

Tsinghua & ZhipuAI|5B

CogVideoX-5B, Tsinghua Üniversitesi ve ZhipuAI tarafından ortaklaşa geliştirilen, metin açıklamalarından ve görüntü girdilerinden yüksek kaliteli, zamansal olarak tutarlı videolar üreten 5 milyar parametreli açık kaynak bir video üretim modelidir. Bir 3D VAE (Variational Autoencoder) ile Diffusion Transformer mimarisini birleştiren CogVideoX-5B, uzamsal ve zamansal boyutları birlikte işleyerek düzgün hareket, tutarlı nesne görünümleri ve kareler arasında uyumlu sahne dinamiklerine sahip videoların üretilmesini sağlar. Model, kullanıcıların istenen sahneleri doğal dilde tanımladığı metinden videoya üretim ve statik bir görüntünün ilk kare olarak kullanıldığı ve modelin uygun hareketle canlandırdığı görüntüden videoya üretimi destekler. CogVideoX-5B, saniyede 8 kare ile 480x720 çözünürlükte 6 saniyeye kadar video üretebilir ve sosyal medya klipleri, konsept görselleştirme ve yaratıcı prototipleme için uygun içerik sağlar. 3D VAE, video verilerini zamansal tutarlılığı koruyan kompakt bir gizli uzaya sıkıştırırken Diffusion Transformer, hareket, fizik ve uzamsal ilişkilerin güçlü semantik anlayışıyla içerik üretir. Mevcut en yetenekli açık kaynak video üretim modellerinden biri olan CogVideoX-5B, araştırma ve geliştirme için serbestçe erişilebilir kalırken tescilli alternatiflerle rekabetçi kalite elde eder. Apache 2.0 lisansı altında yayınlanan model, Hugging Face üzerinden mevcuttur ve kolay dağıtım için Diffusers kütüphanesiyle entegre olur. Temel uygulamalar arasında kısa biçimli video içerik üretme, animasyonlu ürün gösterimleri oluşturma ve film ön prodüksiyonu için görsel konsept önizlemeleri üretme yer alır.

Açık Kaynak
4.4
Surya OCR icon

Surya OCR

VikParuchuri|Unknown

Surya OCR, Vik Paruchuri tarafından geliştirilen ve çeşitli belge türlerinde etkileyici doğrulukla 90'dan fazla dili destekleyen modern AI destekli bir optik karakter tanıma modelidir. Donut çerçevesinden ilham alan Vision Transformer mimarisi üzerine inşa edilen Surya, belge görüntülerini ayrı bir ön işleme adımı olarak geleneksel metin algılama gerektirmeden doğrudan işleyen bir kodlayıcı-kod çözücü yaklaşımı benimser. Model, metin içeriğini hassas sınırlayıcı kutu koordinatlarıyla birlikte çıkararak hem tam metin çıkarma hem de konum farkındalı belge anlama sağlar. Temel karakter tanımanın ötesinde Surya, başlıklar, paragraflar, tablolar, şekiller, listeler ve altyazılar gibi yapısal öğeleri tanımlayan kapsamlı bir belge düzen analizi modülü içerir ve belge organizasyonunun tam bir anlayışını sunar. Model, çok sütunlu sayfalar, denklemli akademik makaleler, tablo verileri içeren faturalar ve standart dışı tipografiye sahip tarihi belgeler dahil karmaşık belge düzenlerini işler. Surya, birçok kıyaslamada ticari OCR hizmetleriyle rekabetçi veya üstün doğruluk elde ederken bulut API çağrıları gerektirmeden yerel olarak çalışır ve gizlilik hassasiyeti olan belge işleme için uygundur. GPL-3.0 lisansı altında açık kaynaklı olan model aktif olarak bakımı yapılmakta ve düzenli güncellemeler almaktadır. Python API ve toplu işleme için komut satırı arayüzü sağlar. Temel uygulamalar arasında basılı ve el yazısı belgelerin dijitalleştirilmesi, fatura ve fişlerden yapılandırılmış veri çıkarma, taranan kitapların aranabilir metne dönüştürülmesi ve kurumsal içerik yönetim sistemleri için belge anlama boru hatları oluşturma yer alır.

Açık Kaynak
4.5
IDM-VTON icon

IDM-VTON

Yisol Studio|1B+

IDM-VTON (Improving Diffusion Models for Virtual Try-On), Yisol Studio tarafından geliştirilen ve bir kişinin fotoğrafını bir giysi görüntüsüyle birleştirerek son derece gerçekçi sanal kıyafet deneme deneyimi sunan çığır açıcı bir difüzyon tabanlı modeldir. Model, doku, desen, kumaş düşüşü ve yapısal öğeler dahil giysi ayrıntılarını olağanüstü sadakatle yakalayan özelleştirilmiş giysi kodlaması ile Stable Diffusion üzerine inşa edilmiş sofistike iki aşamalı bir mimari kullanır. Bir kişi görüntüsü ve düz serili veya manken giysi fotoğrafı verildiğinde, IDM-VTON kişinin vücut şeklini, cilt tonunu, pozunu ve arka plan bağlamını korurken giysili halini fotorealistik olarak görselleştirir. Model, günlük giyimden resmi kıyafetlere, aksesuarlara ve katmanlı kombinlere kadar çeşitli giysi türlerini dikkat çekici doğrulukla işler. Bir milyardan fazla parametresiyle IDM-VTON, standart sanal deneme kıyaslamalarında son teknoloji sonuçlar elde eder ve gerçek fotoğraflardan sıklıkla ayırt edilemeyen çıktılar üretir. Giysi kodlama modülü, önceki modellerin sıklıkla bulanıklaştırdığı veya kaybettiği logolar, metinler, düğmeler ve dikiş desenleri gibi ince ayrıntıları özellikle korur. Araştırma ve ticari olmayan kullanım için CC BY-NC-SA 4.0 lisansı altında yayınlanan model, moda teknolojisi girişimleri, e-ticaret platformları ve yaratıcı ajanslar tarafından yaygın olarak benimsenmiştir. Uygulamalar arasında çevrimiçi alışveriş sanal deneme deneyimleri, moda tasarımı prototipleme ve fiziksel çekimsiz katalog üretimi yer alır.

Açık Kaynak
4.5
Hunyuan Video icon

Hunyuan Video

Tencent|13B

Hunyuan Video, Tencent tarafından 13 milyar parametreyle geliştirilen ve mevcut en büyük açık kaynak video üretim modellerinden biri olan büyük ölçekli bir metinden videoya AI modelidir. Metin ve görsel tokenları paralel dikkat akışları aracılığıyla işleyip birleştiren Dual-stream Diffusion Transformer mimarisi üzerine inşa edilen Hunyuan Video, zengin detay, doğru renk üretimi ve kareler arasında güçlü zamansal tutarlılıkla olağanüstü görsel kalite elde eder. Model, doğal dil açıklamalarından metinden videoya üretimi ve statik bir görüntünün bağlamsal olarak uygun hareketle canlandırıldığı görüntüden videoya üretimi destekler. Hunyuan Video, 720p'ye kadar çözünürlükte düzgün hareket ve fiziksel olarak makul dinamiklerle videolar üretir ve sinematik kalitesi ile estetik sofistikasyonuyla öne çıkan içerik sağlar. Çift akış mimarisi, metin semantiği ve görsel üretim arasında derin çapraz modal anlayış sağlayarak birden fazla nesne, uzamsal ilişkiler ve belirli hareket kalıpları içeren karmaşık sahne açıklamaları için güçlü prompt uyumu sunar. Model, gerçekçi sahneler, animasyon stilleri, soyut görselleştirmeler ve doğa görüntüleri dahil çeşitli içerik türlerini tutarlı kaliteyle işler. Belirli koşullarla hem araştırma hem de ticari kullanıma izin veren Tencent Hunyuan Lisansı altında yayınlanan model, Hugging Face üzerinden mevcuttur ve Diffusers kütüphanesi ekosistemi tarafından desteklenir. Temel uygulamalar arasında profesyonel video içerik üretimi, reklam ve pazarlama video prodüksiyonu, sosyal medya içerik üretimi ve film stüdyoları için görsel konsept prototipleme yer alır.

Açık Kaynak
4.4
SDXL Turbo icon

SDXL Turbo

Stability AI|6.6B

SDXL Turbo, Stability AI tarafından geliştirilen ve standart Stable Diffusion modellerinin kullandığı tipik 20 ila 50 adım yerine yalnızca tek bir difüzyon adımı gerektirerek neredeyse anlık görsel oluşturma sağlayan gerçek zamanlı bir görsel üretim modelidir. Adversarial Diffusion Distillation teknolojisi kullanılarak inşa edilen SDXL Turbo, tam SDXL modelinin bilgisini modern GPU'larda bir saniyenin altında 512x512 görseller üretebilen sadeleştirilmiş bir varyanta damıtır. Bu dramatik hız iyileştirmesi, kullanıcıların promptları yazarken veya değiştirirken sonuçların canlı güncellenmesini gördüğü gerçek zamanlı etkileşimli görsel üretim dahil difüzyon modelleri için tamamen yeni kullanım senaryoları açar. Model, hızına göre şaşırtıcı derecede iyi görsel kalitesi korur, ancak çok adımlı SDXL üretimine kıyasla doğal olarak bazı ince detay ve çözünürlükten ödün verir. SDXL Turbo özellikle hızlı prototipleme, canlı yaratıcı keşif ve yanıt verme hızının maksimum görsel kaliteden daha önemli olduğu uygulamalar için etkilidir. Açık kaynak olarak yayınlanan model, Hugging Face üzerinde mevcuttur ve Diffusers kütüphanesi, ComfyUI ve diğer popüler arayüzlerle entegre olur. 6GB kadar düşük VRAM ile tüketici GPU'larında verimli çalışır. Etkileşimli AI uygulamaları, gerçek zamanlı önizlemeli yaratıcı araçlar ve eğitim platformları geliştiren yazılımcılar SDXL Turbo'nun anında üretim kapasitesinden özellikle faydalanır. Nihai üretim kalitesinde çıktı için uygun olmasa da tasarım iş akışlarında yaratıcı fikir üretme ve gerçek zamanlı görsel geri bildirim için paha biçilmez bir araçtır.

Açık Kaynak
4.3
Imagen 2 icon

Imagen 2

Google|N/A

Imagen 2, Google DeepMind'ın üstün prompt anlama ve görsel kalite için son teknoloji difüzyon modeli mimarisini Google'ın doğal dil işleme konusundaki derin uzmanlığıyla birleştiren gelişmiş text-to-image üretim modelidir. Model, çoğu rakip modelin sürekli zorlandığı bir yetenek olan görseller içinde metin render etmede olağanüstü doğrulukla son derece detaylı ve fotorealistik görseller üretir. Imagen 2, metin kodlama için Google'ın tescilli büyük dil modeli teknolojisini kullanarak uzamsal ilişkiler, nitelikler ve soyut kavramlar dahil karmaşık promptların nüanslı anlaşılmasını sağlar. Model, Google'ın Vertex AI platformu üzerinden kullanılabilir ve Gemini dahil Google'ın tüketici ürünlerine entegre edilerek hem geliştiricilere hem genel kullanıcılara erişilebilir kılınmıştır. Imagen 2, fotorealistik, sanatsal ve illüstratif stillerde güçlü performansla birden fazla çıktı formatı ve çözünürlüğü destekler. Google, köken takibi için üretilen görsellere görünmez tanımlayıcı meta veri gömen SynthID filigranı dahil kapsamlı güvenlik önlemleri uygulamıştır. Model ayrıca Google'ın sorumlu AI ilkeleriyle uyumlu sağlam içerik filtreleme özelliklerine sahiptir. Kurumsal müşteriler, pazarlama ekipleri, Google Cloud üzerinde uygulama geliştiren yazılımcılar ve Google Workspace kullanıcıları Imagen 2'nin Google ekosistemiyle sıkı entegrasyonundan faydalanır. Erişim açık kaynak alternatiflere göre daha kısıtlı olsa da kalitesi, güvenlik özellikleri ve kurumsal desteği, Google'ın bulut altyapısına yatırım yapmış işletmeler için cazip bir seçenek kılar. Imagen 2, Google'ın AI görsel üretimini hem güçlü hem sorumlu kılma taahhüdünü temsil eder.

Tescilli
4.6
PhotoMaker icon

PhotoMaker

Tencent|N/A

PhotoMaker, TencentARC tarafından geliştirilen ve referans görsellerden gerçekçi insan portreleri üreten kişiselleştirilmiş fotoğraf üretim modelidir. Yeni bir Yığılmış Kimlik Gömme (Stacked ID Embedding) yaklaşımı kullanan model, DreamBooth gibi uzun eğitim süreleri gerektiren geleneksel ince ayar yöntemlerinin aksine saniyeler içinde kimlik korumalı üretim gerçekleştirir. CLIP ve özelleştirilmiş kimlik kodlayıcıları aracılığıyla birden fazla referans fotoğraftan gömmeler çıkararak bunları yığınlar. SDXL boru hattı üzerine inşa edilen model, değiştirilmiş çapraz dikkat katmanları aracılığıyla kimlik temsillerini enjekte ederek yüz özelliklerini korurken stil, poz ve ortam değişikliklerinde yaratıcı özgürlük sunan yüksek kaliteli çıktılar üretir. Kimlik karıştırma özelliği sayesinde kullanıcılar birden fazla kişinin özelliklerini ayarlanabilir ağırlıklarla harmanlayarak benzersiz kompozit yüzler oluşturabilir. Kişiselleştirilmiş portre üretimi, çizgi roman ve görsel romanlar için kimlik tutarlı hikaye illüstrasyonu, sanal deneme uygulamaları ve reklam içeriği oluşturmada öne çıkar. PhotoMaker V2, özellikle aşırı poz değişiklikleri ve yaş dönüşümleri gibi zorlu senaryolarda kimlik koruma doğruluğu, doğal üretim kalitesi ve metin uyumunda önemli iyileştirmeler getirmiştir. Apache 2.0 lisansı altında açık kaynak olarak yayınlanan PhotoMaker, Hugging Face üzerinde ücretsiz erişilebilir durumdadır ve ComfyUI gibi popüler yaratıcı araçlarda topluluk entegrasyonlarına sahiptir. Yalnızca bir ile dört referans görsel gerektirerek hem bireysel yaratıcılar hem de profesyonel üretim iş akışları için en erişilebilir ve verimli kimlik korumalı üretim çözümlerinden birini sunar.

Açık Kaynak
4.5
Wan Video icon

Wan Video

Alibaba|14B

Wan Video, Alibaba tarafından geliştirilen ve hızlı deneyler için hafif varyantlardan üretim kalitesinde çıktı için büyük ölçekli modellere kadar ölçeklenebilir seçenekler sunan, birden fazla model boyutuna sahip açık kaynaklı bir video üretim paketidir. Şubat 2025'te yayınlanan Wan Video, en büyük varyantın 14 milyar parametreye sahip olmasıyla serbestçe erişilebilir en güçlü video üretim modellerinden biri olarak Alibaba'nın açık kaynak video üretim ekosistemine önemli katkısını temsil eder. Paket, metin istemlerini gelişmiş dil anlama modülleri aracılığıyla işleyen ve gizli bir difüzyon süreci yoluyla zamansal olarak tutarlı video dizileri üreten transformer tabanlı bir mimari üzerine inşa edilmiştir. Wan Video, farklı platformlar ve kullanım durumları için uygun içerik üretme yeteneğiyle çoklu çıktı çözünürlüklerini ve en boy oranlarını destekler. Model, doğal hareketli gerçekçi insan özneleri, dinamik öğeler içeren çevresel sahneler, yaratıcı animasyonlar ve stilize sanatsal yorumlar dahil çeşitli video içeriği üretmede güçlü yetenekler sergiler. Çoklu boyut model yaklaşımı, kullanıcıların üretim kalitesi ile hesaplama gereksinimleri arasında uygun dengeyi seçmesine olanak tanır; daha küçük varyantlar tüketici sınıfı donanımda dağıtımı mümkün kılarken daha büyük varyantlar tescilli rakiplerle karşılaştırılabilir son teknoloji kalite sunar. Wan Video, birçok video üretim modelini rahatsız eden titreme, morflama ve kimlik kayması gibi yaygın artefaktları azaltarak kareler arasında tutarlılığı koruyan gelişmiş zamansal modelleme teknikleri içerir. Apache 2.0 lisansı altında sunulan model paketi, Hugging Face üzerinde ve fal.ai ile Replicate dahil bulut platformları aracılığıyla erişilebilir durumdadır. Yayın, araştırma topluluğunun hem akademik hem de ticari uygulamalar için Alibaba'nın video üretim ilerlemelerini incelemesini, yeniden üretmesini ve geliştirmesini sağlayan kapsamlı belgeler ve eğitim kodu içerir.

Açık Kaynak
4.5
SVD-XT icon

SVD-XT

Stability AI|1.5B

SVD-XT, Stability AI'nın Stable Video Diffusion modelinin genişletilmiş bir versiyonudur ve tek giriş görsellerinden 25 karelik video dizileri üreterek temel SVD modelinin 14 karesine kıyasla çıktı uzunluğunu ikiye katlarken görsel kaliteyi ve zamansal tutarlılığı korur. Kasım 2023'te orijinal SVD ile birlikte yayınlanan SVD-XT, zamansal dikkat katmanlarına sahip aynı 1,5 milyar parametreli gizli difüzyon mimarisini paylaşır ancak özellikle daha uzun dizi üretimi için ince ayarlanmış olup standart kare hızlarında yaklaşık üç ila beş saniyelik video içeriği oluşturmayı sağlar. Model, görselden videoya modunda çalışarak tek bir koşullandırma görselini girdi olarak alır ve doğal hareket, tutarlı aydınlatma ve kareler arasında akıcı geçişlerle o sahnenin makul zamansal evrimini üretir. SVD-XT; fotoğraflar, illüstrasyonlar ve dijital sanat eserleri dahil çeşitli giriş görseli türlerini canlandırmada yetkinlik sergiler ve sallanan bitkiler, akan su, ince kamera hareketleri ve nazik karakter animasyonları gibi bağlamsal olarak uygun hareketler uygular. Uzatılmış kare sayısı, SVD-XT'yi animasyonlu sosyal medya paylaşımları, canlı fotoğraflar, ürün tanıtım animasyonları ile sunumlar ve web siteleri için dinamik arka plan üretimi gibi biraz daha uzun video çıktıları gerektiren uygulamalar için özellikle değerli kılar. Model, giriş görselinin kompozisyon öğelerini korurken inandırıcı zamansal dinamikler ekler ve bazı rakip yaklaşımlarda ortaya çıkabilen dramatik sahne değişikliklerinden veya kimlik kaymasından kaçınır. Stability AI Community lisansı altında yayınlanan SVD-XT, Stability AI platformu, fal.ai, Replicate ve Hugging Face üzerinden erişilebilir olup yeterli GPU kaynaklarıyla yerel olarak çalıştırılabilir. Model, ComfyUI desteği aracılığıyla yaratıcı iş akışlarına iyi entegre olur ve genişletilmiş zamansal çıktıdan yararlanan görsel animasyon görevleri için güvenilir bir temel olarak hizmet eder.

Açık Kaynak
4.3
AudioCraft icon

AudioCraft

Meta|N/A

AudioCraft, Meta AI'ın üretken ses araştırma ve uygulamaları için kapsamlı açık kaynak çerçevesidir ve müzik üretimi için MusicGen, ses efekti sentezi için AudioGen ve sinirsel ses sıkıştırma için EnCodec olmak üzere üç özel modeli tek bir entegre platform altında bir araya getirir. Ağustos 2023'te MIT lisansı altında yayınlanan AudioCraft, tutarlı API'ler ve paylaşılan altyapı aracılığıyla son teknoloji ses üretim modelleriyle çalışmayı kolaylaştıran birleşik bir kod tabanı sağlar. Çerçeve ses sinyallerinin önce EnCodec tarafından ayrık tokenlere sıkıştırıldığı ardından göreve özel dil modelleri tarafından otoregresif olarak üretildiği transformer tabanlı bir mimari üzerine inşa edilmiştir. MusicGen melodi koşullandırma desteğiyle metinden müziğe üretimi yönetirken AudioGen çevresel sesler, ses efektleri ve metin açıklamalarından müzikal olmayan ses üretiminde uzmanlaşmıştır. EnCodec sinirsel ses codec omurgası olarak çeşitli bit hızlarında yüksek algısal kaliteyi koruyarak ses sıkıştırması sağlar. AudioCraft birden fazla model boyutunu ve stereo üretimi destekler, kapsamlı eğitim ve çıkarım araçları sunar. Çerçeve anında kullanım için önceden eğitilmiş modeller ve kullanıcı tarafından sağlanan veri kümeleri üzerinde özel modeller eğitmek için araçlar içerir. pip ile kurulabilen bir Python kütüphanesi olarak AudioCraft mevcut makine öğrenimi ve ses işleme hatlarına sorunsuz entegre olur. Ses üretimini araştıran akademisyenler, yaratıcı ses araçları geliştiren yazılımcılar, orijinal müzik ve ses efektlerine ihtiyaç duyan içerik üreticileri ve dinamik ses sistemleri gerektiren oyun stüdyoları tarafından yaygın olarak kullanılır. AudioCraft Meta'nın açık kaynak ses AI'ına en önemli katkısını temsil eder ve hızla büyüyen AI ses üretim alanında çok sayıda topluluk projesi ve ticari uygulamanın temeli haline gelmiştir.

Açık Kaynak
4.5
SUPIR icon

SUPIR

Tencent ARC|N/A

SUPIR, Tencent ARC araştırmacıları tarafından 2024'te geliştirilen, foto-gerçekçi görsel iyileştirme için büyük ölçekli bir Stable Diffusion modeli olan SDXL'in üretken gücünden yararlanan gelişmiş bir AI görsel restorasyon ve büyütme modelidir. SUPIR Scaling Up to Excellence: Practicing Model Scaling for Photo-Realistic Image Restoration in the Wild ifadesinin kısaltmasıdır. Model giriş görselinde bulunan belirli kalite kaybı türlerini analiz eden ve restorasyon sürecini yönlendirmek için akıllı metin komutları üreten bozulma farkındalıklı bir kodlayıcı tanıtır ve bu sayede difüzyon modeline ne tür içeriğin nasıl restore edilmesi gerektiğini etkili bir şekilde bildirir. Bu akıllı yönlendirme yaklaşımı SUPIR'in basit piksel enterpolasyonunun ötesine geçerek anlamsal olarak anlamlı detay üreten dikkat çekici derecede detaylı ve doğal görünümlü büyütülmüş sonuçlar üretmesini sağlar. Model büyütme sırasında gerçekçi dokular, yüz hatları, metin ve ince desenleri sentezlemek için SDXL'in önceden eğitilmiş ağırlıklarına gömülü geniş görsel bilgiden yararlanır. SUPIR özellikle eski fotoğraflar, ağır sıkıştırılmış web görselleri ve düşük çözünürlüklü çekimler dahil geleneksel büyütme yöntemlerinin başarısız olduğu ciddi şekilde bozulmuş görselleri restore etmede üstün performans gösterir. Model tutarlı içerik ve doğal görünümü koruyarak yüksek büyütme faktörlerini destekler. Salt araştırma lisansı altında yayınlanan SUPIR kod ve ağırlıkları GitHub üzerinde mevcut olan açık kaynaklıdır. SDXL omurgası nedeniyle hesaplama açısından yoğun olsa da model AI destekli görsel restorasyon kalitesinin mevcut sınırlarını temsil eden sonuçlar üretir. SUPIR özellikle arşiv görsellerini restore eden profesyonel fotoğrafçılar, güvenlik görüntülerini iyileştiren adli analistler ve sınırlı kaynak materyalden maksimum kaliteye ihtiyaç duyan dijital sanatçılar için değerlidir.

Açık Kaynak
4.6
DALL-E Inpainting icon

DALL-E Inpainting

OpenAI|N/A

DALL-E Inpainting, OpenAI'ın kullanıcıların mevcut görsellerin belirli bölgelerini doğal dil promptları aracılığıyla düzenlemesine olanak tanıyan tescilli görsel düzenleme yeteneğidir ve hem DALL-E web arayüzünden hem de OpenAI API'sinden erişilebilir. DALL-E görsel üretim mimarisi üzerine inşa edilen inpainting özelliği, kullanıcıların bir görselin dikdörtgen veya özel şekilli bölgelerini seçip maskelenmiş alanda ne görünmesi gerektiğini tanımlamasını sağlar; yapay zeka çevreyle uyumlu bağlamsal içerik üretir. Sistem karmaşık mekansal ilişkileri, aydınlatma koşullarını ve sanatsal stilleri anlayarak orijinal görselle görsel tutarlılığı koruyan düzenlemeler üretir. Temel yetenekler arasında sahnelere yeni nesne ekleme, arka plan değiştirme, kişilerin kıyafet veya aksesuarlarını değiştirme, manzaralarda hava koşulları veya gün saatini değiştirme ve istenmeyen öğeleri kaldırma yer alır. API, otomatik düzenleme pipeline'ları oluşturmak ve inpainting'i özel uygulamalara entegre etmek için programatik erişim sunar. Açık kaynak alternatiflerinin aksine, DALL-E Inpainting tamamen bulutta çalışır ve yerel GPU gerektirmez, bu da onu özel donanımı olmayan kullanıcılar için erişilebilir kılar. Model, OpenAI'ın sürekli iyileştirmelerinden ve zararlı içerik üretimini önleyen güvenlik filtrelerinden yararlanır. Ticari kullanım OpenAI'ın hizmet şartları kapsamında izinlidir ve üretilen görseller kullanıcıya aittir. Ücretli API aboneliği veya kredi bazlı kullanım gerektirse de kolay entegrasyonu, tutarlı kalitesi ve OpenAI altyapısının güvenilirliği, onu ölçeklenebilir AI destekli görsel düzenleme gerektiren geliştiriciler ve işletmeler için sağlam bir tercih haline getirir.

Tescilli
4.5
StyleGAN3 icon

StyleGAN3

NVIDIA|N/A

StyleGAN3, NVIDIA'nın çığır açan StyleGAN serisi üretken çekişmeli ağların üçüncü neslidir ve görsel nitelikler üzerinde benzeri görülmemiş kontrol sağlayarak yüksek kaliteli, fotorealistik görseller üretmek için tasarlanmıştır. NeurIPS 2021'de sunulan StyleGAN3, önceki versiyonların temel bir sınırlamasını ele alarak sürekli dönüşümler ve animasyonlar sırasında ortaya çıkan doku yapışması artifaktlarını ortadan kaldırır. Önceki GAN mimarileri, nesnelerle doğal olarak hareket etmek yerine piksel koordinatlarına sabitlenmiş görünen özelliklere sahipti ve bu durum interpolasyon sırasında belirgin görsel bozulmalara neden oluyordu. StyleGAN3, sürekli sinyal işleme prensiplerini kullanarak takma adsız üretim yoluyla bu sorunu çözer ve ince detayların alttaki içerikle düzgün ve doğal biçimde hareket etmesini sağlar. Mimari, döndürme ve öteleme eşdeğerliği sunar; bu da üretilen özelliklerin görsel geometrik dönüşümlere tabi tutulduğunda doğru ve tutarlı biçimde dönüştüğü anlamına gelir. Bu özellik StyleGAN3'ü video üretimi, animasyon ve üretilen kareler arasında yumuşak geçişler gerektiren uygulamalar için özellikle uygun kılar. Model, yapılandırılabilir çıktı çözünürlüklerini destekler ve önceki versiyonlardan gelen stil karıştırma yeteneklerini koruyarak poz ve yüz şekli gibi kaba özellikler ile saç dokusu ve cilt kalitesi gibi ince detaylar üzerinde ayrı ayrı kontrol sağlar. StyleGAN3, insan yüzleri (FFHQ), hayvan yüzleri (AFHQv2) ve diğer görsel kategorileri dahil çeşitli alanlarda eğitilmiştir. Model, araştırma ve ticari kullanıma izin veren özel NVIDIA lisansı altında tamamen açık kaynaklıdır ve GitHub'da resmi PyTorch implementasyonları mevcuttur. Koşulsuz görsel üretim kalitesinde referans benchmark olmaya devam eder ve üretken AI alanındaki sonraki GAN mimarilerini ve difüzyon model tasarımlarını etkilemiştir.

Açık Kaynak
4.5
F5-TTS icon

F5-TTS

SWivid|335M

F5-TTS, SWivid tarafından geliştirilen, yeni bir akış eşleştirme yaklaşımıyla hızlı ve yüksek kaliteli konuşma sentezi elde eden açık kaynaklı bir metinden konuşmaya modelidir. Model, gürültü ile hedef konuşma dağılımları arasında düzgün dönüşüm yolları öğrenen akış eşleştirme tabanlı otoregresif olmayan bir mimari kullanır; karşılaştırılabilir kaliteyi koruyarak otoregresif TTS yöntemlerinden önemli ölçüde daha hızlı verimli tek geçişli üretim sağlar. Kısa referans seslerden ses klonlamayı destekler; kullanıcılar birkaç saniyelik örnek sesten hedef konuşmacının sesinde konuşma üretebilir. Konuşmacının tını, perde aralığı, konuşma ritmi ve aksan dahil vokal özelliklerini dikkat çekici doğrulukla yeniden üretir. Temel avantajı çıkarım hızıdır; modern GPU'larda gerçek zamanlı veya daha hızlı sentez sunarak etkileşimli ve gecikme hassasiyeti olan uygulamalar için uygundur. Doğal prozodi, uygun duygusal ifade ve bağlamsal farkındalıklı duraklamalar ile vurgu kalıplarıyla konuşma üretir. Birden fazla dili destekler ve profesyonel ses üretimi için uygun yüksek örnekleme hızlarında çıktı üretir. Mimarinin karmaşık çok aşamalı TTS pipeline'larına kıyasla basitliği, üretim ortamlarında eğitim, ince ayar ve dağıtımı kolaylaştırır. Açık kaynak lisansıyla yayınlanan F5-TTS, hem araştırma hem üretim için ticari TTS hizmetlerine ücretsiz alternatif sunar. Seslendirme üretimi, sesli kitap anlatımı, erişilebilirlik araçları, sanal asistan sesleri, podcast üretimi ve kişiselleştirilmiş konuşma gerektiren uygulamalar başlıca kullanım alanlarıdır. Hugging Face üzerinden Python entegrasyonu ve platformlar arası dağıtım için ONNX dışa aktarma desteğiyle sunulur.

Açık Kaynak
4.4
TRELLIS icon

TRELLIS

Microsoft Research|Unknown

TRELLIS, Microsoft Research tarafından geliştirilen ve yeni bir Structured Latent Diffusion mimarisi kullanarak metin açıklamalarından veya tek 2D görüntülerden yüksek kaliteli 3D varlıklar üreten devrim niteliğinde bir AI modelidir. Aralık 2024'te yayınlanan TRELLIS, geometri, doku ve malzeme özelliklerini ayrı aşamalar olarak ele almak yerine eşzamanlı olarak kodlayan yapılandırılmış bir gizli uzayda çalışarak 3D içerik üretiminde temel bir ilerlemeyi temsil eder. Model, detaylı PBR (Fiziksel Tabanlı Render) dokularıyla eksiksiz 3D mesh'ler üretir ve kapsamlı manuel son işleme olmadan oyun motorları, 3D render boru hatları ve AR/VR uygulamalarında doğrudan kullanımı mümkün kılar. TRELLIS, kullanıcıların istenen nesneleri doğal dilde tanımladığı metinden 3D üretimini ve tek bir fotoğrafın kapalı bakış açılarından çıkarılan geometriyle tam 3D modele dönüştürüldüğü görüntüden 3D rekonstrüksiyonu destekler. Yapılandırılmış gizli temsil, geometrik tutarlılığı sağlar ve havada kalan geometri, doku dikişleri ve gerçekçi olmayan oranlar gibi diğer 3D üretim yaklaşımlarında görülen yaygın artefaktları önler. TRELLIS, UV haritalı dokularla GLB ve OBJ dahil standart 3D formatlarında çıktı üretir ve Blender, Unity, Unreal Engine gibi profesyonel araçlarla entegrasyonu kolaylaştırır. MIT lisansı altında tamamen açık kaynaklıdır. Temel uygulamalar arasında oyun geliştirme için hızlı 3D varlık prototipleme, mimari görselleştirme, ürün tasarım modelleri ve metaverse varlık üretimi yer alır.

Açık Kaynak
4.5
RealVisXL icon

RealVisXL

SG161222|6.6B

RealVisXL, SG_161222 tarafından oluşturulan ve profesyonel fotoğrafçılıktan sıklıkla ayırt edilemeyen ultra fotorealistik görseller üretmek için özel olarak tasarlanmış bir SDXL ince ayar modelidir. Model, fotoğrafik doğruluk, doğal cilt dokuları, gerçekçi aydınlatma ve gerçeğe sadık renk üretimi odağında Stable Diffusion XL tabanından titizlikle ince ayarlanmıştır. RealVisXL, portre fotoğrafçılığı, ürün fotoğrafçılığı, mimari görselleştirme ve manzara görüntülemede mükemmeldir ve profesyonel kameralarla çekilmiş görsel kalitesinde ve hissinde sonuçlar üretir. Eğitimi, standart AI üretimi görsellerde yaygın görülen yapay pürüzsüzlük veya aşırı doygunluk olmadan doğal görünümlü çıktıları vurgular. Model, stüdyo aydınlatması, açık hava doğal ışık, altın saat ve gece fotoğrafçılığı dahil çeşitli fotoğrafik senaryoları dikkat çekici gerçeklikle yönetir. CivitAI üzerinde mevcut ve ComfyUI ile Automatic1111 dahil tüm SDXL destekleyen arayüzlerle uyumlu olan RealVisXL, her şeyden önce fotoğrafik gerçekçilik isteyen kullanıcılar için başvuru modellerinden biri haline gelmiştir. 8GB ve üzeri VRAM gerektirir ve img2img, inpainting, ControlNet koşullandırma ve çeşitli LoRA kombinasyonları dahil tüm standart SDXL özelliklerini destekler. AI destekli kompozisyon arayan fotoğrafçılar, ürün görüntüleme ihtiyacı olan e-ticaret işletmeleri, mimari önizleme gerektiren emlak profesyonelleri ve stok fotoğraf kalitesinde görseller üreten içerik üreticileri RealVisXL'e güvenir. Model, temel modellerin hedefli ince ayarının belirli alanlarda temel modelin yeteneklerini aşan uzmanlaşmış mükemmellik elde edebileceğini göstermektedir.

Açık Kaynak
4.5
InstructPix2Pix v2 icon

InstructPix2Pix v2

UC Berkeley|1.5B

InstructPix2Pix v2, UC Berkeley'de geliştirilen ve doğal dil talimatlarına dayalı olarak görselleri düzenleyen gelişmiş bir difüzyon modelidir. Tim Brooks ve ekibinin orijinal InstructPix2Pix'in başarısı üzerine inşa edilmiştir. Model, bir girdi görüntüsü ve 'gün batımı yap' veya 'kediyi köpeğe dönüştür' gibi bir metin talimatı alarak görüntünün ilgisiz kısımlarını korurken düzenlenmiş sonucu üretir. Talimat ayarlaması ile Stable Diffusion omurgası üzerine inşa edilen v2 sürümü, selefine kıyasla talimat anlama, çıktı kalitesi ve düzenleme hassasiyetinde önemli iyileştirmeler sunar. Mimari, karmaşık çok adımlı talimatları takip etmeyi öğrenir ve stil değişiklikleri, nesne modifikasyonları, renk ayarlamaları, hava durumu dönüşümleri ve kompozisyon değişiklikleri dahil nüanslı düzenleme taleplerini işler. Maske tabanlı düzenleme yaklaşımlarından farklı olarak InstructPix2Pix v2, metin talimatına dayalı olarak görüntünün hangi bölümlerinin değiştirileceğini otomatik olarak belirlediğinden manuel bölge seçimi gerektirmez. Yaklaşık 1,5 milyar parametreli model, 8GB ve üzeri VRAM'e sahip tüketici GPU'larında verimli şekilde çalışır. MIT lisansı altında tamamen açık kaynaklıdır ve ComfyUI ile Diffusers kütüphanesi dahil popüler yaratıcı araçlara entegre edilmiştir. Profesyonel fotoğrafçılar, dijital sanatçılar, e-ticaret ekipleri ve içerik üreticileri hızlı yinelemeli düzenleme, ürün fotoğrafı iyileştirme ve geleneksel manuel düzenlemenin zaman açısından engelleyici olduğu toplu görsel içerik işleme için kullanır.

Açık Kaynak
4.4
Mochi 1 Preview icon

Mochi 1 Preview

Genmo|10B

Mochi 1 Preview, Genmo tarafından geliştirilen ve üretilen video içerikte hareket kalitesi ile fiziksel gerçekçilik konusunda yeni bir standart belirleyen açık kaynaklı bir metinden videoya AI modelidir. Asimetrik Diffusion Transformer mimarisi üzerine inşa edilmiş 10 milyar parametresiyle Mochi 1 Preview, onu rakip modellerden ayıran dikkat çekici derecede doğal ve fiziksel olarak makul hareketlere sahip videolar üretir. Asimetrik mimari, uzamsal ve zamansal bilgiyi ilgili özellikleri için optimize edilmiş özel yollar aracılığıyla işler ve nesnelerin gerçekçi momentum, yerçekimi ve etkileşim dinamikleriyle hareket ettiği videolar üretir. Mochi 1 Preview, saniyede 30 kare ile 480p çözünürlükte düzgün ve sürekli hareketle videolar üretir ve önceki video üretim modellerinde yaygın olan zamansal titreme ve nesne dönüşüm artefaktlarından arındırılmıştır. Model, akışkan dinamikleri, katı cisim etkileşimleri ve ateş, duman, su gibi doğal fenomenler dahil gerçek dünya fiziğinin güçlü anlayışını göstererek fiziksel gerçekliğe dayanan içerik üretir. Mochi 1 Preview, kamera hareketlerini, sahne geçişlerini ve belirli hareket koreografisini tanımlayan detaylı metin promptlarına iyi yanıt vererek yaratıcılara üretilen çıktı üzerinde anlamlı kontrol sağlar. Apache 2.0 lisansı altında tamamen açık kaynaklı olan model, tescilli video üretim hizmetlerine en güçlü açık alternatiflerden birini temsil eder. Temel uygulamalar arasında film ve reklam ön prodüksiyonu için konsept videolar oluşturma, sosyal medya video içeriği üretme, animasyonlu ürün gösterimleri üretme ve pahalı canlı çekim prodüksiyonuna geçmeden önce video fikirlerinin prototipini oluşturma yer alır.

Açık Kaynak
4.3
Playground v3 icon

Playground v3

Playground AI|N/A

Playground v3, Playground AI tarafından geliştirilen ve salt fotorealistik çıktı yerine özellikle grafik tasarım ve karma medya içerik üretimi için tasarlanmış yaratıcı bir AI görsel üretim modelidir. Model, üstün renk paleti yönetimi, tipografik farkındalık ve rastgele üretilmiş yerine bilinçli olarak hazırlanmış hissettiren tasarıma hazır kompozisyonlar oluşturma becerisiyle kendini ayırt eder. Playground v3, tutarlı görsel hiyerarşilere sahip sosyal medya grafikleri, pazarlama afişleri, poster tasarımları ve marka materyalleri oluşturmada mükemmeldir. Estetik kontrol ve tasarım ilkelerini vurgulayan tescilli bir mimari üzerine inşa edilmiş olan model, genel amaçlı görsel üreticilerinin tipik olarak yapamadığı şekilde görsel denge, kontrast ve odak noktası yerleşimi gibi kavramları anlar. Minimalist, maksimalist, retro, modern ve editöryal estetikler dahil geniş bir tasarım stili yelpazesini destekler. Model, inpainting ve outpainting yeteneklerinin yanı sıra yinelemeli tasarım çalışması için sezgisel bir tuval tabanlı arayüz sunan Playground AI web platformu üzerinden erişilebilir. Playground v3 ayrıca tasarım otomasyon araçları ve içerik üretim pipeline'ları geliştiren yazılımcılar için bir API sunar. Grafik tasarımcılar, sosyal medya yöneticileri, içerik üreticileri ve pazarlama ekipleri, konseptten bitmiş tasarıma geçiş süresini önemli ölçüde kısaltarak hızlı fikir üretme ve üretim aracı olarak kullanır. Midjourney v6 veya FLUX.1 [pro] gibi modellerin fotorealistik doğruluğuyla eşleşmese de tasarım odaklı yaklaşımı, bilinçli kompozisyon ve marka uyumunu ön planda tutan ticari görsel içerik için benzersiz bir değer sunar.

Tescilli
4.5
Img2Img SDXL icon

Img2Img SDXL

Stability AI|6.6B

Img2Img SDXL, Stability AI'nın Stable Diffusion XL modelinin görüntüden görüntüye boru hattıdır ve kullanıcıların mevcut görselleri orijinal girişle yapısal tutarlılığı koruyarak stil dönüşümü, iyileştirme ve yaratıcı modifikasyon yoluyla dönüştürmesini sağlar. SDXL'nin çift metin kodlayıcısı ve geliştirilmiş U-Net omurgasına sahip 6,6 milyar parametreli gizli difüzyon mimarisi üzerine inşa edilen img2img boru hattı, bir giriş görseli ile birlikte metin istemi ve gürültü giderme gücü parametresini alarak ince ayarlardan dramatik dönüşümlere uzanan varyasyonlar üretir. Gürültü giderme gücü, modelin orijinal görselden ne kadar uzaklaştığını kontrol eder; düşük değerler kaynak kompozisyonunu daha fazla korurken yüksek değerler daha fazla yaratıcı özgürlük sağlar. SDXL tabanı, önceki Stable Diffusion sürümlerinde yüksek çözünürlüklerde görülen kalite düşüşü olmadan doğal olarak 1024x1024 yüksek çözünürlüklü çıktılar üretir. Temel yetenekler arasında fotoğrafların resim, illüstrasyon veya diğer sanatsal stillere dönüştürüldüğü sanatsal stil transferi, görsel iyileştirme ve büyütme, tasarımcıların mevcut bir görselin varyasyonlarını hızla keşfettiği konsept iterasyonu ve mevcut bir görselin öğelerinin yeni bağlamlarda yeniden hayal edildiği yaratıcı kompozisyon yer alır. Boru hattı, hassas yapısal rehberlik için ControlNet entegrasyonunu, stil özelleştirmesi için LoRA modellerini ve üretim sürecini ince ayarlamak için çeşitli zamanlayıcıları destekler. CreativeML Open RAIL-M lisansı altında yayınlanan Img2Img SDXL, Stability AI platformu, fal.ai, Replicate ve Hugging Face üzerinden erişilebilir olup minimum 8GB VRAM ile yerel olarak çalıştırılabilir. Kaynak materyallerinden belirli kompozisyon öğelerini korurken görsel konseptler üzerinde hızla iterasyon yapması gereken tasarımcılar, dijital sanatçılar ve yaratıcı profesyoneller için vazgeçilmez bir araç olarak hizmet eder.

Açık Kaynak
4.4
CogVideoX icon

CogVideoX

Tsinghua & ZhipuAI|5B

CogVideoX, Tsinghua Üniversitesi ve ZhipuAI tarafından ortaklaşa geliştirilen ve metin açıklamalarından yüksek kaliteli videolar üretmek için uzman transformer mimarisi kullanan açık kaynaklı bir video üretim modelidir. Ağustos 2024'te yayınlanan CogVideoX, araştırma ve geliştirme için serbestçe erişilebilir kalırken tescilli modellere yaklaşan yetenekler sunarak açık kaynak video üretiminde önemli bir ilerlemeyi temsil eder. Model, yüksek çıktı kalitesini korurken verimli hesaplama sağlayan özelleştirilmiş uzman katmanları aracılığıyla metin ve görsel token'ları işleyen 5 milyar parametreli bir transformer mimarisi üzerine inşa edilmiştir. CogVideoX, video kodlama ve kod çözme için birleşik bir gizli uzayda hem uzamsal hem de zamansal bilgiyi yakalayan 3B nedensel VAE kullanır. Bu yapı, akıcı hareket geçişleri ve kareler arasında tutarlı görsel uyum sağlar. Model, farklı kullanım durumları ve platform gereksinimleri için esneklik sağlayan değişken uzunlukta video üretimi ve çoklu çözünürlük çıktılarını destekler. CogVideoX, hem basit tanımlayıcı istemleri hem de daha karmaşık anlatı senaryolarını yöneterek doğru hareket dinamikleri, sahne geçişleri ve görsel hikaye anlatımı öğeleri içeren videolar üretmede güçlü performans sergiler. Modelin eğitim yaklaşımı, farklı video sürelerinde kararlı üretim kalitesini korumaya yardımcı olan aşamalı çözünürlük ölçekleme ve zamansal tutarlılık kayıpları içerir. Hugging Face üzerinde Apache 2.0 lisansı altında erişilebilen CogVideoX, fal.ai ve Replicate dahil bulut platformları aracılığıyla kullanılabilir ve yeterli GPU kaynaklarına sahip araştırmacılar ve geliştiriciler tarafından yerel olarak çalıştırılabilir. Model, tescilli API erişiminin kısıtlamaları olmadan şeffaf ve değiştirilebilir video üretim yetenekleri gerektiren akademik çalışmalar ve ticari uygulamalara olanak tanıyarak araştırma topluluğunda güçlü bir açık kaynak temel çizgisi olarak özellikle iyi karşılanmıştır.

Açık Kaynak
4.3
Meshy icon

Meshy

Meshy AI|N/A

Meshy, Meshy AI tarafından geliştirilen, metin açıklamalarından ve görsellerden detaylı, üretime hazır 3D modeller oluşturan tescilli bir AI destekli 3D üretim platformudur. Platform metinden 3D'ye ve görselden 3D'ye yetenekleri gelişmiş AI doku kaplama özellikleriyle birleştirerek hızlı 3D içerik üretimi için kapsamlı bir çözüm sunar. Meshy, PBR uyumlu malzemelerle dokulu 3D mesh'ler üreten transformer tabanlı bir mimari kullanır ve çıktıları ek işlem gerektirmeden Unity ve Unreal Engine gibi oyun motorlarında doğrudan kullanılabilir hale getirir. Platform yazılı açıklamalardan nesne oluşturmak için metinden 3D'ye, fotoğrafları 3D modellere dönüştürmek için görselden 3D'ye ve mevcut dokusuz mesh'lere gerçekçi malzemeler uygulamak için AI doku kaplama dahil birden fazla üretim modu sunar. Üretilen modeller uygun UV haritalama, normal haritalar ve profesyonel iş akışlarına uygun fiziksel tabanlı render malzemeleri içerir. Meshy hem web tabanlı arayüz hem de programatik erişim için API sağlayarak bireysel sanatçılar için erişilebilir ve kurumsal süreçler için ölçeklenebilir bir yapı sunar. Platform özellikle büyük hacimde 3D varlık üretmesi gereken oyun geliştiricileri, animasyon stüdyoları ve AR/VR içerik üreticileri arasında popülerdir. 2023'te piyasaya sürülen tescilli bir ticari hizmet olarak Meshy sınırlı üretimler için ücretsiz katman erişimi olan bir abonelik modeliyle çalışır. Platform çıktı kalitesini, topoloji optimizasyonunu ve doku sadakatini iyileştirmek için modellerini sürekli güncellemekte ve hızla gelişen AI 3D üretim pazarındaki diğer hizmetlerle doğrudan rekabet etmektedir.

Tescilli
4.4
Stable Audio icon

Stable Audio

Stability AI|N/A

Stable Audio, Stability AI'ın doğal dil açıklamalarından yüksek kaliteli müzik ve ses efektleri üreten ticari text-to-audio üretim modelidir. Ses için uyarlanmış gizli difüzyon mimarisi üzerine inşa edilen Stable Audio, profesyonel düzeyde netlik ve müzikal tutarlılık içeren çıktılar üreterek AI ile üretilen ses kalitesinde önemli bir ilerlemeyi temsil eder. Model ses spektrogramlarını kompakt bir gizli uzaya sıkıştırmak için bir varyasyonel otoenkoder kullanır, ardından metin gömülerine koşullu bir difüzyon süreci uygulayarak bu gizli uzayda ses üretir ve üretilen temsil yüksek sadakatli dalga biçimlerine geri çözülür. Stable Audio 44.1 kHz stereo kalitesinde 90 saniyeye kadar müzik parçaları ve ses efektleri üretimini destekleyerek profesyonel ses prodüksiyon iş akışlarına uygunluk sağlar. Model birçok rakip modeli etkileyen telif hakkı endişelerini gidermek amacıyla AudioSparx'ten lisanslı bir müzik veri kümesi üzerinde eğitilmiştir. Kullanıcılar doğal dil komutlarıyla tür, ruh hali, tempo, enstrümantasyon ve diğer müzikal nitelikleri belirleyebilir ve model tanımlanan özelliklere uyan tutarlı kompozisyonlar üretir. Stable Audio ayrıca bir giriş ses klibinin üretim için başlangıç noktası olarak kullanıldığı sesten sese iş akışlarını da destekler. Stability AI Community License altında yayınlanan model ticari olmayan araştırma kullanımı için mevcuttur ve ticari erişim Stable Audio API ve web platformu üzerinden sağlanır. Stable Audio özellikle lisanslama komplikasyonları olmadan hızlı bir şekilde yüksek kaliteli orijinal ses içeriği üretmeye ihtiyaç duyan içerik üreticileri, video yapımcıları, podcast yayıncıları ve oyun geliştiricileri tarafından değerlidir.

Açık Kaynak
4.4
BiRefNet icon

BiRefNet

ZhengPeng7|N/A

BiRefNet (Bilateral Reference Network), ZhengPeng7 tarafından geliştirilen, ince yapısal detaylarda piksel düzeyinde doğrulukla ön plan nesnelerini arka planlardan hassas biçimde ayırmak için tasarlanmış yüksek çözünürlüklü ikili görsel segmentasyonu için gelişmiş açık kaynaklı segmentasyon modelidir. Model, çift dallı mimari aracılığıyla hem global anlamsal bilgiyi hem yerel detay özelliklerini kullanan ikili referans çerçevesi sunarak geleneksel segmentasyon yaklaşımlarına kıyasla üstün kenar kalitesi sağlar. BiRefNet, çok ölçekli özellikler çıkarmak için omurga kodlayıcıdan görselleri işler, ardından global bağlamı yerel sınır bilgisiyle çapraz referanslayan ikili referans modülleri uygulayarak saç telleri, dantel desenleri, zincir halkaları ve saydam malzemeler gibi karmaşık yapılar etrafında temiz kenarlara sahip net segmentasyon maskeleri üretir. DIS5K dahil birden fazla benchmark'ta son teknoloji sonuçlar elde eder ve geleneksel modelleri zorlayan karmaşık sınırlara sahip nesneleri ele almada güç gösterir. BiRefNet, olağanüstü kenar kalitesi sayesinde arka plan kaldırma çözümü olarak popülerlik kazanmış ve zorlu görsellerde birçok özel arka plan kaldırma aracını geride bırakmıştır. Yüksek çözünürlüklü giriş işlemeyi destekler ve profesyonel kompozitleme için uygun alfa matlar üretir. Farklı kalite-hız dengeleri için optimize edilmiş çeşitli varyantlarla Hugging Face üzerinden sunulan BiRefNet, Python tabanlı pipeline'lara kolayca entegre olur. Ürün fotoğrafçılığı için hassas arka plan kaldırma, grafik tasarım için nesne izolasyonu, tıbbi görsel segmentasyon ve görsel efekt çalışmaları için yüksek kaliteli kesimler başlıca uygulama alanlarıdır. Açık kaynak lisansıyla yayınlanan BiRefNet, ticari segmentasyon servislerine ücretsiz ve teknik açıdan sofistike bir alternatif sunar.

Açık Kaynak
4.5
Kokoro TTS icon

Kokoro TTS

Kokoro Team|82M

Kokoro TTS, minimal hesaplama yükü koruyarak yüksek kaliteli prozodi ile doğal sesli konuşma sentezi sunmak üzere tasarlanmış hafif ve hızlı açık kaynaklı bir metinden konuşmaya modelidir. StyleTTS'ten ilham alan mimari üzerine inşa edilen model, çıktı kalitesi ile verimlilik arasında etkileyici denge kurarak daha büyük ve pahalı modellerle yarışan doğal ritim, tonlama ve vurgu yerleştirmesiyle ifadeli konuşma üretir. Düşük gecikme ve küçük model ayak izinin kritik olduğu kenar dağıtımı ve gerçek zamanlı uygulamalar için optimize edilmiştir; üretim kalitesini koruyarak GPU hızlandırması gerektirmeden CPU'larda verimli çalışır. Konuşma hızı, perde ve ifade gücünü ayarlamak için kontrol edilebilir parametrelerle birden fazla sesi ve konuşma stilini destekler. Kompakt mimarisi; mobil cihazlar, gömülü sistemler, IoT cihazları ve WebAssembly aracılığıyla web tarayıcıları dahil kaynak kısıtlı ortamlarda dağıtımı mümkün kılarak büyük modellerin pratik olmadığı bağlamlarda konuşma sentezi yetenekleri sunar. Minimal artifakt, uygun nefes kalıpları ve hafif TTS çözümlerinde yaygın olan robotik kaliteyi önleyen doğal cümle düzeyinde prozodi ile temiz ses çıktısı üretir. Kişisel ve ticari kullanım için izin verici lisanslamayla tamamen açık kaynaklıdır ve ücretli TTS API hizmetlerine ücretsiz alternatif sunar. Uygulama ses arayüzleri, metin okuma erişilebilirlik özellikleri, eğitim araçları, akıllı ev cihazı ses çıktısı, chatbot yanıtları, bildirim sistemleri ve önemli hesaplama kaynakları gerektirmeden yüksek kaliteli konuşma sentezi gerektiren senaryolar başlıca uygulamalarıdır. Python paketleri ve Hugging Face üzerinden sunulan Kokoro TTS, mevcut uygulamalara kolayca entegre olur ve çevrimdışı ses üretimi için toplu işlemeyi destekler.

Açık Kaynak
4.3
ProPainter icon

ProPainter

S-Lab|Unknown

ProPainter, Nanyang Teknoloji Üniversitesi S-Lab tarafından olağanüstü zamansal tutarlılıkla video inpainting ve nesne kaldırma için geliştirilen gelişmiş bir derin öğrenme modelidir. Model, maskelenmiş veya kaldırılmış bölgeleri video kareleri boyunca doldurmak için Transformer tabanlı dikkat mekanizmasıyla birleştirilmiş çift alan yayılım mimarisi kullanır ve kusursuz görsel süreklilik sağlar. ProPainter, bir video ve kaldırılacak veya doldurulacak bölgeleri gösteren ikili bir maske alır, ardından çevresindeki piksellerle doğal olarak uyum sağlayan ve kareler arasında tutarlı kalan içerikle tamamlanmış videoyu üretir. Çift alan yaklaşımı, hem uzamsal hem de zamansal boyutlarda bilgi yayar; komşu karelerden doku ayrıntılarını aktarmak için optik akış yönlendirmeli çarpıtma ve görünür referansı olmayan bölgeler için içerik sentezlemek üzere Transformer dikkat mekanizması kullanır. Bu kombinasyon, büyük maskelenmiş alanlar, hızlı kamera hareketi ve önceki yöntemlerin titreme veya hayalet artefaktları üretmesine neden olan karmaşık sahne dinamikleri dahil zorlu senaryoları ele almayı sağlar. Model, DAVIS ve YouTube-VOS dahil standart video inpainting kıyaslamalarında son teknoloji sonuçlar elde eder. S-Lab lisansı altında araştırma amaçlı açık kaynaklıdır. Pratik uygulamalar arasında video görüntülerinden istenmeyen nesnelerin kaldırılması, hasarlı video içeriğinin restorasyonu, filigran kaldırma, görsel efektler için temiz arka plan oluşturma ve video tabanlı içerik moderasyonu yer alır.

Açık Kaynak
4.4
Mochi 1 icon

Mochi 1

Genmo|10B

Mochi 1, Genmo tarafından geliştirilen ve yüksek hareket sadakati ile zamansal tutarlılık sunan, serbestçe erişilebilir en yetenekli video üretim modellerinden biri olarak kendini kanıtlamış açık kaynaklı bir video üretim modelidir. Ekim 2024'te 10 milyar parametreyle yayınlanan Mochi 1, bazı tescilli alternatiflere rakip olan olağanüstü akıcı hareket, tutarlı karakter görünümleri ve doğal sahne dinamikleri içeren klipler üretir. Metin istemlerini bir dil kodlayıcısı aracılığıyla işleyen ve iteratif gürültü giderme süreciyle video üreten transformer mimarisi üzerine inşa edilmiştir ve uzun kare dizilerinde zamansal tutarlılığı korumaya odaklanan mimari yeniliklere sahiptir. Birçok rakip açık kaynak modelin belirgin artefaktlar ürettiği alanlarda gerçekçi insan hareketi, yüz ifadeleri, kamera hareketleri ve nesneler arası fiziksel etkileşimler üretmede güçlü yetenekler sergiler. Detaylı prompt yorumlamayla metinden videoya üretimi destekleyerek belirtilen sahneleri, eylemleri ve stilleri doğru şekilde yansıtan klipler üretir. 10 milyar parametreyle mevcut en büyük açık kaynak video üretim modellerinden biridir ve bu ölçek karmaşık görsel detayları yakalama ve tutarlılığı koruma konusundaki üstün yeteneğine katkıda bulunur. Fotorealistik içerik, stilize animasyon ve sanatsal yorumlar dahil çeşitli görsel stilleri rekabetçi kalitede yönetir. Apache 2.0 lisansı altında Hugging Face, fal.ai ve Replicate üzerinde erişilebilir olup hem araştırma hem de ticari uygulamalara olanak tanır. Açık kaynak video üretimi için yeni bir standart belirleyen ve tescilli API hizmetlerinin kısıtlamaları olmadan yetenekli video üretimine ihtiyaç duyan geliştiriciler için cazip bir alternatif sunan hareket kalitesiyle özellikle takdir görmüştür.

Açık Kaynak
4.4
Stable Point Aware 3D (SPA3D) icon

Stable Point Aware 3D (SPA3D)

Stability AI|Unknown

Stable Point Aware 3D (SPA3D), Stability AI tarafından geliştirilen ve tek bir girdi görüntüsünden saniyeler içinde yüksek kaliteli dokulu 3D mesh'ler üreten gelişmiş bir ileri beslemeli 3D rekonstrüksiyon modelidir. Dakikalar süren işlem gerektiren yinelemeli optimizasyon tabanlı yaklaşımlardan farklı olarak SPA3D, tek bir geçişte 3D geometri ve doku tahmin eden doğrudan ileri beslemeli mimari kullanarak etkileşimli iş akışları ve üretim boru hatları için pratik hale gelir. Model, diğer tek görünüm rekonstrüksiyon yöntemlerine kıyasla geometrik tutarlılığı önemli ölçüde iyileştiren nokta bulutu hizalama teknikleri kullanır ve üretilen 3D modellerin birden fazla bakış açısından doğru oranları ve yapısal bütünlüğü korumasını sağlar. SPA3D, temiz topoloji ve UV haritalı dokularla endüstri standardı mesh çıktıları üreterek Blender, Unity, Unreal Engine ve profesyonel CAD araçlarına doğrudan içe aktarmayı mümkün kılar. Model, karakterler ve hayvanlar gibi organik şekillerden mobilya ve araçlar gibi sert yüzeyli nesnelere kadar çeşitli nesne kategorilerini işleyerek rekonstrüksiyon yaklaşımını her girdinin yapısal özelliklerine uyarlar. Stability AI Community License altında yayınlanan model, gelir tabanlı kısıtlamalarla kişisel ve ticari kullanıma açıktır. Temel uygulamalar arasında oyun geliştirme için hızlı 3D varlık oluşturma, artırılmış gerçeklik içerik üretimi, 3D baskı hazırlığı, sanal ürün fotoğrafçılığı ve e-ticaret 3D ürün gösterimleri yer alır. SPA3D özellikle konsept çizimlerinden veya fotoğraflardan hızlı 3D modeller gerektiren yaratıcı profesyoneller için değerlidir.

Açık Kaynak
4.3
DALL-E 2 icon

DALL-E 2

OpenAI|3.5B

DALL-E 2, OpenAI'ın 2022'de piyasaya sürüldüğünde erişilebilir AI görsel oluşturmaya öncülük eden ve milyonlarca kullanıcıyı text-to-image üretiminin olanaklarıyla tanıştıran ikinci nesil görsel üretim modelidir. CLIP tabanlı metin anlama ile difüzyon modeli mimarisi üzerine inşa edilen DALL-E 2, doğal dil açıklamalarından 1024x1024 çözünürlükte görseller üretir. Model, yayınlandığında çığır açan birçok yenilikçi yetenek tanıtmıştır: bir görselin belirli bölgelerini düzenlemek için inpainting, görselleri orijinal sınırlarının ötesine genişletmek için outpainting ve mevcut görsellerin alternatif versiyonlarını oluşturmak için varyasyonlar. DALL-E 2, AI'ın basit metin açıklamalarından yaratıcı, tutarlı ve görsel olarak çekici görseller üretebileceğini göstererek tüketici AI görsel üretim devrimini başlattı. Halefi DALL-E 3 ve Midjourney v6 ile FLUX.1 gibi rakipler tarafından kalite açısından geçilmiş olsa da DALL-E 2, önemli ölçüde düşürülmüş fiyatlandırmayla OpenAI API üzerinden hâlâ kullanılabilir durumdadır ve maksimum görsel kalitenin birincil endişe olmadığı uygulamalar için uygun maliyetli bir seçenek sunar. Model, temel görsel üretim, basit düzenleme görevleri ve prototip oluşturma için güvenilir performans sunar. Yüksek hacimli görsel üretim ihtiyacı olan uygulama geliştiricileri, görsel materyal oluşturan eğitimciler ve bütçeyle AI sanatını keşfeden hobi sahipleri DALL-E 2'yi kullanmaya devam etmektedir. Text-to-image teknolojisini ana akım farkındalığa taşıyan ilk yaygın erişilebilir AI görsel üreticilerinden biri olarak tarihsel önemi büyüktür.

Tescilli
4.0
InstructPix2Pix icon

InstructPix2Pix

Tim Brooks|1B

InstructPix2Pix, UC Berkeley araştırmacıları tarafından geliştirilen ve kullanıcıların manuel maske, eskiz veya referans görsel gerektirmeden doğal dil talimatlarıyla görselleri düzenlemesini sağlayan yenilikçi bir görsel düzenleme modelidir. Model, GPT-3'ün dil yetenekleriyle Stable Diffusion'ın görsel üretimini birleştirerek oluşturulan eşleştirilmiş görsel düzenlemeleri veri setinde eğitilmiş ve metin tabanlı düzenleme talimatlarını hassas görsel değişikliklere çevirmeyi öğrenmiştir. Kullanıcılar bir giriş görseli ile birlikte 'karlı yap,' 'kediyi köpeğe çevir' veya 'dramatik gün batımı aydınlatması ekle' gibi metin talimatı sağlayabilir ve InstructPix2Pix, orijinal görselin genel yapısını ve etkilenmeyen öğelerini korurken istenen değişiklikleri uygular. Model tek bir ileri geçişte çalışarak yinelemeli optimizasyon olmadan hızlı düzenlemeler yapar. Stil transferi, nesne değiştirme, aydınlatma değişiklikleri, mevsim ve hava durumu değişiklikleri, malzeme değişiklikleri ve sanatsal dönüşümler dahil geniş bir düzenleme işlemi yelpazesini yönetir. InstructPix2Pix, Stable Diffusion mimarisi üzerine inşa edilmiştir ve açık kaynaklıdır, Diffusers kütüphanesiyle entegrasyon ile Hugging Face üzerinde mevcuttur. 6GB ve üzeri VRAM ile tüketici GPU'larında çalışır. Fotoğrafçılar, dijital sanatçılar, içerik üreticileri ve görsel düzenleme uygulamaları geliştiren yazılımcılar hızlı yaratıcı düzenleme iş akışları için InstructPix2Pix kullanır. Karmaşık senaryolarda manuel düzenlemenin hassasiyetiyle eşleşmese de doğal dil arayüzü, sofistike görsel düzenlemeleri herhangi bir görsel düzenleme uzmanlığı olmadan kullanıcılar için erişilebilir kılar.

Açık Kaynak
4.3
Zero123++ icon

Zero123++

Stability AI|N/A

Zero123++, Stability AI tarafından geliştirilen, tek giriş görselinden bir nesnenin altı tutarlı kanonik görünümünü üreten çoklu görünüm görsel üretim modelidir. 2023'te Apache 2.0 lisansı altında yayınlanan model, orijinal Zero123 yaklaşımını önemli ölçüde iyileştirilmiş görünüm tutarlılığıyla genişletir ve modern 3D rekonstrüksiyon hatlarında kritik bir bileşen olarak hizmet eder. Zero123++ bir nesnenin tek bir fotoğrafını veya render edilmiş görselini alır ve nesnenin etrafında tam 360 derecelik aralığı kapsayan altı eşit aralıklı görünüm üretir ve bunların tümü tutarlı geometri, aydınlatma ve görünüm korur. Model çoklu görünüm tutarlılığını sağlayan özel koşullandırma mekanizmalarıyla ince ayarlı bir Stable Diffusion omurgası üzerine inşa edilmiştir. Görünümleri bağımsız üreten ve sıklıkla tutarsız sonuçlar veren orijinal Zero123'ün aksine Zero123++ tüm altı görünümü tek bir difüzyon sürecinde eş zamanlı üretir ve 3D tutarlılığı dramatik şekilde iyileştirir. Üretilen çoklu görünüm görselleri NeRF, Gaussian Splatting veya doğrudan mesh rekonstrüksiyonu gibi aşağı akış 3D rekonstrüksiyon yöntemleri için girdi görevi görerek tek bir fotoğraftan yüksek kaliteli 3D model oluşturmayı mümkün kılar. Zero123++ önceden eğitilmiş ağırlıkları Hugging Face üzerinde mevcut olan tamamen açık kaynak bir modeldir ve 3D üretim sistemleri kuran araştırmacılar ile geliştiricilere açıktır. Model birçok son teknoloji 3D üretim hattında temel bir bileşen haline gelmiş ve akademik araştırmalarda yaygın olarak kullanılmaktadır. Özellikle 2D görsellerin 3D varlıklara dönüştürülmesinin sık bir iş akışı gereksinimi olduğu oyun geliştirme, ürün görselleştirme ve sanal gerçeklik uygulamaları için değerlidir.

Açık Kaynak
4.3
VALL-E icon

VALL-E

Microsoft|N/A

VALL-E, Microsoft Research tarafından geliştirilen ve Ocak 2023'te tanıtılan, text-to-speech sentezi için sinirsel codec dil modelidir. Mel spektrogramlar ve vokoder kullanan geleneksel TTS sistemlerinin aksine VALL-E metinden konuşmaya dönüşümü koşullu bir dil modelleme görevi olarak ele alır ve kısa bir ses örneğine koşullu olarak metin girdisinden ayrık ses codec kodları üretir. Model konuşmacının ses özelliklerini, duygusal tonunu ve akustik ortamını yalnızca 3 saniyelik bir referans ses örneğinden koruyan konuşma sentezlemek için EnCodec ses tokenleri üzerinde çalışan otoregresif ve otoregresif olmayan transformer kod çözücülerin kombinasyonunu kullanır. Bu yaklaşım modelin konuşmacıya özel ince ayar gerektirmeden yalnızca kısa bir örnek dinledikten sonra herhangi bir seste konuşma üretebilmesini sağlayan dikkat çekici sıfır atışlı ses klonlama yetenekleri sunar. VALL-E LibriLight veri kümesinden 60.000 saatlik İngilizce konuşma verisi üzerinde eğitilmiştir ve bu da modele geniş bir konuşmacı, aksan ve konuşma stili çeşitliliğine maruz kalma imkanı vermiştir. Üretilen konuşma doğal prozodi, uygun duraklamalar ve referans konuşmacının özelliklerine yakından uyan duygusal ifade korur. VALL-E dil modelleme yaklaşımlarının sinirsel ses codec'leriyle eşleştirildiğinde konuşma sentezini etkili bir şekilde çözebildiğini göstererek TTS teknolojisinde bir paradigma değişimini temsil eder. Potansiyel kötüye kullanım endişeleri nedeniyle salt araştırma lisansı altında yayınlanan model ticari kullanıma açık değildir. VALL-E sıfır atışlı TTS alanındaki sonraki araştırmaları önemli ölçüde etkilemiş ve mimarisi çok sayıda takip modeline ilham vermiştir. Model özellikle konuşma sentezi, ses dönüşümü ve dil modelleme tekniklerinin ses üretim görevlerine uygulanmasını araştıranlar için ilgilidir.

Tescilli
4.4
SwinIR icon

SwinIR

ETH Zurich|12M

SwinIR, ETH Zurich'te Jingyun Liang ve araştırma ekibi tarafından geliştirilen, süper çözünürlük, görsel gürültü giderme ve JPEG sıkıştırma yapıları kaldırma dahil birden fazla restorasyon görevinde son teknoloji performans elde eden Transformer tabanlı görsel restorasyon modelidir. Ağustos 2021'de Apache 2.0 lisansı altında yayınlanan SwinIR, görsellerde hem yerel detayı hem de küresel bağlamı verimli şekilde yakalayan kaydırılmış pencere dikkat mekanizmalarından yararlanarak Swin Transformer mimarisini görsel işleme için uyarlar. Model üç ana modülden oluşur: sığ özellik çıkarma katmanı, artık bağlantılarla Swin Transformer bloklarından oluşan derin özellik çıkarma modülü ve restore edilmiş yüksek kaliteli çıktıyı üreten rekonstrüksiyon modülü. Yalnızca 12 milyon parametreyle SwinIR birçok rakip modele kıyasla dikkat çekici ölçüde hafiftir ve üstün veya karşılaştırılabilir sonuçlar sunar. Model 2x, 3x ve 4x büyütme dahil birden fazla süper çözünürlük ölçeğini, farklı kalite-hız dengelemeleri için klasik ve hafif varyantları ve çeşitli gürültü seviyelerinde gürültü giderme ile farklı kalite faktörlerinde JPEG yapı kaldırma için optimize edilmiş ayrı yapılandırmaları destekler. SwinIR Transformer mimarilerinin düşük seviyeli görsel işleme görevlerinde CNN tabanlı yaklaşımları geçebileceğini göstererek alanda önemli bir dönüm noktası oluşturmuştur. Model önceden eğitilmiş ağırlıkları GitHub üzerinde mevcut olan tamamen açık kaynaklıdır ve standart derin öğrenme çerçeveleriyle iyi entegre olur. SwinIR akademik araştırmalarda görsel restorasyon kıyaslamaları için temel çizgi olarak ve yüksek kaliteli görsel iyileştirmeye ihtiyaç duyan fotoğrafçılar, grafik tasarımcılar ve içerik üreticileri tarafından pratik uygulamalarda yaygın olarak kullanılır. Verimli mimarisi onu özel GPU gereksinimleri olmadan tüketici donanımında dağıtıma uygun kılar.

Açık Kaynak
4.4
ArtBreeder icon

ArtBreeder

Joel Simon|N/A

ArtBreeder, Joel Simon tarafından oluşturulan, üretken çekişmeli ağ (GAN) teknolojisiyle desteklenen sezgisel bir web tabanlı arayüz aracılığıyla kullanıcıların görselleri harmanlama, evrimleştirme ve oluşturmasına olanak tanıyan iş birlikçi bir AI sanat platformudur. Platform, kullanıcıların birden fazla görseli karıştırma oranlarını ayarlayarak birleştirmesini sağlar; biyolojik ıslaha benzer bir süreçle üst görsellerden özellikler miras alan özgün görsel çıktılar oluşturur. Kaydırıcı kontrolleriyle yaş, ifade, etnisite, saç rengi ve sanatsal stil gibi çeşitli görsel nitelikler gerçek zamanlı olarak ayarlanarak geniş bir görsel olasılık uzayı keşfedilebilir. ArtBreeder; portreler, manzaralar, albüm kapakları, anime karakterler ve genel görseller dahil birçok özelleşmiş model üzerinde çalışır ve her biri kendi kategorisinde yüksek kaliteli sonuçlar üretir. Platformun iş birlikçi doğası, oluşturulan tüm görsellerin varsayılan olarak herkese açık paylaşılması anlamına gelir ve diğer kullanıcıların remix yapıp geliştirebileceği devasa bir topluluk kütüphanesi oluşturur. Bu sosyal boyut, fikirlerin organik olarak birbirleri üzerine inşa edildiği benzersiz bir yaratıcı ekosistem yaratır. Başlıca kullanım alanları oyun ve hikaye için karakter tasarımı, film ve roman için konsept sanat keşfi, benzersiz profil resimleri ve avatarlar oluşturma, illüstrasyon projeleri için referans görseli üretme ve görsel stillerle sanatsal deneyler yapmadır. Platform ücretsiz temel erişim ile premium katmanlarda daha yüksek çözünürlük ve ek özellikler sunar. Açık kaynak olmasa da ArtBreeder, GAN tabanlı görsel manipülasyonu teknik uzmanlık veya yerel donanım gerektirmeden herkes için erişilebilir kılarak AI sanat üretimini demokratikleştirmiştir.

Tescilli
4.2
LTX Video icon

LTX Video

Lightricks|N/A

LTX Video, Lightricks tarafından geliştirilen ve görsel kaliteden ödün vermeden üretim hızı ve verimliliği vurgulayarak 24 kare/saniye hızında 768x512 çözünürlükte videolar üreten gerçek zamanlı bir video üretim modelidir. Kasım 2024'te yayınlanan LTX Video, hızlı çıkarım için optimize edilmiş transformer tabanlı bir mimari üzerine inşa edilmiş olup birçok rakip modelden daha hızlı video içeriği üretebilir. Bu özellik, onu etkileşimli uygulamalar ve hızlı iterasyon gerektiren iş akışları için özellikle uygun kılar. Model, doğal dil açıklamalarını yorumlayarak tutarlı hareket, tutarlı sahne dinamikleri ve görsel olarak çekici çıktı kalitesine sahip kısa video klipler üreten metinden videoya üretimi destekler. LTX Video'nun mimarisi, profesyonel yaratıcı uygulamalar için gereken kaliteyi korurken hesaplama gereksinimlerini azaltan verimli dikkat mekanizmaları ve optimize edilmiş gizli uzay işlemleri içerir. Model, doğal hareketli insan özneleri, dinamik öğeler içeren çevresel sahneler, soyut görsel içerik ve stilize sanatsal yorumlar dahil çeşitli içerik türleri üretmede yetkinlik sergiler. LTX Video, API erişilebilirliği ve popüler geliştirme çerçeveleriyle uyumluluğu aracılığıyla mevcut yaratıcı iş akışlarına entegrasyonu destekler. Gerçek zamanlı performans vurgusu, onu etkileşimli içerik oluşturma araçları, canlı önizleme sistemleri ve uzun üretim sürelerinin yaratıcı akışı bozacağı prototip üretimi gibi uygulamalar için özellikle değerli kılar. Apache 2.0 lisansı altında sunulan LTX Video, Hugging Face üzerinde ve fal.ai ile Replicate dahil bulut platformları aracılığıyla erişilebilir olup hem yerel dağıtım hem de bulut tabanlı entegrasyon sağlar. Lightricks'in yaratıcı araçlar şirketi olarak geçmişi, modelin pratik kullanılabilirliğe odaklanmasına yansımış olup optimizasyonlar günlük yaratıcı süreçlerinde çıktı kalitesinin yanı sıra iş akışı verimliliğine öncelik veren içerik üreticileri ve tasarımcıların ihtiyaçlarına yöneliktir.

Açık Kaynak
4.3
InstantMesh icon

InstantMesh

Tencent|N/A

InstantMesh, Tencent tarafından geliştirilen, tek giriş görsellerinden çoklu görünüm üretimi ve seyrek görünüm rekonstrüksiyonu hattı aracılığıyla yüksek kaliteli dokulu 3D mesh'ler oluşturan ileri beslemeli bir 3D mesh üretim modelidir. Nisan 2024'te Apache 2.0 lisansı altında yayınlanan InstantMesh, tek görselden 3D rekonstrüksiyonda hem hız hem de kalite elde etmek için çoklu görünüm difüzyon modelini büyük bir rekonstrüksiyon modeliyle birleştirir. Hat önce ince ayarlı çoklu görünüm difüzyon modeli kullanarak giriş nesnesinin birden fazla tutarlı görünümünü üretir, ardından bu görünümleri üç düzlem sinirsel temsili tahmin eden transformer tabanlı bir rekonstrüksiyon ağına besler ve son olarak bu temsil dokulu bir mesh'e dönüştürülür. Bu iki aşamalı yaklaşım tek aşamalı yöntemlerden önemli ölçüde daha yüksek kaliteli sonuçlar üretirken üretim sürelerini yalnızca birkaç saniyede tutar. InstantMesh bir görsel üretim modeliyle birleştirildiğinde metinden 3D'ye iş akışlarını ve fotoğraflardan veya sanat eserlerinden doğrudan görselden 3D'ye dönüşümü destekler. Çıktı mesh'leri standart 3D yazılımlar ve oyun motorlarıyla uyumlu detaylı geometri ve doku haritaları içerir. Model karakterler, araçlar, mobilyalar ve organik şekiller dahil çok çeşitli nesne türlerini iyi geometrik sadakatle işler. Kod ve ağırlıkları GitHub ve Hugging Face üzerinde mevcut olan açık kaynak bir proje olarak InstantMesh, 3D varlık üretim hatları kuran geliştiriciler arasında popüler bir seçim haline gelmiştir. Özellikle hızlı geri dönüş ve makul kalitenin birlikte önemli olduğu oyun geliştirme, e-ticaret ürün görselleştirme ve hızlı prototipleme senaryoları için kullanışlıdır.

Açık Kaynak
4.3
Kandinsky 3.1 icon

Kandinsky 3.1

Sber AI|12B

Kandinsky 3.1, Rusya'nın en büyük teknoloji şirketi Sber AI tarafından geliştirilen ve öncü soyut sanatçı Wassily Kandinsky'nin adını taşıyan gelişmiş bir metin-görsel AI modelidir. Difüzyon mimarisi üzerine inşa edilmiş 12 milyar parametresiyle model, geliştirilmiş görüntü kalitesi, daha hızlı üretim hızları ve daha iyi prompt uyumu ile Kandinsky 3.0'a göre önemli bir ilerlemeyi temsil eder. Kandinsky 3.1, özellikle görseller içinde Kiril metni oluşturma ve Rusça dil promptlarını ana dil akıcılığıyla anlama konusunda üstün performans sergilerken İngilizce ve diğer dilleri de etkili şekilde destekler. Model, önce düşük çözünürlükte görüntüler üreten ardından ayrı bir süper çözünürlük modülüyle büyüten kademeli üretim boru hattı kullanarak son derece detaylı çıktılar elde eder. Kandinsky 3.1, standart görüntü üretim kıyaslamalarında rekabetçi sonuçlar elde ederek çeşitli stillerde fotorealistik görüntüler, dijital sanat ve illüstrasyonlar üretir. Mimari, promptlarda tanımlanan semantik nüansları ve uzamsal ilişkileri daha iyi yakalayan geliştirilmiş metin kodlaması içerir. Apache 2.0 lisansı altında tamamen açık kaynaklı olan model, Hugging Face üzerinden indirme ve yerel dağıtım için mevcuttur. Diffusers kütüphanesiyle entegre olur ve alana özgü uygulamalar için ince ayar yoluyla özelleştirilebilir. Yaygın kullanım alanları arasında Rusça konuşulan pazarlar için pazarlama içeriği oluşturma, editoryal illüstrasyon, konsept sanat, ürün görselleştirme ve eğitim materyali üretimi yer alır. Model ayrıca yönetilen altyapı tercih eden geliştiriciler için Sber'in bulut API'si aracılığıyla da erişilebilir durumdadır.

Açık Kaynak
4.3
Kolors icon

Kolors

Kuaishou|8B

Kolors, Kuaishou Technology tarafından geliştirilen ve prompt tabanlı görsel oluşturma için hem Çince hem İngilizce dillerinde doğal anlama kapasitesiyle tasarlanmış çift dilli bir text-to-image üretim modelidir. Model, Batı merkezli eğitilmiş modellerin sıklıkla kaçırdığı Çin kültürel içeriği, görsel estetik ve dilsel nüanslara özel vurguyla milyarlarca görsel-metin çiftiyle eğitilmiş büyük ölçekli bir difüzyon mimarisi üzerine inşa edilmiştir. Kolors, standart Batı görsel kavramlarının yanı sıra Çin sanat geleneklerini, kültürel sembolleri, kaligrafiyi ve modern Çin tasarım estetiğini doğru şekilde yansıtan görseller üretmede güçlü yetenekler sergiler. Model, iyi prompt uyumu, doğru renk üretimi ve fotorealistik, illüstratif ve sanatsal stillerde detaylı renderla rekabetçi görsel kalite elde eder. Çift dilli mimarisi, Çince ve İngilizce promptları eşit yetkinlikle işleyerek özellikle Çince konuşan kitleler veya kültürler arası projeler için içerik üreten yaratıcılar için değerli kılar. Kolors çeşitli çözünürlük ve en-boy oranlarında text-to-image üretimini destekler. Kuaishou tarafından açık kaynak olarak yayınlanan model, Hugging Face üzerinde mevcuttur ve Python tabanlı iş akışlarına entegrasyon için Diffusers kütüphanesiyle uyumludur. 8GB ve üzeri VRAM'e sahip GPU'larda çalışır ve yerel olarak dağıtılabilir veya çeşitli bulut platformları üzerinden erişilebilir. Çinli içerik üreticileri, Çin pazarlarını hedefleyen uluslararası pazarlama ekipleri, Çin estetiğiyle ilgilenen dijital sanatçılar ve çok dilli görsel üretimi inceleyen AI araştırmacıları birincil kullanıcı kitlesini oluşturur. Kolors, kültürel farkındalığa sahip yüksek kaliteli çift dilli yetenekler sunarak görsel üretim alanında önemli bir boşluğu doldurur.

Açık Kaynak
4.4
AnimateDiff Img2Vid icon

AnimateDiff Img2Vid

Yuwei Guo|N/A

AnimateDiff Img2Vid, AnimateDiff çerçevesinin görselden videoya boru hattı uzantısıdır ve AnimateDiff'i benzersiz şekilde çok yönlü kılan tak-çıkar hareket modülü yaklaşımını kullanarak statik görselleri canlandırır. Eylül 2023'te yayınlanan bu boru hattı, referans görseli girdi olarak alır ve görselin görsel özelliklerini, stilini ve kompozisyon öğelerini koruyan animasyonlu diziler üretir. Mimari, giriş görselini Stable Diffusion modelinin gizli uzayına kodlar ve ardından tutarlı bir animasyonlu dizi oluşturan kare kare hareket üretmek için AnimateDiff hareket modülünün zamansal dikkat katmanlarını uygular. Bu yaklaşım AnimateDiff ekosisteminin tüm esneklik avantajlarını miras alır; kullanıcılar img2vid boru hattını stile özgü animasyon için uyumlu Stable Diffusion kontrol noktalarıyla, özelleştirme için LoRA modelleriyle ve yapısal rehberlik için ControlNet modülleriyle birleştirebilir. Model, üretilen animasyonun hızı ve dinamizmi üzerinde yaratıcı kontrol sağlayan özelleştirilebilir kare sayıları, kare hızları ve hareket yoğunlukları ile animasyonlu döngüler ve kısa video dizileri üretir. AnimateDiff Img2Vid; fotoğraflar, dijital illüstrasyonlar, anime sanatı, konsept tasarımlar ve stilize sanat eserleri dahil çeşitli giriş türlerini yöneterek her girdinin içeriğine ve görsel stiline uygun hareket kalıpları üretir. Yaygın uygulamalar arasında animasyonlu sosyal medya içeriği, statik illüstrasyonlardan hareketli sanat eserleri, animasyonlu ürün vitrinleri ve konsept sanatını canlandırma yer alır. Apache 2.0 lisansı altında Hugging Face, Replicate ve fal.ai üzerinde erişilebilir olup maksimum yaratıcı kontrol için çeşitli ControlNet ve LoRA yapılandırmalarını birleştiren gelişmiş çok adımlı animasyon hatlarını mümkün kılan ComfyUI iş akışları aracılığıyla kapsamlı topluluk desteğine sahiptir.

Açık Kaynak
4.2
OpenJourney icon

OpenJourney

PromptHero|1B

Openjourney, PromptHero tarafından oluşturulan ve özellikle Midjourney çıktılarının ayırt edici sanatsal stilini kopyalamak için eğitilmiş açık kaynaklı bir Stable Diffusion ince ayar modelidir. Model, Midjourney'i ünlü yapan karakteristik canlı renkler, dramatik aydınlatma, sinematik kompozisyonlar ve resimsel estetiği öğrenerek küratörlü bir Midjourney tarafından üretilmiş görsel veri setinde ince ayarlanmıştır. Promptlarda tetikleyici anahtar kelime kullanarak kullanıcılar, Midjourney aboneliği gerektirmeden Midjourney benzeri kalitede görseller üretebilir. Openjourney, Stable Diffusion 1.5 üzerine inşa edilmiştir ve bu sayede hafif yapıda olup 4GB kadar düşük VRAM ile tüketici GPU'larında erişilebilir şekilde çalıştırılabilir. Model, açık kaynak AI sanat hareketinin ilk günlerinde, abonelik hizmetini karşılayamayan veya erişemeyen kullanıcılar için Midjourney esinli bir estetiğe erişimi demokratikleştirerek büyük popülerlik kazanmıştır. img2img, inpainting ve ControlNet koşullandırma dahil tüm standart Stable Diffusion özelliklerini destekler. Hugging Face ve CivitAI üzerinde mevcut olan Openjourney, ComfyUI, Automatic1111 ve diğer popüler Stable Diffusion arayüzleriyle entegre olur. Dijital sanatçılar, hobi sahipleri, içerik üreticileri ve yaratıcı uygulamalar geliştiren yazılımcılar birincil kullanıcı kitlesini oluşturur. SDXL ve FLUX.1 gibi daha yeni modeller çıktı kalitesini aşmış ve Midjourney stili Openjourney'in yakaladığının ötesinde önemli ölçüde evrimleşmiş olsa da model, sanatsal görsel üretim için hafif bir seçenek olarak ve açık kaynak AI topluluğunda ince ayar yoluyla stil transferinin tarihsel açıdan önemli bir örneği olarak geçerliliğini korumaktadır.

Açık Kaynak
4.0
PuLID icon

PuLID

ByteDance|N/A

PuLID, ByteDance tarafından geliştirilen ve kişiselleştirilmiş portreler oluşturmak için Saf ve Yıldırım Hızında Kimlik (Pure and Lightning ID) özelleştirme yaklaşımı sunan kimlik korumalı görsel üretim modelidir. Nisan 2024'te yayınlanan PuLID, uzun ince ayar süreçleri gerektirmeden farklı üretilen görsellerde kişinin kimlik özelliklerini koruma temel sorununu ele alır. Model, önceden eğitilmiş difüzyon modelleriyle doğrudan çalışan yeni bir karşıtsal hizalama kaybı ve doğru kimlik kaybı mekanizması aracılığıyla bunu başarır ve özellikle SDXL ve FLUX mimarileriyle entegre olur. PuLID'ın temel yeniliği, kimlik özelliklerini poz, ifade ve arka plan gibi diğer görsel niteliklerden ayırabilme yeteneğinde yatmaktadır. Bu sayede öznenin kimliği tutarlı kalırken diğer tüm yönler serbestçe değiştirilebilen yüksek düzeyde kontrol edilebilir üretim sağlar. Model, referans görselleri InsightFace tabanlı bir kimlik kodlayıcısı aracılığıyla işleyerek güçlü yüz özellik temsilleri çıkarır ve bunları özelleştirilmiş adaptör katmanları üzerinden üretim hattına enjekte eder. Bu yaklaşım, kişi başına herhangi bir eğitim gerektirmeden gerçek zamanlı kişiselleştirme sağlayarak DreamBooth veya metin inversiyonu gibi alternatiflere göre önemli ölçüde hızlı çalışır. PuLID; kişiselleştirilmiş avatar oluşturma, sosyal medya içerik üretimi, sanal deneme senaryoları ve kimlik tutarlı çoklu sahne illüstrasyonu gibi uygulamalarda öne çıkar. Apache 2.0 lisansı altında açık kaynak olarak yayınlanan PuLID, Hugging Face üzerinde erişilebilir ve fal.ai gibi platformlar aracılığıyla desteklenerek araştırmacılara ve içerik üreticilerine minimum hesaplama yüküyle güçlü bir kimlik korumalı görsel üretim aracı sunar.

Açık Kaynak
4.4
Open-Sora icon

Open-Sora

HPC-AI Tech|1.1B

Open-Sora, HPC-AI Tech tarafından yüksek kaliteli video üretim araştırma ve yeteneklerine erişimi demokratikleştirmek amacıyla geliştirilen, OpenAI'nın Sora video üretim modelinin açık kaynak reprodüksiyonudur. Mart 2024'te yayınlanan Open-Sora, Sora'nın çığır açıcı video üretim yaklaşımının arkasındaki temel ilkeleri kopyalamayı hedeflerken tüm eğitim hattını, model mimarisini ve ağırlıkları araştırma topluluğuna serbestçe sunar. 1,1 milyar parametreli bir transformer mimarisi üzerine inşa edilen Open-Sora, metin açıklamalarını bir dil modeli kodlayıcısı aracılığıyla işler ve sıkıştırılmış bir gizli uzayda difüzyon tabanlı gürültü giderme süreciyle video içeriği üretir. Proje, hem kare içi görsel ilişkileri hem de kareler arası zamansal dinamikleri yakalayan uzamsal-zamansal bir dikkat mekanizması uygulayarak tutarlı hareket ve sahne evrimi içeren videoların üretilmesini sağlar. Open-Sora, çoklu çözünürlük çıktılarını ve değişken uzunlukta video üretimini destekler ve model farklı platformlara uygun çeşitli en boy oranlarında klipler üretebilir. Proje, üretim kalitesini, hareket tutarlılığını ve prompt uyumunu aşamalı olarak iyileştiren düzenli sürüm güncellemeleriyle iteratif bir geliştirme yaklaşımı izler. Mevcut model, Sora veya Runway Gen-3 gibi ticari alternatiflerin kalitesiyle eşleşmese de tescilli kısıtlamalar olmadan video üretim teknolojisini anlama ve ilerletme için paha biçilmez bir araştırma platformu sağlar. Apache 2.0 lisansı altında sunulan Open-Sora, Hugging Face ve Replicate üzerinde erişilebilir olup tam eğitim kodu ve veri hattı belgeleri reprodüksiyon ve genişletme için kamuya açıktır. Proje, büyük ölçekli çok modlu modeller için video üretimi, zamansal modelleme ve verimli eğitim stratejileri üzerine akademik çalışmalara temel teşkil ederek yapay zeka araştırma topluluğundan önemli ilgi çekmiştir.

Açık Kaynak
4.1
DynamiCrafter icon

DynamiCrafter

Tencent|1.4B

DynamiCrafter, Tencent tarafından geliştirilen ve doğal hareket ile zamansal tutarlılıkla dinamik içerik üretmek için video difüzyon önceliklerinden yararlanarak durağan görselleri canlandıran açık kaynaklı bir görsel animasyon modelidir. Ekim 2023'te yayınlanan DynamiCrafter, modelin ek hareket rehberliği olmadan tek bir statik görselden makul hareket kalıplarını çıkarması gereken açık alan görsel animasyonu görevini ele alır. 1,4 milyar parametreli difüzyon mimarisi üzerine inşa edilen model, hareket önceliği olarak önceden eğitilmiş video difüzyon modelini kullanarak üretimi giriş görseli üzerinde koşullandırır ve kaynağın görsel özelliklerini korurken uygun zamansal dinamikler ekleyen animasyonlar üretir. Mimari, görsel anlama ile öğrenilmiş hareket kalıplarını birleştirerek hareketli öğeler içeren manzaralar, ince ifadeli portreler, mimari sahneler ve sanatsal kompozisyonlar dahil çeşitli içerikleri canlandırır. DynamiCrafter, uzamsal yerleşimi ve derinlik ilişkilerini saygılayan fiziksel olarak makul animasyonlar üretmede güçlüdür ve çarpıtma bozulmaları ile doğal olmayan deformasyonlardan kaçınır. Çoklu çözünürlük çıktılarını ve değişen uzunluklarda animasyonlar üretmeyi destekler. Kullanım alanları arasında sosyal medya için animasyonlu fotoğraflar, sunumlar için dinamik arka planlar, sanat eserlerini canlandırma ve yaratıcı projeler için görsel efektler üretme yer alır. Apache 2.0 lisansı altında Hugging Face, Replicate ve fal.ai üzerinde erişilebilir olup popüler yaratıcı iş akışlarına entegrasyon yoluyla topluluk tarafından benimsenmiştir. Model, statik görsel varlıklara manuel animasyon becerileri olmadan hareket eklenmesi gereken içerik üreticileri için pratik bir çözüm sunarak denetimsiz görsel animasyonda önemli bir ilerlemeyi temsil eder.

Açık Kaynak
4.2
Riffusion icon

Riffusion

Riffusion|1B

Riffusion, Stable Diffusion v1.5'in ince ayarlı bir versiyonunu kullanarak spektrogramları görsel olarak üreten yenilikçi bir AI müzik üretim modelidir. 2022 sonlarında Seth Forsyth ve Hayk Martiros tarafından yan proje olarak oluşturulan Riffusion, görsel difüzyon modellerinin müziğin spektrogram temsilleri üzerinde eğitilerek ses üretimi için yeniden kullanılabileceğini göstermiştir. Model müzikal türleri, enstrümanları, ruh hallerini ve stilleri tanımlayan metin komutlarına koşullu mel spektrogramları üretir ve bunlar Griffin-Lim algoritması veya sinirsel vokoderleri kullanılarak ses dalga biçimlerine geri dönüştürülür. Müzik üretimine bu görsel tabanlı yaklaşım yayınlandığı dönemde çığır açıcıydı ve Stable Diffusion'ın güçlü üretken yeteneklerinin ses alanına aktarılabileceğini gösterdi. Riffusion rock, caz, elektronik, klasik ve ambient dahil çeşitli tarzlarda kısa müzik klipleri üretebilir ve farklı komutlar arasında gerçek zamanlı enterpolasyon sayesinde pürüzsüz müzikal geçişler sağlar. Model Stable Diffusion tabanından devralınan yaklaşık 1 milyar parametreye sahiptir. MIT lisansı altında yayınlanan Riffusion ince ayarlı model ağırlıkları, eğitim kodu ve etkileşimli web uygulamasıyla GitHub üzerinde tamamen açık kaynaklıdır. MusicGen ve Suno gibi daha yeni amaca yönelik müzik üretim modelleri çıktı kalitesi ve süre açısından Riffusion'ı geçmiş olsa da model AI müzik üretiminde yaygın ilgiyi ateşleyen kavram kanıtı olarak tarihsel önemini korumaktadır. Riffusion görsel üretim ile ses sentezi kesişimini keşfeden hobiciler ve araştırmacılar tarafından kullanılmaya devam etmekte ve yaratıcı AI müzik uygulamaları için ilham kaynağı olmaktadır.

Açık Kaynak
4.1
FidelityFx Super Resolution icon

FidelityFx Super Resolution

AMD|N/A

FidelityFX Super Resolution (FSR), AMD tarafından geliştirilen, özellikle video oyunları olmak üzere gerçek zamanlı render uygulamalarında performansı artırmak için tasarlanmış açık kaynaklı mekansal büyütme teknolojisidir. NVIDIA'nın özel Tensor Core gerektiren DLSS'inin aksine, FSR donanımdan bağımsız çalışır ve AMD, NVIDIA, Intel GPU'larında hatta entegre grafiklerde bile sorunsuz kullanılabilir. Teknoloji birden fazla nesil boyunca evrilmiştir: FSR 1.0 tek kare üzerinde Lanczos tabanlı mekansal büyütme kullanırken, FSR 2.0 hareket vektörleri ve önceki kare verilerinden yararlanan zamansal büyütme ile neredeyse yerel çözünürlük kalitesi sunmuş, FSR 3.0 ise optik akış tabanlı kare üretimi ekleyerek algılanan kare hızını dramatik biçimde artırmıştır. Ultra Quality'den Ultra Performance'a uzanan beş farklı kalite modu, kullanıcılara görsel sadakat ile 2x ve üzeri performans kazanımı arasında denge kurma imkanı tanır. FSR; DirectX 11, DirectX 12 ve Vulkan API'lerini destekler ve PC platformlarının yanı sıra Xbox, PlayStation ve Steam Deck gibi taşınabilir cihazlarda da yaygın biçimde kullanılır. Cyberpunk 2077, Starfield ve Hogwarts Legacy dahil yüzlerce büyük yapım FSR entegrasyonu sunar; Unreal Engine ve Unity oyun motorları düzeyinde doğrudan destek sağlayarak geliştirici benimsemesini kolaylaştırır. MIT lisansı ile AMD'nin GPUOpen platformunda yayınlanan FSR, geliştiricilere ve araştırmacılara şeffaf işbirliği ve modifikasyon imkanı sunar. Platform bağımsızlığı ve açık kaynak yapısı, onu oyun endüstrisinde en yaygın kullanılan görsel büyütme çözümlerinden biri haline getirmiştir.

Açık Kaynak
4.2
IP-Adapter Style icon

IP-Adapter Style

Tencent|N/A

IP-Adapter Style, Tencent'in IP-Adapter çerçevesinin difüzyon modeli görsel üretim pipeline'larında sanatsal stil transferine odaklanan uzmanlaşmış bir varyantıdır. Referans görsellerden hem içerik hem stil aktaran standart IP-Adapter'ın aksine, Style varyantı yalnızca renk paletleri, fırça darbeleri, doku özellikleri ve sanatsal atmosfer gibi stilistik nitelikleri çıkarıp uygulamak üzere tasarlanmıştır ve metin promptunun içerik kontrolünü korumasına izin verir. Model, stil referans görsellerini CLIP görsel encoder aracılığıyla kodlar ve çıkarılan stil özelliklerini Stable Diffusion modellerinin çapraz dikkat katmanlarına stil ile içerik bilgisini ayıran ayrıştırılmış dikkat mekanizmaları yoluyla enjekte eder. Bu sıfır atışlı yaklaşım hedef stil üzerinde ince ayar gerektirmez, bu sayede herhangi bir referans görselle anında kullanılabilir. Kullanıcılar bir ağırlık parametresiyle stil etkisinin gücünü ayarlayarak referans stilin çıktıyı ne kadar etkilediğini prompt uyumunu koruyarak hassas biçimde kontrol edebilir. IP-Adapter Style hem SD 1.5 hem SDXL mimarileriyle uyumludur ve ComfyUI ile Diffusers tabanlı iş akışlarına sorunsuz entegre olur. Yapısal rehberlik için ControlNet ile birleştirilebilir ve ek özelleştirme için LoRA modelleriyle birlikte çalışabilir. İllüstrasyon serileri genelinde görsel tutarlılık, belirli sanatsal estetikler uygulama, marka kimliğiyle tutarlı içerik oluşturma ve yaratıcı stil varyasyonlarını keşfetme başlıca uygulamaları arasındadır. Apache 2.0 lisansıyla açık kaynaklı olan model, hafif yapısıyla AI sanat iş akışlarında stil kontrollü görsel oluşturma için standart araç haline gelmiştir.

Açık Kaynak
4.4
MODNet icon

MODNet

ZHKKKe|N/A

MODNet (Matting Objective Decomposition Network), ZHKKKe tarafından geliştirilen, önceden tanımlanmış trimap veya ek kullanıcı girdisi gerektirmeden gerçek zamanlı insan portresi arka plan kaldırma için tasarlanmış açık kaynaklı bir portre matlama modelidir. Manuel trimap gerektiren geleneksel matlama yaklaşımlarının aksine MODNet, karmaşık matlama hedefini üç alt göreve ayrıştırarak tam otomatik portre matlaması gerçekleştirir: kişi bölgesini tanımlayan anlamsal tahmin, saç ve giysi sınırlarındaki kenar kalitesini iyileştiren detay tahmini ve her iki sinyali yüksek kaliteli alfa matına birleştiren anlamsal-detay füzyonu. Bu ayrıştırma, gerçek zamanlı hızlarda verimli tek geçişli çıkarım sağlayarak gecikmenin kritik olduğu video konferans, canlı yayın ve mobil fotoğrafçılık uygulamaları için pratik kılar. Model, segmentasyon tabanlı yaklaşımlar için zorlayıcı olan saç telleri, kumaş kenarları ve ince sınır detaylarını ele almada güçlü, pürüzsüz ve doğru alfa matlar üretir. Hem görsel hem video girişini destekleyen MODNet, titreşim olmadan kararlı video matlama için zamansal tutarlılık optimizasyonları sunar. Mobil cihazlarda ve kenar donanımda çalışacak kadar hafiftir; ONNX dışa aktarma desteğiyle iOS, Android ve WebAssembly aracılığıyla web tarayıcılarında dağıtım mümkündür. Yaygın uygulamalar video görüşme arka plan değiştirme, portre modu fotoğrafçılık, sosyal medya içerik oluşturma, sanal deneme sistemleri ve film post-prodüksiyonunda yeşil ekran alternatifleridir. Apache 2.0 lisansıyla yayınlanan MODNet, hem araştırma hem üretim portre matlama uygulamalarında yaygın biçimde benimsenmiş ücretsiz ve verimli bir çözüm sunar.

Açık Kaynak
4.3
MotionDiffuse icon

MotionDiffuse

Mingyuan Zhang et al.|200M

MotionDiffuse, Mingyuan Zhang ve ekibi tarafından geliştirilen ve doğal dil metin açıklamalarından gerçekçi 3D insan hareket dizileri üreten öncü bir difüzyon modelidir. Model, 'bir kişi ileri yürüyor ve el sallıyor' veya 'birisi arka takla atıyor' gibi metin promptları alarak doğal vücut dinamikleri ve fiziksel tutarlılıkla karşılık gelen 3D iskelet tabanlı animasyon verisi üretir. Yaklaşık 200 milyon parametreli difüzyon mimarisi üzerine inşa edilen MotionDiffuse, insan hareketinin doğal çeşitliliğini yakalayan olasılıksal hareket üretimi sunarak aynı metin girdisi için birden fazla makul hareket varyasyonu oluşturur. Model, hem tek eylem hem de ardışık çoklu eylem üretimini destekleyerek farklı aktiviteler arasında akıcı geçişler yapan karmaşık hareket dizilerinin oluşturulmasını sağlar. MotionDiffuse, HumanML3D ve KIT-ML dahil büyük ölçekli hareket yakalama veri setleri üzerinde eğitilmiştir ve semantik açıklamaları tüm vücut iskeleti boyunca fiziksel olarak gerçekçi eklem rotasyonlarına ve ötelemelerine eşlemeyi öğrenmiştir. Üretilen hareket verileri, Blender, Maya ve Unity dahil 3D animasyon yazılımlarıyla uyumlu standart formatlarda dışa aktarılabilir. MIT lisansı altında yayınlanan model, hem araştırma hem de ticari uygulamalar için tamamen açık kaynaklıdır. Temel kullanım alanları arasında oyunlar ve filmler için karakter animasyonları üretme, poz tahmin modelleri için eğitim verisi oluşturma, koreografi prototipleme, VR ve AR avatar hareketleri üretme ve geleneksel olarak yetenekli hareket yakalama sanatçıları gerektiren tekrarlayan animasyon görevlerini otomatikleştirme yer alır.

Açık Kaynak
4.2
PixArt-Sigma icon

PixArt-Sigma

PixArt|900M

PixArt-Sigma, PixArt araştırma ekibi tarafından geliştirilen ve ayrı ölçeklendirme adımları gerektirmeden doğrudan 4K çözünürlüğe kadar görsel üretebilen son derece verimli bir transformer tabanlı text-to-image modelidir. Diffusion Transformer mimarisi üzerine inşa edilen model, çok daha az hesaplama kaynağı ve eğitim maliyeti kullanarak çok daha büyük modellerle karşılaştırılabilir kalite elde eder. PixArt-Sigma, PixArt serisinin evrimini temsil eder ve doğal yüksek çözünürlüklü üretimi mümkün kılan token sıkıştırma ve dikkat mekanizmalarındaki iyileştirmeleri içerir. Model esnek en-boy oranlarını destekler ve 512x512'den 4096x4096 piksele kadar görseller üretebilir, bu da onu baskı tasarımı ve büyük formatlı dijital görüntüleme uygulamaları için özellikle değerli kılar. Eğitim verimliliği öne çıkan bir özelliğidir; DALL-E 2 veya Imagen gibi karşılaştırılabilir modellerin gerektirdiği hesaplama bütçesinin çok küçük bir kısmıyla geliştirilmiştir. PixArt-Sigma, prompt anlama için T5 metin kodlayıcısı kullanarak çeşitli metin girdilerinde güçlü anlamsal kavrama sağlar. Açık kaynak olarak yayınlanan model, Hugging Face üzerinde mevcuttur ve mevcut iş akışlarına kolay entegrasyon için Diffusers kütüphanesiyle uyumludur. Makul VRAM gereksinimleriyle tüketici GPU'larında çalışır ve bireysel içerik üreticileri ile küçük stüdyolar için erişilebilir kılar. AI araştırmacıları, dijital sanatçılar ve verimli yüksek çözünürlüklü görsel üretimle ilgilenen geliştiriciler, akademik araştırmadan ticari içerik üretimine kadar projeler için PixArt-Sigma'yı kullanır. Verimlilik odaklı tasarım felsefesi, sürdürülebilir AI gelişimine önemli bir katkı sağlar.

Açık Kaynak
4.3
Instant Style icon

Instant Style

InstantX Team|N/A

Instant Style, InstantX Team tarafından geliştirilen ve orijinal içerik yapısını ve anlamını sadakatle korurken bir referans görselin sanatsal stilini üretilen içeriğe uygulayan stil transferi modelidir. Nisan 2024'te yayınlanan model, IP-Adapter üzerine inşa edilmiş Ayrıştırılmış Stil Adaptörü mimarisi sunarak stil bilgisini içerik bilgisinden ayırır ve üretilen görselin konu bütünlüğünü bozmadan temiz stil enjeksiyonu sağlar. Bu ayrıştırma, stil özelliklerini içerik özelliklerinden bağımsız olarak işleyen özelleştirilmiş dikkat mekanizmaları aracılığıyla gerçekleştirilir. Model, metin isteminde belirtilen kompozisyon bütünlüğünü korurken referanstan renk paletlerini, fırça tekniklerini, doku özelliklerini ve genel estetik nitelikleri yakalar. Instant Style, Stable Diffusion ekosistemi içinde çalışarak mevcut SDXL kontrol noktaları, LoRA modelleri ve ControlNet koşullarıyla uyumlu olup maksimum yaratıcı esneklik sağlar. Model, stil bilgisini çıkarmak için yalnızca tek bir referans görsel gerektirir; ince ayar veya ek eğitim gerekmez ve gerçek zamanlı iş akışlarında anlık stil uygulaması yapılabilir. Temel uygulama alanları arasında sanatsal içerik oluşturma, marka tutarlı görsel varlık üretimi, birleşik estetik stillerle oyun sanatı üretimi, görsel tutarlılığı koruyan illüstrasyon serileri ve farklı sanatsal işlemlerle görsel konseptlerin hızlı prototiplenmesi yer alır. Hugging Face üzerinde Apache 2.0 lisansı altında açık kaynak proje olarak erişilebilen Instant Style, Replicate ve fal.ai bulut platformları üzerinden de kullanılabilir. Model, güçlü stilistik dönüşümler uygulanırken konu bütünlüğünü sıklıkla bozan önceki yaklaşımlara kıyasla üstün içerik koruması sunarak kontrol edilebilir stil transferinde önemli bir ilerlemeyi temsil eder.

Açık Kaynak
4.3
Shap-E icon

Shap-E

OpenAI|N/A

Shap-E, OpenAI tarafından geliştirilen, metin açıklamalarından veya giriş görsellerinden doğrudan örtük sinirsel temsillerin parametrelerini üreterek 3D nesneler oluşturan bir 3D üretim modelidir. Nokta bulutları üreten öncülü Point-E'nin aksine, Shap-E doğrudan render edilebilen ve 3D uygulamalarda kullanılabilen Neural Radiance Fields (NeRF) ve dokulu mesh'ler üretir. Model, önce bir kodlayıcının 3D varlıkları örtük fonksiyon parametrelerine eşlemeyi öğrendiği, ardından koşullu bir difüzyon modelinin bu parametreleri metin veya görsel girdilerden üretmeyi öğrendiği iki aşamalı bir eğitim yaklaşımı kullanır. Bu mimari modern bir GPU'da yalnızca birkaç saniyede hızlı üretim süreleri sağlar. Shap-E hem metinden 3D'ye hem de görselden 3D'ye iş akışlarını destekleyerek farklı yaratıcı süreçler için çok yönlülük sunar. Üretilen 3D nesneler renk ve doku bilgisi içerir, yalnızca geometri üreten yaklaşımlara kıyasla daha eksiksiz sonuçlar verir. Mayıs 2023'te MIT lisansı altında yayınlanan model, GitHub üzerinde önceden eğitilmiş ağırlıklarla tamamen açık kaynaklıdır. Çıktı kalitesi nesne başına dakikalar süren DreamFusion gibi ağır optimizasyon yöntemleriyle eşleşmese de Shap-E hızlı prototipleme ve konsept keşfi için hız ve kalite arasında pratik bir denge sunar. Model özellikle metin komutlarından hızlı 3D görselleştirmelere ihtiyaç duyan oyun geliştiricileri, 3D sanatçılar ve araştırmacılar için kullanışlıdır. OpenAI'ın açık kaynak 3D AI araştırmasına katkılarından biri olarak Shap-E, hızlı ileri beslemeli 3D üretim yaklaşımlarındaki sonraki çalışmaları etkilemiştir.

Açık Kaynak
4.0
MusicLM icon

MusicLM

Google|N/A

MusicLM, Google Research tarafından geliştirilen, metin açıklamalarından 24 kHz'de yüksek sadakatli müzik üreten text-to-music üretim modelidir. Ocak 2023'te bir araştırma makalesiyle birlikte yayınlanan MusicLM, AI'ın yalnızca doğal dil açıklamalarından birden fazla dakikayı kapsayan tutarlı ve yüksek kaliteli müzik üretebileceğini gösteren ilk modellerden biri olmuştur. Model ses tokenizasyonu için SoundStream ve ses temsil öğrenimi için w2v-BERT'i birleştiren hiyerarşik bir diziden diziye mimari kullanır ve birden fazla zamansal çözünürlükte müzik tokenleri üretir ardından bunlar dalga biçimlerine dönüştürülür. MusicLM enstrümanları, tempoyu, ruh halini ve müzikal özellikleri tanımlayan metin komutlarına dayalı olarak çeşitli türlerde ve tarzlarda müzik üretebilir ve uzun süreler boyunca müzikal tutarlılığı ve yapısal bütünlüğü korur. Model ayrıca kullanıcıların üretilen çıktıyı yönlendiren bir melodi mırıldanabildiği veya ıslık çalabildiği melodi koşullandırmayı destekleyerek daha sezgisel müzik oluşturma iş akışlarına olanak tanır. MusicLM zengin tınısal kalite ve doğal ses dinamikleriyle önceki metinden müziğe yaklaşımlara göre önemli bir iyileşmeyi temsil eden ses üretir. Tescilli bir Google modeli olarak MusicLM açık kaynak değildir ve başlangıçta yalnızca AI Test Kitchen deneysel platformu üzerinden erişilebilirken daha sonra daha geniş Google hizmetlerine entegre edilmiştir. MusicGen ve Suno gibi daha yeni modeller daha geniş benimseme sağlamış olsa da MusicLM yüksek kaliteli metinden müzik üretiminin öncü bir gösterimi olarak tarihsel önemini korumaktadır. Model AI müzik üretim alanındaki sonraki araştırmaları ve ticari gelişmeleri etkilemiş ve metinden müziğe üretimi uygulanabilir ve hızla ilerleyen bir AI araştırma alanı olarak kurulmasına yardımcı olmuştur.

Tescilli
4.3
StableSR icon

StableSR

Jianyi Wang|N/A

StableSR, Jianyi Wang ve işbirlikçileri tarafından geliştirilen, gerçekçi detay sentezi ile yüksek kaliteli görsel büyütme için önceden eğitilmiş bir Stable Diffusion modelinin üretken öncülünden yararlanan yenilikçi bir süper çözünürlük modelidir. 2023'te Apache 2.0 lisansı altında yayınlanan StableSR, difüzyon tabanlı üretken modellerin görsel süper çözünürlük görevine ilk başarılı uygulamalarından birini temsil eder. Model düşük çözünürlüklü giriş görselinden bilgiyi her zaman adımında Stable Diffusion gürültü giderme sürecine enjekte eden zaman farkındalıklı bir kodlayıcı ile orijinal görsele sadakat ve üretilen detayların zenginliği arasında denge kuran kontrol edilebilir özellik sarma modülü tanıtır. Bu mimari StableSR'nin geleneksel regresyon tabanlı süper çözünürlük yöntemlerinin elde edemeyeceği dikkat çekici derecede gerçekçi dokular ve ince detaylarla büyütülmüş görseller üretmesini sağlar. Kontrol edilebilir özellik sarma kullanıcıların üretken iyileştirmenin gücünü ayarlamasına olanak tanır ve girdiye yakından uyan muhafazakar restorasyondan daha fazla sentezlenmiş detay ekleyen agresif iyileştirmeye kadar bir yelpaze sunar. StableSR fotoğraflar, sanat eserleri, ekran görüntüleri ve metin içeren görseller dahil çeşitli görsel türlerini işler ve özellikle cilt, saç, kumaş ve yaprak gibi doğal dokuları restore etmede güçlüdür. Model kod ve önceden eğitilmiş ağırlıkları GitHub üzerinde mevcut olan tamamen açık kaynaklıdır ve mevcut Stable Diffusion altyapısıyla uyumludur. StableSR düşük çözünürlüklü görselleri restore eden fotoğrafçılar, referans materyali büyüten dijital sanatçılar ve sınırlı kaynak görsellerinden yüksek çözünürlüklü çıktılara ihtiyaç duyan içerik üreticileri için değerlidir. Difüzyon tabanlı yaklaşımı üretken süper çözünürlük yöntemlerindeki sonraki araştırmaları etkilemiştir.

Açık Kaynak
4.3
Neural Style Transfer icon

Neural Style Transfer

Leon Gatys|N/A

Neural Style Transfer, Leon Gatys, Alexander Ecker ve Matthias Bethge tarafından 2015'teki çığır açan makalelerinde tanıtılan, evrişimli sinir ağlarının görsellerin içerik ve stilini ayırıp yeniden birleştirebildiğini gösteren öncü algoritmadır. Algoritma iki giriş görseli alır: bir içerik görseli ve bir stil referansı. Ardından, önceden eğitilmiş VGG-19 ağından çıkarılan özellik temsillerini kullanarak birinin içerik yapısını diğerinin sanatsal stilini eş zamanlı yakalayan bir çıktıyı iteratif olarak optimize eder. Derin katmanlar nesne şekilleri ve mekansal düzenlemeler gibi üst düzey içerik bilgilerini yakalarken, sığ katmanlar dokular, renkler ve fırça darbeleri gibi stil özelliklerini kodlar. Bu özellik temsillerine dayanan ayrı içerik ve stil kayıp fonksiyonları tanımlanıp ağırlıklı kombinasyonları gradyan inişi ile minimize edilerek, fotoğrafların tanınabilir içeriğini koruyup tabloların veya diğer sanat eserlerinin görsel estetiğini benimseyen görseller üretilir. Bu temel çalışma, AI destekli sanatsal görsel dönüşümü alanının tamamını başlatmış ve çok sayıda gerçek zamanlı varyant, mobil uygulama ve ticari ürüne ilham kaynağı olmuştur. Orijinal optimizasyon tabanlı yaklaşım GPU'da görsel başına birkaç dakika gerektirirken, Johnson ve diğerlerinin sonraki ileri beslemeli ağ yaklaşımları gerçek zamanlı performansa ulaşmıştır. Algoritma tamamen açık kaynaklıdır ve PyTorch, TensorFlow ile diğer framework'lerde çok sayıda uygulaması mevcuttur. Neural Style Transfer, bilgisayar görüşü eğitiminde temel bir referans noktası olmaya ve modern stil transferi araştırmalarını ile üretken yapay zeka geliştirmelerini etkilemeye devam etmektedir.

Açık Kaynak
4.0
Stable Cascade icon

Stable Cascade

Stability AI|5.1B

Stable Cascade, Stability AI tarafından geliştirilen, dramatik şekilde geliştirilmiş eğitim ve çıkarım verimliliği için yüksek oranda sıkıştırılmış latent uzayda çalışan Wuerstchen mimarisi üzerine inşa edilmiş verimli bir üç aşamalı görsel üretim modelidir. Model, üç aşamadan oluşan kademeli bir pipeline kullanır: Aşama C kompakt bir 24x24 latent temsil üretir, Aşama B bunu 256x256 latent görsele çözer ve Aşama A nihai yüksek çözünürlüklü çıktıyı oluşturur. İlk aşamadaki bu aşırı sıkıştırma, Stable Cascade'in karşılaştırılabilir kalitedeki modellerden önemli ölçüde daha az hesaplama kaynağıyla eğitilmesini ve çalıştırılmasını sağlarken etkileyici görsel kalitesini korur. Mimari, standart latent difüzyon modellerine kıyasla yaklaşık 16 kat sıkıştırma oranı elde ederek mevcut en kaynak verimli yüksek kaliteli görsel üreticilerden biri olur. Stable Cascade, text-to-image üretimi, görselden görsele dönüşüm, inpainting ve ControlNet tarzı koşullandırmayı destekler. Modüler üç aşamalı tasarımı, araştırmacıların bireysel aşamalarla bağımsız olarak deney yapmasına ve geliştirmesine olanak tanır. Açık kaynak lisansı altında yayınlanan model, Hugging Face üzerinde mevcuttur ve Diffusers kütüphanesiyle uyumludur. Mütevazı VRAM gereksinimleriyle, tipik olarak 8GB ve üzeri, tüketici GPU'larında etkili şekilde çalışır. Verimli üretken mimarileri inceleyen AI araştırmacıları ve kaynak kısıtlı uygulamalar geliştiren yazılımcılar, Stable Cascade'in hesaplama birimi başına kaliteyi maksimize etme yaklaşımını özellikle değerli bulur. FLUX.1'in yayınlanmasıyla gölgede kalmış olsa da latent uzay sıkıştırmasındaki mimari yenilikleri verimli görsel üretim alanına önemli araştırma katkıları temsil eder.

Açık Kaynak
4.2
T2I-Adapter icon

T2I-Adapter

Tencent ARC|77M

T2I-Adapter, Tencent ARC Lab tarafından geliştirilen, eskiz, derinlik, segmentasyon, renk ve stil girdileri dahil çeşitli rehberlik sinyalleri aracılığıyla üretilen görseller üzerinde yapısal kontrol sağlayan text-to-image difüzyon modelleri için hafif bir koşullandırma çerçevesidir. Kodlayıcının tam kopyalarını oluşturarak önemli hesaplama yükü ekleyen ControlNet'ten farklı olarak T2I-Adapter, önemli ölçüde daha az bellek kullanımı ve daha hızlı çıkarım süreleriyle benzer koşullandırma yetenekleri elde eden kompakt bir adaptör mimarisi kullanır. Adaptör, koşullandırma görsellerinden çok ölçekli özellikler çıkarır ve bunları difüzyon modelinin ara özellik haritalarına enjekte ederek üretim sürecini belirtilmeyen alanlarda modelin yaratıcı özgürlüğünü korurken istenen uzamsal yapıyı takip etmeye yönlendirir. T2I-Adapter, kullanıcıların hem yapısal düzeni hem stilistik yönü eş zamanlı belirlemesine olanak tanıyan karmaşık çok koşullu üretim için birleştirilebilen birden fazla koşullandırma türünü destekler. Her adaptör türü bağımsız olarak eğitilir ve çıkarım zamanında karıştırılıp eşleştirilebilir, esnek kompozisyonel kontrol sağlar. Çerçeve özellikle mimari görselleştirme, ürün tasarımı iterasyonu ve karakter sayfası üretimi gibi birden fazla varyasyon genelinde tutarlı uzamsal düzenler gerektiren profesyonel iş akışları için etkilidir. T2I-Adapter açık kaynaklıdır ve Stable Diffusion 1.5 ile SDXL için Hugging Face üzerinde mevcuttur, Diffusers kütüphanesi ve ComfyUI ile uyumludur. Hafif yapısı onu özellikle kaynak kısıtlı donanımda dağıtım ve gerçek zamanlı koşullandırma gerektiren uygulamalar için değerli kılar. Tasarımcılar, mimarlar, ürün geliştiriciler ve animasyon stüdyoları, daha ağır kontrol çözümlerinin hesaplama maliyeti olmadan hassas yapısal rehberliğin gerektiği üretim iş akışları için T2I-Adapter kullanır.

Açık Kaynak
4.2
AudioLDM 2 icon

AudioLDM 2

CUHK & Surrey|N/A

AudioLDM 2, Çin Hong Kong Üniversitesi ve Surrey Üniversitesi araştırmacıları tarafından geliştirilen, tek bir model içinde metin açıklamalarından müzik, ses efektleri ve konuşma üretebilen birleşik bir ses üretim çerçevesidir. Orijinal AudioLDM üzerine inşa edilen versiyon 2, farklı ses türlerini paylaşılan bir semantik uzaya kodlayarak aralarındaki boşluğu kapatan Language of Audio adlı evrensel bir ses temsili tanıtır. Model metin girdilerini anlamak için GPT-2 dil modelini ve ses koşullandırma için AudioMAE kodlayıcısını birleştirerek dalga biçimlerine dönüştürülen ses spektrogramları üreten bir gizli difüzyon modeline besler. Bu mimari AudioLDM 2'nin her ses türü için ayrı özel modeller gerektirmeden çeşitli ses üretim görevlerini yönetmesini sağlar. Model metinden müziğe, metinden ses efektlerine ve metinden konuşmaya değerlendirmeleri dahil birden fazla kıyaslamada rekabetçi performans gösterir. AudioLDM 2 hem müzikal hem de müzikal olmayan içerik için iyi algısal kaliteyle 48 kHz'e kadar ses üretir. Ağustos 2023'te araştırma lisansı altında yayınlanan model kod ve önceden eğitilmiş ağırlıkları GitHub ve Hugging Face üzerinde mevcut olan açık kaynaklıdır. AudioLDM 2 metin koşullu üretimin yanı sıra ses doldurma, stil transferi ve süper çözünürlük desteği de sunar. Model özellikle birleşik ses üretimini araştıran akademisyenler, tek bir araçtan çeşitli ses türlerine ihtiyaç duyan içerik üreticileri ve kapsamlı ses üretim sistemleri kuran geliştiriciler için ilgilidir. Konuşma, müzik ve çevresel sesleri yönetmedeki birleşik yaklaşımı onu çok amaçlı ses uygulamaları için çok yönlü bir temel haline getirir.

Açık Kaynak
4.2
PowerPaint icon

PowerPaint

Tencent ARC|N/A

PowerPaint, Tsinghua Üniversitesi ve HKUST araştırmacıları tarafından Tencent ARC bünyesinde geliştirilen, tek bir birleşik model içinde birden fazla inpainting işlevini mümkün kılan öğrenilebilir görev promptları kavramını tanıtan çok yönlü açık kaynaklı bir inpainting modelidir. Her düzenleme görevi için ayrı özelleşmiş modeller gerektirmek yerine, PowerPaint paylaşılan model ağırlıkları içinde farklı davranışları etkinleştiren öğrenilebilir görev vektörleri kullanarak dört farklı modu destekler: metin rehberli nesne ekleme, nesne kaldırma, şekil rehberli inpainting ve görüntü genişletme (outpainting). Stable Diffusion omurgası üzerine ControlNet benzeri kontrol mekanizmasıyla zenginleştirilmiş model, kullanıcıların metin promptlarıyla bağlamsal içerik üretmesine, çevre dokuları koruyarak nesneleri temizce kaldırmasına, belirli maske şekilleri içinde içerik oluşturmasına veya görselleri orijinal sınırlarının ötesine genişletmesine olanak tanır. Bu çok görevli esneklik, düzenleme iş akışlarında farklı araçlar arasında geçiş yapma ihtiyacını ortadan kaldırır. Benchmark testlerinde PowerPaint, ayrı optimize edilmiş göreve özel modellerle rekabetçi sonuçlar elde eder; nesne kaldırma kalitesi LaMa ve MAT gibi uzman modellerle yarışır düzeydedir. Fotoğraf düzenleme, grafik tasarım mockup'ları, e-ticaret ürün görseli hazırlama, dijital sanat tuval genişletme ve sosyal medya içerik adaptasyonu başlıca kullanım alanlarıdır. PyTorch tabanlı model Hugging Face üzerinden Gradio demo arayüzü ve Diffusers entegrasyonuyla sunulur. 8GB ve üzeri VRAM önerilir. PowerPaint, çok görevli inpainting alanında yeni bir paradigma oluşturmuş ve birleşik görsel düzenleme araştırmalarına ilham vermeye devam etmektedir.

Açık Kaynak
4.3
Hunyuan-DiT icon

Hunyuan-DiT

Tencent|1.5B

Hunyuan-DiT, Tencent tarafından geliştirilen, doğal Çince ve İngilizce dil anlama kapasitesiyle yüksek kaliteli görsel üretim için tasarlanmış Diffusion Transformer mimarisine sahip çift dilli bir text-to-image difüzyon transformer modelidir. Model, önceki difüzyon modellerinde kullanılan geleneksel U-Net omurgasını daha ölçeklenebilir ve verimli bir transformer mimarisiyle değiştiren transformer tabanlı bir difüzyon yaklaşımı kullanır. Hunyuan-DiT, hem Çince hem İngilizce promptları derin anlamsal anlayışla işlemek için çift dilli CLIP metin kodlayıcısını çok dilli T5 kodlayıcısıyla birleştirir. Model, fotorealizm, geleneksel Çin resmi, modern illüstrasyon ve dijital sanat dahil çeşitli sanatsal stillerde güçlü kompozisyonel doğruluk, detaylı dokular ve sadık prompt uyumuyla yüksek çözünürlüklü görseller üretir. Eğitim veri seti kapsamlı Çin kültürel içeriği içerir ve çoğu Batı merkezli eğitilmiş modelin düzgün işleyemediği Çince karakterleri, geleneksel sanatsal motifleri, mimari öğeleri ve kültürel sahneleri doğru şekilde render etmesini sağlar. Hunyuan-DiT çeşitli koşullandırma mekanizmaları aracılığıyla kontrol edilebilir üretimi destekler ve birden fazla çözünürlük ve en-boy oranında görsel üretebilir. Esnek bir lisans altında açık kaynak olarak yayınlanan model, tam eğitim ve çıkarım koduyla Hugging Face ve GitHub üzerinde mevcuttur. Verimli çalışma için 11GB ve üzeri VRAM'e sahip GPU gerektirir. Çinli teknoloji şirketleri, Çince konuşan pazarlardaki dijital içerik üreticileri, çok dilli AI araştırmacıları ve kültürler arası görsel yaratımı keşfeden sanatçılar birincil kullanıcı kitlesini oluşturur. Hunyuan-DiT, Tencent'in açık kaynak görsel üretim ekosistemine önemli katkısını temsil eder.

Açık Kaynak
4.2
Unique3D icon

Unique3D

Tencent|N/A

Unique3D, Tencent tarafından geliştirilen, çoklu görünüm üretimi, geometri rekonstrüksiyonu ve doku iyileştirmesini birleştiren çok aşamalı bir hat aracılığıyla tek giriş görsellerinden detaylı, iyi dokulu 3D mesh'ler üreten yüksek kaliteli tek görselden 3D rekonstrüksiyon modelidir. Model profesyonel 3D uygulamalarda doğrudan kullanılabilecek keskin dokular ve temiz geometriye sahip üretim kalitesinde 3D varlıklar üretmek için tasarlanmıştır. Unique3D ilk 3D rekonstrüksiyonun birden fazla çözünürlük seviyesinde aşamalı olarak geliştirildiği çok seviyeli yükseltme iyileştirme stratejisi kullanır ve tek geçişli yöntemlere kıyasla önemli ölçüde daha ince yüzey detayları ve doku kalitesi elde eder. Hat önce bir difüzyon modeli kullanarak tutarlı çoklu görünüm görselleri üretir, ardından ilk 3D mesh'i yeniden yapılandırır ve son olarak hem geometri hem de dokuya yinelemeli yükseltme ve iyileştirme uygular. Bu yaklaşım karmaşık desenlere veya ince yapılara sahip nesneler için bile keskin doku detayları ve iyi tanımlanmış geometrik özelliklerle mesh'ler üretir. Mayıs 2024'te Apache 2.0 lisansı altında yayınlanan Unique3D kod ve önceden eğitilmiş ağırlıkları GitHub üzerinde mevcut olan tamamen açık kaynaklıdır. Model karakterler, hayvanlar, üretilmiş ürünler ve sanatsal nesneler dahil çeşitli nesne türlerini işler. Çıktı mesh'leri standart 3D yazılımlarla uyumlu yüksek çözünürlüklü doku haritaları ve düzgün UV koordinatları içerir. Unique3D özellikle 3D varlıkların kalitesinin nihai çıktıyı doğrudan etkilediği oyun geliştirme, animasyon, ürün görselleştirme ve dijital içerik üretimi alanlarındaki profesyonel iş akışları için uygundur. Çok seviyeli iyileştirme yaklaşımı AI üretimli 3D içerikte üretim kalitesine ulaşmada önemli bir katkıyı temsil eder.

Açık Kaynak
4.3
Kandinsky 3.0 icon

Kandinsky 3.0

Sber AI|11.9B

Kandinsky 3, Sber AI ve AI Forever araştırma ekibi tarafından geliştirilen, ünlü soyut ressam Wassily Kandinsky'nin adını taşıyan açık kaynaklı bir text-to-image üretim modelidir. Model, güçlü çok dilli prompt anlama kapasitesiyle öne çıkar ve özellikle Rusça ve İngilizce dil girdilerinde mükemmel performans gösterirken diğer dilleri de destekler. Yaklaşık 3 milyar parametreyle latent difüzyon mimarisi üzerine inşa edilen Kandinsky 3, geleneksel CLIP tabanlı yaklaşımlardan daha nüanslı anlamsal anlayış sağlayan büyük bir dil modeli omurgasını metin kodlama için kullanır. Model, fotorealizm, dijital sanat, anime ve geleneksel resim estetiği dahil çeşitli stillerde 1024x1024 çözünürlükte yüksek kaliteli görseller üretir. Eğitim verisi kültürel temsil açısından dikkat çekici ölçüde çeşitlidir ve ağırlıklı olarak Batı merkezli eğitilmiş modellere kıyasla daha geniş bir küresel perspektifi yansıtan görseller üretir. Kandinsky 3, img2img üretimi, inpainting ve kontrollü çıktı için çeşitli koşullandırma yöntemlerini destekler. Açık kaynak lisansı altında yayınlanan model, Hugging Face üzerinde ücretsiz olarak mevcuttur ve 8GB üzeri VRAM'e sahip GPU'larda yerel olarak dağıtılabilir. Python tabanlı iş akışlarında kolay uygulama için Diffusers kütüphanesiyle entegre olur. AI araştırmacıları, dijital sanatçılar ve Rusça konuşan topluluklardaki geliştiriciler Kandinsky 3'ü özellikle değerli bulur, ancak çok dilli yetenekleri onu dünya genelinde kullanışlı kılar. Model ayrıca multimodal AI ve çapraz dil görsel üretiminde akademik araştırma için temel oluşturarak açık kaynak görsel üretim ekosistemine değerli çeşitlilik katar.

Açık Kaynak
4.2
Pix2Pix icon

Pix2Pix

UC Berkeley|54M

Pix2Pix, UC Berkeley'de geliştirilen ve eşleştirilmiş görüntü çeviri görevleri için koşullu üretici çekişmeli ağların kullanılması kavramını tanıtan öncü bir görüntüden görüntüye çeviri çerçevesidir. Kasım 2017'de "Image-to-Image Translation with Conditional Adversarial Networks" başlıklı çığır açıcı makale kapsamında yayınlanan Pix2Pix, eşleştirilmiş eğitim örnekleri sağlandığında tek bir genel amaçlı mimarinin farklı görsel alanlar arasındaki eşlemeleri öğrenebileceğini göstermiştir. Mimari, atlama bağlantıları aracılığıyla uzamsal bilgiyi koruyan U-Net tabanlı bir üretici ve görüntü kalitesini global düzeyde değil yama düzeyinde değerlendiren bir PatchGAN ayırt edici içerir. Bu yapı modelin yapısal tutarlılığı korurken ince taneli doku detaylarını yakalamasını sağlar. Yaklaşık 54 milyon parametreyle Pix2Pix, modern difüzyon modellerine kıyasla nispeten hafiftir ve hızlı çıkarım ile verimli eğitim sunar. Model; semantik etiket haritalarını fotorealistik sahnelere dönüştürme, mimari cepheleri eskizlerden dönüştürme, siyah beyaz fotoğrafları renklendirme, kenar haritalarını gerçekçi görsellere çevirme ve uydu görüntülerini sokak haritalarına çevirme gibi çeşitli çeviri görevlerinde üstün performans gösterir. BSD lisanslı açık kaynak uygulaması, CycleGAN, SPADE ve modern difüzyon tabanlı görsel düzenleme yaklaşımları gibi sonraki modelleri etkileyen temel ilkeleri belirleyerek üretici yapay zeka alanındaki en etkili çalışmalardan biri haline gelmiştir. Ham çıktı kalitesi açısından daha yeni teknikler tarafından geçilmiş olsa da Pix2Pix, eğitim bağlamlarında, hızlı prototiplemede ve eşleştirilmiş eğitim verisinin mevcut olduğu uygulamalarda yaygın şekilde kullanılmaya devam etmektedir. Hugging Face ve Replicate üzerinde erişilebilen model, koşullu görsel üretim ve çekişmeli eğitim dinamiklerini anlamak için temel bir referans olmaya devam eder.

Açık Kaynak
4.0
I2VGen-XL icon

I2VGen-XL

Alibaba DAMO|N/A

I2VGen-XL, Alibaba DAMO Academy tarafından geliştirilen ve tek giriş görsellerinden güçlü anlamsal ve zamansal tutarlılıkla video içeriği üreten yüksek kaliteli bir görselden videoya üretim modelidir. Kasım 2023'te yayınlanan I2VGen-XL, video üretim sürecini iki aşamaya ayrıştıran kademeli bir mimari kullanır: doğru anlamsal içerik ve hareket kalıplarıyla düşük çözünürlüklü video üreten bir temel aşama ve ardından nihai yüksek çözünürlüklü çıktıyı üretmek için görsel kaliteyi büyüten ve geliştiren bir iyileştirme aşaması. Bu iki aşamalı yaklaşım, modelin detaylı görsel iyileştirme uygulamadan önce giriş görselinin içeriğini ve hareket dinamiklerini anlamaya odaklanmasına olanak tanıyarak hem anlamsal doğruluğu hem de görsel kaliteyi koruyan videolar ortaya çıkarır. Model, giriş görselinin kimliğini ve görsel özelliklerini korurken makul zamansal evrim üretmede güçlü yetenekler sergiler ve bu özellik onu kaynak materyalle görsel tutarlılığın kritik olduğu uygulamalar için etkili kılar. I2VGen-XL; insanların, hayvanların, manzaraların, nesnelerin ve sanatsal kompozisyonların fotoğrafları dahil çeşitli giriş türlerini yönetir ve orijinal görselde mevcut olan fiziksel özellikleri ve uzamsal ilişkileri saygılayan bağlamsal olarak uygun hareket kalıpları uygular. Model, akıcı kareler arası geçişler, tutarlı aydınlatma koşulları ve önceki görselden videoya yaklaşımlarda yaygın olan rahatsız edici artefaktlardan kaçınan doğal hareket dinamikleri içeren videolar üretir. Temel kullanım alanları arasında animasyonlu ürün vitrinleri oluşturma, stok fotoğraflardan dinamik içerik üretme, konsept sanatı ve tasarım maketlerini canlandırma ve çekici görsel hareket içeren sosyal medya içeriği üretme yer alır. Apache 2.0 lisansı altında sunulan I2VGen-XL, Hugging Face ve Replicate üzerinde erişilebilir olup araştırmacılara ve geliştiricilere kaliteyi hesaplama verimliliğiyle dengeleyen yetenekli bir açık kaynak görselden videoya üretim çözümü sunar.

Açık Kaynak
4.1
LGM icon

LGM

Peking University|N/A

LGM (Large Gaussian Model), Pekin Üniversitesi araştırmacıları tarafından geliştirilen, tek görsellerden veya metin komutlarından yaklaşık beş saniyede 3D Gaussian Splatting temsili kullanarak yüksek kaliteli 3D nesneler üreten bir 3D üretim modelidir. 2024'te MIT lisansı altında yayınlanan LGM, çoklu görünüm görsel üretimini Gaussian tabanlı 3D rekonstrüksiyonla uçtan uca bir çerçevede birleştirir. Model önce çoklu görünüm difüzyon omurgası kullanarak hedef nesnenin birden fazla tutarlı görünümünü üretir, ardından U-Net tabanlı bir Gaussian kod çözücü bu görünümlerden tam 3D temsili oluşturmak için 3D Gaussian parametrelerini tahmin eder. Mesh tabanlı yaklaşımların aksine Gaussian Splatting çıktısı doğru aydınlatma, şeffaflık ve yansıtıcı yüzey efektleri dahil yüksek görsel kaliteyle gerçek zamanlı render imkanı sağlar. LGM üretilen görünümler için 512 piksele kadar çözünürlük destekler ve temiz geometri ile canlı dokularla detaylı 3D içerik üretir. Model hem fotoğraflardan görselden 3D'ye dönüşüm hem de ön uç olarak metinden görsele modeliyle eşleştirildiğinde metinden 3D'ye üretim için kullanılabilir. Kod ve önceden eğitilmiş ağırlıkları GitHub üzerinde mevcut olan açık kaynak bir proje olarak LGM hem akademik çalışma hem de pratik uygulamalar için araştırmacılara ve geliştiricilere açıktır. Model özellikle etkileşimli 3D görselleştirme, sanal gerçeklik içeriği, oyun varlığı prototipleme ve üretilen 3D içeriğin gerçek zamanlı render edilmesinin gerektiği senaryolar için uygundur. LGM Gaussian Splatting'in AI üretimli 3D içerik için geleneksel mesh temsillerine cazip bir alternatif sunduğunu göstermektedir.

Açık Kaynak
4.2
StyleDrop icon

StyleDrop

Google|N/A

StyleDrop, Google Research tarafından geliştirilen, metin-görsel üretim modellerinin yalnızca bir veya iki referans görselden belirli bir görsel stili sadakatle yakalayıp yeniden üretmesi için ince ayar yapma yöntemidir. Genel metin-görsel modellerin çeşitli veya jenerik stillerde görsel üretmesinin aksine, StyleDrop büyük veri setleri yerine yalnızca birkaç stil örneği gerektiren adaptör ayarlaması yoluyla model parametrelerini verimli şekilde uyarlayarak hassas stil kontrolü sağlar. Yöntem öncelikle Google'ın maskeli üretken transformer mimarisi olan Muse modeli üzerinde gösterilmiş olup düz illüstrasyonlar, yağlı boya, suluboya, 3D render, piksel sanatı ve soyut kompozisyonlar dahil çeşitli sanatsal stillerde dikkat çekici stil sadakati elde eder. StyleDrop, referans görsellerden renk paletleri, fırça darbeleri, doku özellikleri ve kompozisyon eğilimleri gibi stile özgü özellikleri yakalayan hafif adaptör parametreleri eğiterek çalışır. Çıkarım sırasında bu adaptörler, öğrenilmiş stilistik nitelikleri tutarlı biçimde koruyarak rastgele içerikli yeni görseller üretilmesini yönlendirir. İnsan veya CLIP tabanlı geri bildirimle isteğe bağlı iteratif eğitim prosedürü stil doğruluğunu daha da iyileştirir. Bu yaklaşım, birden fazla üretilen varlık genelinde görsel tutarlılığın zorunlu olduğu marka kimliği uygulamaları ve AI üretimi eserlerinde imza stil korunması isteyen sanatçılar için özellikle değerlidir. StyleDrop, DreamBooth ve textual inversion yöntemlerini stile özel üretim benchmark'larında daha az eğitim görseli ve hesaplama ile geride bırakır. Kendisi açık kaynak olmasa da kavramları, Stable Diffusion ekosisteminde LoRA ve IP-Adapter gibi açık kaynak stil uyarlama tekniklerini etkilemiştir.

Tescilli
4.3
Wonder3D icon

Wonder3D

Tsinghua University|N/A

Wonder3D, Tsinghua Üniversitesi araştırmacıları tarafından geliştirilen, yüksek kaliteli 3D mesh rekonstrüksiyonu için tek giriş görselinden hem çoklu görünüm renkli görseller hem de karşılık gelen normal haritaları üreten tek görselden 3D rekonstrüksiyon modelidir. CVPR 2024'te kabul edilen Wonder3D, RGB renk görünümleri ve geometrik normal haritaları aynı anda üreten çapraz alan difüzyon yaklaşımını tanıtır ve üretilen görünümlerin hem görsel olarak tutarlı hem de geometrik olarak doğru olmasını sağlar. Bu çift çıktılı strateji yalnızca renkli görseller üreten yöntemlere kıyasla aşağı akış 3D rekonstrüksiyonu için önemli ölçüde daha zengin bilgi sağlar. Model difüzyon süreci boyunca renk ve normal harita alanları arasında tutarlılığı zorlayan çoklu görünüm çapraz alan dikkat mekanizması kullanır ve giriş nesnesinin 3D yapısını sadakatle temsil eden tutarlı çoklu görünüm çıktıları üretir. Wonder3D tek bir fotoğraftan yaklaşık iki ila üç dakikada tam dokulu bir 3D mesh yeniden yapılandırabilir. Çıktı mesh'leri iyi tanımlanmış yüzey detaylarıyla temiz geometri sunar ve profesyonel 3D iş akışlarında kullanıma uygundur. Apache 2.0 lisansı altında yayınlanan model kod ve önceden eğitilmiş ağırlıkları GitHub üzerinde mevcut olan tamamen açık kaynaklıdır. Wonder3D karakterler, hayvanlar, mobilyalar ve üretilmiş nesneler dahil çeşitli nesne kategorilerini tutarlı kaliteyle işler. Model özellikle sınırlı referans görsellerinden yüksek kaliteli 3D varlıklar oluşturulması gereken oyun geliştirme, animasyon, ürün görselleştirme ve sanal gerçeklik uygulamaları için değerlidir. Çapraz alan yaklaşımı 3D rekonstrüksiyon için çoklu görünüm üretimi alanındaki sonraki araştırmaları etkilemiştir.

Açık Kaynak
4.1
Rodin Gen-1 icon

Rodin Gen-1

Microsoft|N/A

Rodin Gen-1, Microsoft Research tarafından geliştirilen, metin açıklamalarından ve görsellerden detaylı, yüksek kaliteli 3D modeller ve dijital avatarlar oluşturan bir 3D üretim modelidir. Model, Microsoft'un bilgisayar görüşü ve üretken AI'daki kapsamlı araştırmalarından yararlanarak AI destekli 3D içerik üretimi alanına önemli bir girişi temsil eder. Rodin Gen-1, öğrenilmiş bir gizli uzayda çalışan gürültü giderme işlemi aracılığıyla 3D temsiller üreten difüzyon tabanlı bir mimari kullanır ve ince geometrik detaylar ile gerçekçi yüzey dokuları içeren sonuçlar üretir. Model özellikle metin açıklamalarından doğru yüz hatları, saç, giysi ve aksesuarlarla 3D dijital avatarlar üretmede uzmanlaşmıştır ve bu da onu oyun, sanal gerçeklik ve metaverse uygulamaları için son derece ilgili kılar. Avatarların ötesinde Rodin Gen-1 farklı kategorilerde tutarlı kaliteyle genel 3D nesneler ve sahneler de üretebilir. Üretim süreci animasyon ve rigging iş akışlarına uygun düzgün topolojiye sahip dokulu mesh'ler üretir. Microsoft Rodin Gen-1'i bir araştırma katkısı olarak konumlandırmış ve akademik kullanıma izin veren ancak ticari dağıtımı kısıtlayan salt araştırma lisansı altında yayınlamıştır. Model Microsoft'un daha geniş 3D AI araştırma portföyü üzerine inşa edilmiştir ve büyük ölçekli üretken modellerin 3D içerik üretimine nasıl etkili bir şekilde uygulanabileceğini göstermektedir. Rodin Gen-1 özellikle avatar üretim kalitesiyle dikkat çeker ve giriş olarak yalnızca bir metin komutu gerektirirken manuel olarak oluşturulmuş 3D karakterlerin sadakatine yaklaşan sonuçlar elde ederek profesyonel 3D karakter oluşturma için geleneksel olarak gereken süreyi ve uzmanlığı önemli ölçüde azaltır.

Tescilli
4.2
One-2-3-45 icon

One-2-3-45

UC San Diego|N/A

One-2-3-45, UC San Diego araştırmacıları tarafından geliştirilen, çoklu görünüm üretimini seyrek görünüm 3D rekonstrüksiyonuyla birleştiren iki aşamalı bir hat aracılığıyla tek giriş görselinden dokulu 3D mesh'ler üreten tek görselden 3D rekonstrüksiyon sistemidir. Adı temel süreci yansıtır: bir görselden iki, üç, dört, beş görünüm üret ve ardından tam bir 3D nesne yeniden yapılandır. İlk aşamada ince ayarlı bir Zero123 modeli tek giriş fotoğrafına dayalı olarak nesnenin farklı açılardan birden fazla yeni görünümünü üretir. İkinci aşamada bu üretilen çoklu görünüm görselleri tutarlı geometriye sahip dokulu bir 3D mesh üreten maliyet hacmi tabanlı seyrek görünüm rekonstrüksiyon ağına beslenir. Haziran 2023'te MIT lisansı altında yayınlanan One-2-3-45, 2D difüzyon modellerini 3D rekonstrüksiyonla birleştirmenin bir dakikanın altında makul 3D varlıklar üretebileceğini gösteren ilk sistemlerden biri olmuştur. Model günlük eşyalar, hayvanlar, araçlar ve sanatsal nesneler dahil çeşitli nesne türlerini işler. Nesne başına onlarca dakika süren optimizasyon gerektiren DreamFusion gibi optimizasyon tabanlı yaklaşımların aksine One-2-3-45 ileri beslemeli bir şekilde çalışır ve bu da onu önemli ölçüde daha hızlı kılar. Çıktı mesh'leri renk ve doku bilgisi içerir ve standart 3D uygulamalarda kullanılmak üzere dışa aktarılabilir. Kodu GitHub üzerinde mevcut olan tamamen açık kaynak bir proje olarak tek görselden 3D üretim alanındaki sonraki araştırmalar için etkili bir referans olmuştur. Sistem özellikle sınırlı giriş verisinden hızlı 3D içerik üretimini keşfeden araştırmacılar ve geliştiriciler için kullanışlıdır.

Açık Kaynak
4.0
ModelScope T2V icon

ModelScope T2V

Alibaba DAMO|1.7B

ModelScope T2V, Alibaba DAMO Academy tarafından geliştirilen ve işlevsel bir metinden videoya üretim hattını araştırma topluluğuna serbestçe sunarak erişilebilir video üretim araştırmasına öncülük eden erken dönem açık kaynaklı bir text-to-video üretim modelidir. Mart 2023'te yayınlanan ModelScope T2V, pratik metinden videoya üretim yeteneklerini sergileyen ilk açık kaynak modellerden biri olarak alandaki sonraki gelişmeler için önemli bir temel çizgi oluşturmuştur. 1,7 milyar parametreli bir difüzyon mimarisi üzerine inşa edilen model, görsel üretimde kanıtlanmış gizli difüzyon yaklaşımını zamansal alana genişleterek metin açıklamalarından kısa video klipler üretilmesini sağlayan zamansal konvolüsyon ve dikkat katmanları içerir. Mimari, metin istemlerini bir CLIP metin kodlayıcısı aracılığıyla işler ve eklenmiş zamansal boyutlara sahip değiştirilmiş bir U-Net aracılığıyla temel hareket tutarlılığı ve prompt uyumu içeren klipler üretir. Çıktı kalitesi Sora veya Runway Gen-3 Alpha gibi daha yeni modellerle karşılaştırıldığında mütevazı olsa da ModelScope T2V, araştırmacıların ve geliştiricilerin deneyebileceği, değiştirebileceği ve üzerine inşa edebileceği ilk gerçek anlamda erişilebilir açık kaynak uygulamayı sağlayarak video üretim teknolojisinin demokratikleştirilmesinde önemli bir tarihsel rol oynamıştır. Model, tanınabilir özneler ve temel hareket kalıplarıyla basit sahne açıklamalarını yöneterek orta çözünürlüklerde kısa video klipler üretimini destekler. Yaygın kullanım alanları arasında araştırma deneyleri, video üretim kavramlarının eğitim amaçlı gösterimi, video fikirlerinin hızlı prototiplenmesi ve daha gelişmiş modellerin eğitimi ile ince ayarı için temel çizgi olarak hizmet etme yer alır. Hugging Face ve Replicate üzerinde Apache 2.0 lisansı altında erişilebilen ModelScope T2V, son teknoloji kalitenin gerekli olmadığı ancak minimum hesaplama yüküyle işlevsel video üretim yeteneğinin gerektiği senaryolarda hafif ve kaynak verimli bir seçenek olarak geçerliliğini korumaktadır.

Açık Kaynak
3.8
OpenLRM icon

OpenLRM

Zexiang Xu|N/A

OpenLRM, Zexiang Xu ve işbirlikçileri tarafından geliştirilen, tek görselden 3D rekonstrüksiyon için Büyük Rekonstrüksiyon Modeli mimarisinin açık kaynak bir uygulamasıdır. Proje, tek giriş görsellerinden ileri beslemeli bir şekilde 3D temsiller tahmin etmek için transformer tabanlı mimari kullanan LRM yaklaşımının tamamen açık ve tekrarlanabilir bir uygulamasını sunar. OpenLRM bir giriş görselini DINOv2 gibi önceden eğitilmiş bir vizyon kodlayıcı aracılığıyla işler, ardından elde edilen özellikleri üç düzlem tabanlı sinirsel ışıma alanı temsili üreten bir transformer kod çözücüye besler ve bu temsil yeni bakış açılarından render edilebilir veya dokulu bir 3D mesh'e dönüştürülebilir. Tüm rekonstrüksiyon modern bir GPU'da yalnızca birkaç saniye sürer ve bu da onu etkileşimli uygulamalar ve toplu işleme iş akışları için pratik kılar. Aralık 2023'te Apache 2.0 lisansı altında yayınlanan OpenLRM, araştırmacıların inceleyebileceği, değiştirebileceği ve üzerine inşa edebileceği erişilebilir bir referans uygulama sağlayarak 3D AI araştırma topluluğundaki kritik bir boşluğu doldurur. Model çeşitli çıktı formatlarını destekler ve oyun geliştirmeden e-ticaret ürün görselleştirmesine kadar uzanan uygulamalar için mevcut 3D süreçlere entegre edilebilir. OpenLRM mobilya, araçlar, karakterler ve günlük eşyalar dahil çeşitli nesne kategorilerini makul geometrik sadakatle işler. Önceden eğitilmiş model ağırlıkları anında kullanım için Hugging Face üzerinde mevcuttur. İleri beslemeli 3D rekonstrüksiyondaki temel açık kaynak projelerden biri olarak OpenLRM, hızla gelişen tek görselden 3D üretim alanındaki birçok alt projeyi ve araştırma çalışmasını doğrudan etkilemiş ve mümkün kılmıştır.

Açık Kaynak
4.1
Era3D icon

Era3D

Alibaba|N/A

Era3D, Alibaba tarafından geliştirilen, 3D rekonstrüksiyon için tek giriş görsellerinden yüksek çözünürlüklü, kamera farkındalıklı çoklu görünüm görselleri ve normal haritaları üreten çoklu görünüm üretim modelidir. Model çoklu görünüm üretimindeki yaygın sınırlamaları ele alan iki temel yenilik sunar: giriş görselinin kamera perspektifine uyum sağlayan odak uzaklığı tahmin modülü ve rakip yöntemlerden daha yüksek çözünürlüklerde üretimi daha az GPU belleğiyle mümkün kılan verimli satır bazlı dikkat mekanizması. Era3D aşağı akış 3D mesh rekonstrüksiyonu için zengin geometrik bilgi sağlayarak 512x512 çözünürlükte karşılık gelen normal haritalarıyla birlikte altı tutarlı görünüm üretir. Kamera farkındalıklı tasarım modelin farklı perspektiflerden ve odak uzaklıklarından çekilen giriş görsellerini çıktı kalitesinde bozulma olmadan işleyebilmesi anlamına gelir ve bu sabit kamera modeli varsayan yöntemlere göre önemli bir iyileştirmedir. Satır bazlı dikkat mekanizması hesaplama açısından pahalı olan tam çapraz görünüm dikkatini yatay satırlar boyunca dikkati işleyen daha verimli bir alternatifle değiştirerek görünüm tutarlılığını korurken bellek gereksinimlerini azaltır. Mayıs 2024'te Apache 2.0 lisansı altında yayınlanan Era3D kod ve önceden eğitilmiş ağırlıkları GitHub üzerinde mevcut olan tamamen açık kaynaklıdır. Model çeşitli nesne kategorilerinde güçlü performans gösterir ve yüksek kaliteli 3D rekonstrüksiyona uygun temiz çoklu görünüm çıktıları üretir. Era3D özellikle giriş görsellerinin farklı kamera özelliklerine sahip çeşitli kaynaklardan geldiği ve nihai 3D modellerdeki ince detayları yakalamak için yüksek çözünürlüklü çoklu görünüm üretiminin gerekli olduğu profesyonel 3D içerik üretim iş akışları için değerlidir.

Açık Kaynak
4.2
DeepFloyd IF icon

DeepFloyd IF

Stability AI|4.3B

DeepFloyd IF, Stability AI araştırma laboratuvarı olan DeepFloyd tarafından geliştirilen, donmuş T5-XXL dil modelinin metin kodlayıcısı olarak entegrasyonu aracılığıyla doğal metin anlama yeteneklerine sahip kademeli bir piksel uzayı difüzyon modelidir. Sıkıştırılmış latent uzayda çalışan Stable Diffusion gibi latent difüzyon modellerinden farklı olarak DeepFloyd IF, üç aşamalı kademeli mimari aracılığıyla doğrudan piksel uzayında çalışır. İlk aşama 64x64 temel görsel üretir, ikinci aşama 256x256'ya ölçekler ve üçüncü aşama nihai 1024x1024 çıktıyı oluşturur. Bu kademeli yaklaşım, modelin genel kompozisyon ile ince detaylar arasında olağanüstü tutarlılık korumasını sağlar. T5-XXL metin kodlayıcısı, DeepFloyd IF'e CLIP tabanlı modellerden önemli ölçüde daha güçlü prompt anlama kapasitesi verir ve özellikle görseller içinde doğru metin oluşturma, promptlarda tanımlanan uzamsal ilişkileri anlama ve karmaşık kompozisyonel talimatları takip etmede üstündür. Model, güvenilir görsel içi metin üretimi sergileyen ilk açık kaynak modellerden biri olmuştur. Araştırma lisansı altında yayınlanan DeepFloyd IF, tüm aşamalar genelinde yaklaşık 4,3 milyar parametreyle Hugging Face üzerinde mevcuttur. Tam pipeline için 16GB ve üzeri VRAM önerilir ve önemli hesaplama kaynakları gerektirir. AI araştırmacıları ve dijital sanatçılar özellikle doğru metin render veya hassas kompozisyonel kontrol gerektiren projeler için kullanır. FLUX.1 gibi daha yeni modeller genel kalitesini geçmiş olsa da DeepFloyd IF, büyük dil modeli anlayışını piksel uzayı difüzyonuyla birleştiren bir öncü olarak tarihsel önemini korumaktadır.

Açık Kaynak
4.1
Point-E icon

Point-E

OpenAI|N/A

Point-E, OpenAI tarafından geliştirilen, metin açıklamalarından iki aşamalı kademeli bir yaklaşımla renkli 3D nokta bulutları üreten bir 3D üretim sistemidir. Aralık 2022'de yayınlanan model, büyük bir AI laboratuvarından çıkan ilk halka açık text-to-3D modellerinden biri olmuştur. Sistem iki aşamada çalışır: önce metin koşullu DALL-E tabanlı bir görsel üretim modeli tanımlanan nesnenin sentetik bir görünümünü oluşturur, ardından ikinci bir difüzyon modeli bu görsele koşullu olarak 3D nokta bulutu üretir. Bu kademeli tasarım tek bir GPU'da yalnızca bir iki dakikada sonuç üretir ve saatlerce işlem gerektiren DreamFusion gibi optimizasyon tabanlı yöntemlerden çok daha hızlıdır. Üretilen nokta bulutları nesnelerin 3D şeklini ve görünümünü temsil eden binlerce renkli noktadan oluşur. Nokta bulutları üretim amaçlı 3D uygulamalar için mesh'ler kadar doğrudan kullanılabilir olmasa da Poisson yüzey rekonstrüksiyonu gibi standart algoritmalarla mesh'lere dönüştürülebilir. Point-E hayvanlar, araçlar, mobilyalar ve günlük eşyalar dahil çok çeşitli nesnelerin üretimini destekler. Model MIT lisansı altında tamamen açık kaynaklıdır ve kod ile önceden eğitilmiş ağırlıklar GitHub üzerinde mevcuttur. Hızlı metinden 3D'ye üretimde öncü bir katkı olarak Point-E, kaliteden ödün vererek dramatik hız artışı sağlamanın uygulanabilir bir yaklaşım olduğunu göstermiş ve Shap-E gibi sonraki modellerin gelişimini doğrudan etkilemiştir. Sistem 3D üretim hatlarını araştıran akademisyenler ve üretim kalitesinden ziyade hızın önemli olduğu hızlı konsept görselleştirme senaryoları için değerini korumaktadır.

Açık Kaynak
3.7
SyncDreamer icon

SyncDreamer

Tsinghua University|N/A

SyncDreamer, Tsinghua Üniversitesi araştırmacıları tarafından geliştirilen, tek giriş görsellerinden nesnelerin senkronize ve 3D tutarlı görünümlerini üreten çoklu görünüm üretim ve 3D rekonstrüksiyon modelidir. 2023'te Apache 2.0 lisansı altında yayınlanan SyncDreamer, yeni bir dikkat mekanizması aracılığıyla 3D tutarlılığı sağlarken birden fazla görünümü eş zamanlı üreten senkronize çoklu görünüm difüzyon yaklaşımını tanıtır. Görünümler arasında sıklıkla tutarsız sonuçlar üreten ardışık görünüm üretim yöntemlerinin aksine SyncDreamer'ın senkronize üretim süreci tüm çıktı görünümlerinin tutarlı geometri, aydınlatma ve görünüm paylaşmasını sağlar. Model gürültü giderme sürecinde farklı bakış açısı tahminleri arasında bilgi akışına izin veren 3D farkındalıklı özellik dikkat modülüne sahip değiştirilmiş bir difüzyon mimarisi kullanır. Bu çapraz görünüm iletişimi modelin tüm üretilen görünümler arasında uzamsal tutarlılığı korumasını sağlar. Çıktı çoklu görünüm görselleri yüksek kaliteli dokulu 3D mesh'ler üretmek için NeuS veya NeRF gibi standart çoklu görünüm rekonstrüksiyon yöntemleriyle kullanılabilir. SyncDreamer nesnenin etrafında eşit aralıklı 16 görünüm üreterek doğru 3D rekonstrüksiyon için kapsamlı kapsam sağlar. Model hayvanlar, araçlar, mobilyalar ve sanatsal nesneler dahil çeşitli nesne kategorilerini iyi tutarlılıkla işler. Kod ve ağırlıkları GitHub üzerinde mevcut olan tamamen açık kaynak bir proje olarak SyncDreamer çoklu görünüm üretimi literatüründe önemli bir referans haline gelmiştir. Model özellikle 3D üretim hatları üzerinde çalışan araştırmacılar ve tek görsellerin 3D varlıklara dönüştürülmesinin yaygın bir gereksinim olduğu oyun geliştirme, ürün görselleştirme ve sanal gerçeklik içerik üretimi uygulamaları için ilgilidir.

Açık Kaynak
4.0
ProGAN icon

ProGAN

NVIDIA|N/A

ProGAN (Aşamalı Büyüyen GAN'lar), NVIDIA araştırmacıları Tero Karras, Timo Aila, Samuli Laine ve Jaakko Lehtinen tarafından geliştirilen, yüksek çözünürlüklü yüz görselleri üretmek için eğitim sırasında hem üretici hem ayrıştırıcı ağların aşamalı olarak büyütülmesine öncülük eden 2017 tarihli GAN mimarisidir. Hedef çözünürlükte doğrudan eğitim yerine ProGAN, 4x4 pikselden başlayarak kademeli olarak daha yüksek çözünürlükleri işleyen yeni katmanlar ekler ve her detay seviyesini yumuşak geçişlerle entegre eder. Bu aşamalı strateji, ince detaylar eklenmeden önce büyük ölçekli yapıyı öğrenerek eğitimi stabilize eder, tam çözünürlükte sıfırdan eğitime kıyasla süreyi azaltır ve GAN'larla daha önce mümkün olandan çok daha yüksek çözünürlüklü görseller üretilmesini sağlar. ProGAN, 1024x1024 piksel fotorealistik yüz görselleri inandırıcı biçimde üreten ilk GAN mimarisi olmuş ve geniş çapta ilgi çekmiştir. Model, bu araştırma için hazırlanmış yüksek kaliteli CelebA-HQ veri seti üzerinde eğitilmiştir. Yüzlerin ötesinde yatak odaları, arabalar ve diğer kategorilerin yüksek çözünürlüklü görsellerini başarıyla üreterek çok yönlülüğünü kanıtlamıştır. Mimari, çıktı çeşitliliği için mini-grup standart sapma tekniğini ve eğitim stabilitesi için eşitlenmiş öğrenme hızını tanıtmıştır. ProGAN, TensorFlow'da resmi implementasyonları ve PyTorch'ta topluluk portlarıyla tamamen açık kaynaklıdır. StyleGAN gibi sonraki mimariler ProGAN'ın aşamalı eğitim temeli üzerine inşa edilerek daha yüksek kalite elde etmiş olsa da ProGAN, yüksek çözünürlüklü GAN eğitimini temelden değiştiren ve gelişmiş üretken modellerin bir neslini ilhamlandıran tarihi bir katkıdır.

Açık Kaynak
4.0
Wuerstchen icon

Wuerstchen

Stability AI|1B

Wuerstchen, Stability AI araştırmacıları tarafından geliştirilen ve son derece sıkıştırılmış bir latent uzayda çalışan yeni bir üç aşamalı mimari sunarak hem eğitim hem çıkarım verimliliğinde dramatik iyileştirmeler sağlayan son derece verimli bir text-to-image üretim modelidir. Modelin temel yeniliği, Stable Diffusion gibi standart latent difüzyon modellerinin kullandığı 8 kat sıkıştırmayı çok aşan 42 kat sıkıştırma oranını latent uzayında kullanmasıdır. Bu aşırı sıkıştırma, Aşama C'nin küçük 24x24 latent temsillerle çalıştığı, Aşama B'nin bunları ara çözünürlüğe çözdüğü ve Aşama A'nın nihai çıktıyı ürettiği hiyerarşik bir yaklaşımla elde edilir. Bu agresif sıkıştırmaya rağmen Wuerstchen, çok daha hesaplama açısından pahalı modellerle rekabetçi görsel kalitesini korur. Mimari, tüketici donanımında eğitimi ve benzer çıktı kalitesindeki modellere kıyasla önemli ölçüde daha hızlı çıkarım sürelerini mümkün kılar. Wuerstchen, karşılaştırılabilir kaliteyi korurken SDXL'den önemli ölçüde daha az bellek ve hesaplama kullanarak 1024x1024 görsel üretebilir. Model, tasarım ilkelerini daha geniş dağıtım için doğrulayan Stable Cascade'in mimari temeli olarak hizmet etmiştir. Açık kaynak olarak yayınlanan Wuerstchen, Hugging Face üzerinde mevcuttur ve Diffusers kütüphanesiyle uyumludur. Verimli üretken model mimarilerini inceleyen AI araştırmacıları, kaynak kısıtlı uygulamalar geliştiren yazılımcılar ve sınırlı GPU erişimine sahip akademik kurumlar Wuerstchen'i özellikle değerli bulur. Model, aşırı latent uzay sıkıştırmasının daha az güçlü donanımda erişilebilir kılarak yüksek kaliteli görsel üretimi demokratikleştirmek için uygulanabilir bir yol olabileceğini göstermektedir.

Açık Kaynak
4.0
DCGAN Face icon

DCGAN Face

Radford et al.|N/A

DCGAN (Derin Evrişimli Üretken Çekişmeli Ağ) Face, Alec Radford, Luke Metz ve Soumith Chintala tarafından 2015'teki etkili makalelerinde tanıtılan, GAN mimarilerinde evrişimli sinir ağlarının kullanımının temel prensiplerini belirleyen öncü bir mimaridir. DCGAN, derin evrişimli ağların tutarlı görseller, özellikle insan yüzleri üretebileceğini güvenilir biçimde gösteren ilk modellerden biridir ve GAN'ları basit tam bağlı mimarilerin ötesine taşımıştır. Mimari, sonraki GAN araştırmalarında standart uygulama haline gelen tasarım ilkeleri sunar: ayrıştırıcıda havuzlama katmanlarının adımlı evrişimlerle, üreticide kesirli adımlı evrişimlerle değiştirilmesi, eğitimi stabilize etmek için toplu normalleştirme, tam bağlı gizli katmanların kaldırılması ve üreticide ReLU, ayrıştırıcıda LeakyReLU aktivasyonunun uygulanması. CelebA ünlü yüzleri veri seti üzerinde eğitilen DCGAN Face, 64x64 piksel yüz görselleri üretir; modern standartlara göre mütevazı olsa da yayın zamanında çığır açıcıydı. Model ayrıca öğrenilmiş gizli uzayda vektör işlemlerinin farklı yüzlerden özelliklerin birleştirilmesi gibi anlamsal olarak anlamlı sonuçlar ürettiğini gösteren gizli uzay aritmetiğini sergilemiştir. Bu çalışma GAN literatüründe en çok alıntı yapılan makalelerden biri haline gelmiş ve derin öğrenme eğitiminde zorunlu okuma olmaya devam etmektedir. DCGAN, PyTorch, TensorFlow ve diğer framework'lerde tamamen açık kaynaklıdır. ProGAN, StyleGAN ve difüzyon modelleri tarafından kalite açısından aşılmış olsa da evrişimli GAN'ların görsel üretim için uygulanabilir olduğunu kanıtlayan ve modern üretken modellerde hala kullanılan tasarım kalıplarını belirleyen mimari olarak tarihsel önemini korumaktadır.

Açık Kaynak
3.5