En İyi Açık Kaynak AI Modelleri
Ücretsiz kullanılabilen, topluluk tarafından geliştirilen ve sürekli iyileştirilen açık kaynak AI modelleri. Görsel üretiminden video oluşturmaya, yükseltmeden segmentasyona kadar geniş bir yelpazede en kaliteli açık kaynak seçenekler.
Modeller
Stable Diffusion XL
Stable Diffusion XL, Stability AI'ın amiral gemisi açık kaynaklı text-to-image modelidir ve önemli ölçüde geliştirilmiş prompt anlama kapasitesi için OpenCLIP ViT-bigG ve CLIP ViT-L metin kodlayıcılarını birleştiren çift metin kodlayıcı mimarisi sunar. Temel ve iyileştirici modelleri genelinde yaklaşık 3,5 milyar parametreye sahip olan SDXL, dikkat çekici detay ve tutarlılıkla doğal 1024x1024 çözünürlüklü görseller üretir. Model, temel modelin ilk kompozisyonu oluşturduğu ve isteğe bağlı iyileştirici modelin ince detaylar ve dokular eklediği iki aşamalı bir pipeline sunmuştur. SDXL, fotorealizm, dijital sanat, anime, yağlı boya ve sulu boya dahil geniş bir yelpazede sanatsal stili destekler ve hepsinde tutarlı kalite sunar. CreativeML Open RAIL-M lisansı altındaki açık kaynak yapısı, AI görsel üretiminde en büyük topluluk uzantıları ekosistemini oluşturmuştur; binlerce LoRA modeli, özel checkpoint ve ControlNet adaptasyonu mevcuttur. Model, 8GB ve üzeri VRAM'e sahip tüketici GPU'larında verimli çalışır ve ComfyUI, Automatic1111 ve InvokeAI gibi popüler arayüzlerle entegre olur. Profesyonel tasarımcılar, bağımsız oyun geliştiricileri, dijital sanatçılar ve hobi sahipleri dünya genelinde konsept sanattan karakter tasarımına, pazarlama materyallerinden kişisel yaratıcı projelere kadar her şey için SDXL kullanır. FLUX.1 gibi daha yeni modeller tarafından ham kalitede geçilmesine rağmen, olgun ekosistemi ve kapsamlı topluluk desteği sayesinde en yaygın kullanılan açık kaynak görsel üretim modeli olmaya devam etmektedir.
FLUX.1 [dev]
FLUX.1 [dev], Stable Diffusion'ın orijinal yaratıcıları tarafından kurulan Black Forest Labs ekibinin geliştirdiği 12 milyar parametreli açık kaynaklı bir text-to-image difüzyon modelidir. Geleneksel difüzyon yöntemlerinden farklı olarak gürültü ve veri dağılımları arasında doğrudan aktarım yolu öğrenen yenilikçi Flow Matching mimarisi üzerine inşa edilmiştir ve bu sayede daha verimli ve kaliteli görsel üretim sağlar. Guidance Distillation teknolojisi sayesinde classifier-free guidance bilgisini doğrudan model ağırlıklarına gömerek yalnızca 28 çıkarım adımında olağanüstü sonuçlar üretir. Model, karmaşık çok öğeli sahne kompozisyonu, görseller içinde okunabilir metin oluşturma ve anatomik olarak doğru insan figürleri gibi birçok rakibin hâlâ zorlandığı alanlarda üstün performans sergiler. Apache 2.0 lisansı altında yayınlanan model, tam ticari kullanıma açıktır ve 15 ile 30 arası eğitim görseli ile LoRA ince ayar desteği sunar. FLUX.1 [dev] yerel olarak 12GB ve üzeri VRAM'e sahip GPU'larda çalışır, ComfyUI, Diffusers kütüphanesi ve Replicate, fal.ai gibi bulut platformlarıyla sorunsuz entegre olur. Profesyonel sanatçılar, oyun geliştiricileri, grafik tasarımcılar ve açık kaynak topluluğu tarafından konsept sanat, karakter tasarımı, ürün görselleştirme ve pazarlama içeriği üretiminde yaygın olarak kullanılmaktadır. Artificial Analysis Image Arena'da 1074 ELO puanıyla açık kaynak görsel üretiminin lideri konumundadır.
FLUX.1 [schnell]
FLUX.1 [schnell], Black Forest Labs tarafından özellikle neredeyse gerçek zamanlı görsel üretimi için tasarlanmış FLUX.1 model ailesinin en hızlı varyantıdır. FLUX.1 [dev]'in ihtiyaç duyduğu 28 adıma kıyasla yalnızca 1 ile 4 çıkarım adımı gerektirerek dikkat çekici bir hız elde eder ve bu özelliğiyle interaktif uygulamalar, canlı önizlemeler ve hızlı prototipleme iş akışları için idealdir. Kardeş modelleriyle aynı Flow Matching mimarisi üzerine inşa edilmiş ancak agresif adım distilasyonu ile optimize edilmiş olan Schnell, dramatik hız avantajına rağmen şaşırtıcı derecede yüksek görsel kalitesini korur. Modern GPU'larda bir saniyenin altında görsel üreterek, difüzyon modelleriyle daha önce pratik olmayan gerçek zamanlı yaratıcı araçlar ve duyarlı tasarım asistanları gibi kullanım senaryolarını mümkün kılar. Apache 2.0 açık kaynak lisansı altında yayınlanan model, hem kişisel hem ticari kullanım için serbestçe erişilebilir durumdadır. Aynı 12 milyar parametreli mimariyi destekler ve yerel olarak 12GB üzeri VRAM ile veya Replicate, fal.ai, Together AI gibi bulut API'leri üzerinden çalıştırılabilir. ComfyUI ve Diffusers kütüphanesiyle entegre olur. Dev ve pro varyantlarına kıyasla bazı ince detay ve karmaşık sahne doğruluğunu feda etse de hız-kalite oranında açık kaynak ekosisteminde rakipsizdir. Oyun geliştiricileri, UI tasarımcıları ve AI destekli yaratıcı araçlar geliştiren uygulama geliştiricileri Schnell'in anında üretim kapasitesinden özellikle faydalanır.
AnimateDiff
AnimateDiff, Yuwei Guo tarafından geliştirilen ve mevcut mimariye öğrenilebilir zamansal dikkat katmanları ekleyerek herhangi bir kişiselleştirilmiş text-to-image difüzyon modelini video üreticisine dönüştüren bir hareket modülü çerçevesidir. Temmuz 2023'te yayınlanan AnimateDiff, hareket öğrenimini görsel görünüm öğreniminden ayırarak video üretimine çığır açıcı bir yaklaşım getirmiş ve kullanıcıların ince ayarlanmış Stable Diffusion modellerinin ve LoRA adaptasyonlarının geniş ekosistemini yeniden eğitim olmadan video oluşturmak için kullanmasına olanak tanımıştır. Temel yenilik, video verilerinden genel hareket kalıplarını öğrenen ve herhangi bir Stable Diffusion kontrol noktasına eklenerek o kontrol noktasının belirli görsel stilini ve kalitesini korurken çıktılarını canlandırabilen tak-çıkar bir hareket modülüdür. Hareket modülü, kareler arası öz dikkat içeren zamansal transformer blokları içerir ve nesnelerin doğal hareket ettiği ve sahne dinamiklerinin tutarlı kaldığı zamansal olarak tutarlı dizilerin üretilmesini sağlar. AnimateDiff, her mimari için optimize edilmiş farklı hareket modülü sürümleriyle hem SD 1.5 hem de SDXL temel modellerini destekler. Çerçeve, özelleştirilebilir kare sayıları, kare hızları ve hareket yoğunlukları ile animasyonlu GIF'ler ve kısa video döngüleri üretmeyi sağlar. Kullanıcılar AnimateDiff'i poz rehberli animasyon için ControlNet, referans tabanlı hareket için IP-Adapter ve stile özgü video üretimi için çeşitli LoRA modelleriyle birleştirebilir. Yaygın uygulamalar arasında animasyonlu sanat eserleri oluşturma, sosyal medya içeriği, oyun varlık animasyonu, ürün görselleştirme ve yaratıcı hikaye anlatımı dizileri yer alır. Apache 2.0 lisansı altında sunulan AnimateDiff, Hugging Face, Replicate ve fal.ai üzerinde erişilebilir olup ComfyUI iş akışları ve Automatic1111 uzantıları aracılığıyla kapsamlı topluluk desteğine sahiptir. Çerçeve, yaratıcıların emsalsiz esneklik ve kontrolle stilize animasyonlu içerik üretmesini sağlayarak en etkili açık kaynak video üretim yaklaşımlarından biri haline gelmiştir.
CogVideoX-5B
CogVideoX-5B, Tsinghua Üniversitesi ve ZhipuAI tarafından ortaklaşa geliştirilen, metin açıklamalarından ve görüntü girdilerinden yüksek kaliteli, zamansal olarak tutarlı videolar üreten 5 milyar parametreli açık kaynak bir video üretim modelidir. Bir 3D VAE (Variational Autoencoder) ile Diffusion Transformer mimarisini birleştiren CogVideoX-5B, uzamsal ve zamansal boyutları birlikte işleyerek düzgün hareket, tutarlı nesne görünümleri ve kareler arasında uyumlu sahne dinamiklerine sahip videoların üretilmesini sağlar. Model, kullanıcıların istenen sahneleri doğal dilde tanımladığı metinden videoya üretim ve statik bir görüntünün ilk kare olarak kullanıldığı ve modelin uygun hareketle canlandırdığı görüntüden videoya üretimi destekler. CogVideoX-5B, saniyede 8 kare ile 480x720 çözünürlükte 6 saniyeye kadar video üretebilir ve sosyal medya klipleri, konsept görselleştirme ve yaratıcı prototipleme için uygun içerik sağlar. 3D VAE, video verilerini zamansal tutarlılığı koruyan kompakt bir gizli uzaya sıkıştırırken Diffusion Transformer, hareket, fizik ve uzamsal ilişkilerin güçlü semantik anlayışıyla içerik üretir. Mevcut en yetenekli açık kaynak video üretim modellerinden biri olan CogVideoX-5B, araştırma ve geliştirme için serbestçe erişilebilir kalırken tescilli alternatiflerle rekabetçi kalite elde eder. Apache 2.0 lisansı altında yayınlanan model, Hugging Face üzerinden mevcuttur ve kolay dağıtım için Diffusers kütüphanesiyle entegre olur. Temel uygulamalar arasında kısa biçimli video içerik üretme, animasyonlu ürün gösterimleri oluşturma ve film ön prodüksiyonu için görsel konsept önizlemeleri üretme yer alır.
Hunyuan Video
Hunyuan Video, Tencent tarafından 13 milyar parametreyle geliştirilen ve mevcut en büyük açık kaynak video üretim modellerinden biri olan büyük ölçekli bir metinden videoya AI modelidir. Metin ve görsel tokenları paralel dikkat akışları aracılığıyla işleyip birleştiren Dual-stream Diffusion Transformer mimarisi üzerine inşa edilen Hunyuan Video, zengin detay, doğru renk üretimi ve kareler arasında güçlü zamansal tutarlılıkla olağanüstü görsel kalite elde eder. Model, doğal dil açıklamalarından metinden videoya üretimi ve statik bir görüntünün bağlamsal olarak uygun hareketle canlandırıldığı görüntüden videoya üretimi destekler. Hunyuan Video, 720p'ye kadar çözünürlükte düzgün hareket ve fiziksel olarak makul dinamiklerle videolar üretir ve sinematik kalitesi ile estetik sofistikasyonuyla öne çıkan içerik sağlar. Çift akış mimarisi, metin semantiği ve görsel üretim arasında derin çapraz modal anlayış sağlayarak birden fazla nesne, uzamsal ilişkiler ve belirli hareket kalıpları içeren karmaşık sahne açıklamaları için güçlü prompt uyumu sunar. Model, gerçekçi sahneler, animasyon stilleri, soyut görselleştirmeler ve doğa görüntüleri dahil çeşitli içerik türlerini tutarlı kaliteyle işler. Belirli koşullarla hem araştırma hem de ticari kullanıma izin veren Tencent Hunyuan Lisansı altında yayınlanan model, Hugging Face üzerinden mevcuttur ve Diffusers kütüphanesi ekosistemi tarafından desteklenir. Temel uygulamalar arasında profesyonel video içerik üretimi, reklam ve pazarlama video prodüksiyonu, sosyal medya içerik üretimi ve film stüdyoları için görsel konsept prototipleme yer alır.
Real-ESRGAN
Real-ESRGAN, Tencent ARC Lab'da Xintao Wang ve işbirlikçileri tarafından geliştirilen, düşük çözünürlüklü, bozulmuş veya sıkıştırılmış görselleri dikkat çekici detay kurtarmayla yüksek çözünürlüklü çıktılara dönüştüren açık kaynak görsel büyütme ve restorasyon modelidir. 2021'de BSD lisansı altında yayınlanan Real-ESRGAN, sıkıştırma yapıları, gürültü, bulanıklık ve alt örnekleme dahil gerçek dünya görsellerinde bulunan karmaşık ve öngörülemeyen kalite kaybını simüle eden yüksek dereceli bozulma modelleme yaklaşımını tanıtarak orijinal ESRGAN mimarisi üzerine inşa edilmiştir. Model üretici ağı olarak Residual-in-Residual Dense Block'lu U-Net mimarisi kullanır ve keskin, doğal görünümlü büyütülmüş sonuçlar üretmek için algısal kayıp, GAN kaybı ve piksel kaybı kombinasyonuyla eğitilmiştir. Real-ESRGAN 2x, 4x ve daha yüksek büyütme faktörlerini destekler ve genel amaçlı fotoğraf modelinin yanı sıra anime ve illüstrasyon içeriği için özelleştirilmiş model varyantları içerir. Model yalnızca sentetik bozulma desenleri üzerinde eğitilen öncülü ESRGAN'a kıyasla gerçek dünya bozulmalarını çok daha iyi işler. Real-ESRGAN masaüstü araçlar, web servisleri, mobil uygulamalar ve profesyonel görsel düzenleme iş akışları dahil sayısız uygulamaya entegre edilerek en yaygın dağıtılan AI büyütme çözümlerinden biri haline gelmiştir. Model hem CPU hem de GPU'da verimli çalışır ve daha hafif RealESRGAN-x4plus-anime varyantı tüketici donanımı için optimize edilmiştir. Önceden eğitilmiş ağırlıklarla GitHub üzerinde mevcut tamamen açık kaynak bir proje olarak Upscayl ve çeşitli ComfyUI düğümleri gibi popüler araçların omurgası olarak hizmet eder. Real-ESRGAN doğal görünümü korurken ve gerçekçi detay eklerken görsel çözünürlüğünü artırması gereken fotoğrafçılar, içerik üreticileri ve oyun geliştiricileri için vazgeçilmezdir.
GFPGAN
GFPGAN, Tencent ARC tarafından geliştirilen ve ciddi şekilde bozulmuş yüz görsellerini olağanüstü kaliteyle onarmak için önceden eğitilmiş bir StyleGAN2 modelinde gömülü üretici yüz önceliklerinden yararlanan pratik bir yüz restorasyon algoritmasıdır. İlk olarak Aralık 2021'de yayınlanan GFPGAN, giriş görsellerinin düşük çözünürlük, bulanıklık, gürültü, sıkıştırma artefaktları ve diğer bozulma biçimlerinin bilinmeyen kombinasyonlarından muzdarip olabileceği kör yüz restorasyon problemini ele alır. Modelin mimarisi, bir bozulma giderme modülünü StyleGAN2 tabanlı üretici öncelikle birleştirerek orijinal yüze sadakat ile üretici modelin sağladığı yüksek kaliteli yüz detayları arasında denge kuran yeni bir kanal bölünmeli uzamsal özellik dönüşüm katmanı kullanır. Bu yaklaşım, GFPGAN'ın bozulmuş girişte tamamen kaybolan cilt dokuları, göz netliği, saç telleri ve diş tanımı dahil ince yüz detaylarını geri kazanmasını sağlar. Model, bozulmuş görselden çoklu çözünürlükte özellikler çıkaran bir U-Net kodlayıcısı aracılığıyla yüzleri işler ve bu özellikler StyleGAN2 kod çözücüsünün özellik haritalarını modüle ederek orijinal kimliği korurken kaliteyi dramatik şekilde artıran bir çıktı üretir. GFPGAN; eski fotoğraf restorasyonu, düşük çözünürlüklü güvenlik kamerası görüntülerini iyileştirme, video görüşme kalitesini artırma, hasarlı aile fotoğraflarını kurtarma ve düşük kaliteli kaynak materyali profesyonel kullanıma hazırlama konularında üstün performans gösterir. Apache 2.0 lisansı altında açık kaynak olan model, Hugging Face ve Replicate üzerinde erişilebilir olup çok sayıda yaratıcı yapay zeka aracı ve iş hattına entegre edilmiş temel bir bileşen haline gelmiştir. Sentetik bozulma yerine gerçek dünya bozulma kalıplarını işleyebilme yeteneği, onu fotoğrafçılar, arşivciler ve içerik üreticileri tarafından karşılaşılan pratik restorasyon görevleri için özellikle değerli kılar.
Segment Anything (SAM)
Segment Anything Model (SAM), Meta AI'nin noktalar, sınırlayıcı kutular, maskeler veya metin açıklamaları dahil giriş promptlarına dayalı olarak herhangi bir görseldeki herhangi bir nesneyi segmente etmek için tasarlanmış yönlendirilebilir görsel segmentasyon temel modelidir. Nisan 2023'te 11 milyon görselden 1 milyardan fazla maske içeren SA-1B veri setiyle birlikte yayınlanan SAM, göreve özel ince ayar gerektirmeden çeşitli görevleri ele alan genel amaçlı segmentasyon modeli oluşturur. Mimari üç bileşenden oluşur: giriş görsellerini gömmelere işleyen Vision Transformer görsel kodlayıcı, farklı prompt türlerini ele alan esnek prompt kodlayıcı ve gerçek zamanlı segmentasyon maskeleri üreten hafif maske çözücü. SAM'ın sıfır atışlı aktarım yeteneği, eğitim sırasında görmediği nesneleri segmente edebileceği anlamına gelir ve onu tıbbi görüntülemeden uydu fotoğrafçılığına, yaratıcı içerik düzenlemeye kadar her görsel alana uygulanabilir kılar. Model, görseldeki her şeyi segmente eden otomatik maske üretimi, hassas nesne seçimi için etkileşimli nokta tabanlı segmentasyon ve bölge hedefleme için kutu yönlendirmeli segmentasyonu destekler. SAM, video desteğiyle SAM 2, kenar dağıtımı için EfficientSAM ve daha hızlı çıkarım için FastSAM dahil türev çalışmalara ilham vermiştir. Uygulamalar arka plan kaldırma, tıbbi görsel açıklama, otonom sürüş algısı, tarımsal izleme, CBS haritalama ve etkileşimli düzenleme araçlarını kapsar. Apache 2.0 lisansıyla tamamen açık kaynaklı olan SAM, PyTorch implementasyonları ve Meta'nın depolarından ücretsiz erişilebilir modelleriyle segmentasyon yaklaşımını temelden değiştiren en etkili bilgisayar görüşü modellerinden biri haline gelmiştir.