Local LLM ile Video ve Görsel Üretimi

Son yıllarda açık ağırlıklı video ve görsel üretim modelleri hem araştırma dünyasında hem de ürün geliştirme tarafında hızla olgunlaşıyor. OpenAI veya Midjourney gibi kapalı sistemler dikkat çekse de, topluluk destekli açık kaynak projeler özellikle geliştiriciler ve SaaS ekipleri için büyük esneklik sunuyor. Bu yazıda, yüksek kaliteli videolar ve görselleri yerel olarak üretmek isteyenler için öne çıkan modelleri, donanım gereksinimlerini ve pratik ipuçlarını derledik. Yerel kullanım; veri gizliliğini, maliyet kontrolünü ve kişiselleştirmeyi mümkün kıldığından KVKK uyumu için de cazip bir seçenek.

Neden yerel model?

Gizlilik ve veri hakimiyeti: Verilerinizin şirket dışına çıkmaması KVKK ve GDPR açısından kritik. Doğru konfigüre edilmiş yerel kurulumlarda kullanıcı prompt'ları veya görselleri üçüncü taraf sunuculara aktarılmaz; bu kazanımı korumak için telemetri/auto-update ayarlarının kapatılması, model indirme kaynaklarının ve harici entegrasyonların gözden geçirilmesi gerekir.
Maliyet ve performans: Tek seferlik donanım yatırımıyla uzun vadede bulut API masrafları ortadan kalkar. Ayrıca ağ gecikmesi olmadığı için yanıtlar anlıktır.
Tam kontrol: Model ve arayüz üzerinde tam hakimiyet; kendi LoRA'larınızı ekleyebilir, üretim ayarlarını değiştirebilir ve çıktıları dilediğiniz gibi saklayabilirsiniz.

Öne çıkan video modelleri

Açık ağırlıklı video modelleri 2025-2026 döneminde büyük ilerleme kaydetti. Aşağıdaki maddeler, çeşitli modellerin temel özelliklerini özetler.

CogVideoX v1.5

Uzunluk ve çözünürlük: v1.5 sürümü 10 saniyeye kadar uzunluk, 768x1360 dikey çözünürlük ve 30 fps'ye kadar destek sağlar.
Donanım gereksinimi: 2B parametreli sürüm eski GTX 1080 Ti üzerinde çalışabilir; 5B sürüm tek RTX 3060 ile desteklenir (8 GB VRAM minimum, 24 GB önerilir).
Öne çıkan özellikler: Açık kaynak; 3D VAE ve uzman Transformer mimarisi; metinden videoya, video tamamlama ve görselden videoya destekler. v1.5 sürümü hareket geçişlerini ve sahne tutarlılığını önceki sürümlere göre belirgin şekilde iyileştirir. Ses üretimi içermez; ses eklenecekse harici bir model kullanılmalıdır.

Stable Video Diffusion (SVD)

Uzunluk ve çözünürlük: img2vid modeli 14 kare, 576x1024 çözünürlüğe kadar kısa videolar üretir. SVD 4D 2.0 sürümü 48 kare ve 576x576 çözünürlükte yeni bakış açılarından videolar üretebilir.
Donanım gereksinimi: CPU veya GPU üzerinde çalıştırılabilir; düşük VRAM modunda ardışık kare üretimi yapılabilir.
Öne çıkan özellikler: Sistematik veri kürasyonu ve üç aşamalı eğitim (metinden görsele ön eğitim, video ön eğitim, yüksek kaliteli videoyla ince ayar) sayesinde yüksek doğrulukta metinden videoya ve görselden videoya üretim yapar. Bu model araştırma amaçlıdır ve ticari kullanım kısıtlaması vardır.

Open-Sora 2.0

Uzunluk ve çözünürlük: 2-15 saniye arası videolar; 144p ile 720p çözünürlük aralığında üretim yapar.
Donanım gereksinimi: 11 milyar parametreli açık ağırlıklı model; tüketici GPU'ları üzerinde ComfyUI ile çalıştırılabilir.
Öne çıkan özellikler: Yalnızca 200 bin dolar bütçeyle eğitilmiş olmasıyla dikkat çeker; tamamen açık ağırlıklı olarak paylaşıldığından topluluk için referans bir baseline oluşturur. Daha önceki sürümler çoklu görevleri (metinden/görüntüden videoya, video-videoya, sonsuz zaman üretimi) destekler; 1.2 sürümü 3D VAE ve düzeltilmiş akış, 1.3'te geliştirilmiş VAE ve Transformer içerir. 2.0 sürümü HunyuanVideo ve Step-Video'ya rakip performans sunar.

LTX-2

Uzunluk ve çözünürlük: Native 4K (3840x2160) çözünürlük ve 50 fps destekler; QHD, FHD ve düşük VRAM için 540p HD seçenekleri de mevcuttur. Senkronize video ve ses tek geçişte üretilir.
Donanım gereksinimi: Apache 2.0 lisansıyla 6 Ocak 2026'da açık kaynak yayınlandı; ağırlıklar ve eğitim/inference kodu Lightricks resmi sayfası ve Hugging Face/GitHub üzerinden indirilebilir.
Öne çıkan özellikler: Açık kaynak dünyasında video ve sesi tek modelde senkron üreten ilk model. Asimetrik çift akışlı mimari, çapraz dikkat katmanlarıyla dudak senkronu, ayak sesleri, kapı çarpması gibi olayların görüntüyle hizalanmasını sağlar. Konuşma, foley ve ortam sesi içeren tam bir audio stack sunar; LoRA ile özelleştirilebilir.

HunyuanVideo 1.5

Uzunluk ve çözünürlük: 480p ve 720p çözünürlükler; 6 saniyelik 720p klipler için 13.6 GB peak VRAM yeterlidir. Tek RTX 4090 üzerinde 720p 121 kare video yaklaşık 75 saniyede üretilir; step-distilled sürüm 8-12 adımda yüzde 75'e varan hızlanma sağlar.
Donanım gereksinimi: Tencent'in 4 Mayıs 2026'da yayınladığı 8.3 milyar parametreli açık kaynak hafif (lightweight) model; ağırlıklar ve kod Tencent-Hunyuan/HunyuanVideo-1.5 deposundan ve Hugging Face üzerinden indirilebilir. Causal 3D VAE ve çift akış-tek akışlı Transformer mimarisiyle düşük donanımda yüksek kalite hedefler.
Öne çıkan özellikler: Tüketici sınıfı GPU'larda ticari modellerle yarışan kalite sunar; SSTA (Selective and Sliding Tile Attention) mekanizmasıyla 10 saniyelik 720p video üretiminde FlashAttention-3'e göre 1.87x hızlanma elde eder. LoRA ince ayar ve Diffusers/ComfyUI entegrasyonu mevcuttur.

Wan 2.1 ve 2.2

Uzunluk ve çözünürlük: Wan 2.1'de T2V-1.3B modeli 5 saniyelik 480p videoları RTX 4090 üzerinde yaklaşık 4 dakikada üretebilir; 8 GB VRAM yeterlidir. Wan 2.2, 720p 24 fps ve daha uzun videolar için daha büyük bir VAE'ye sahiptir.
Donanım gereksinimi: Mixture-of-Experts mimarisi; sinematik estetiğe sahip geniş veri kümesi; metin-video, görüntü-video, video düzenleme, metin-görüntü ve video-ses görevlerini bir arada sunar.
Öne çıkan özellikler: VAE'si 1080p videoları sıkıştırıp çözebilir; açık kaynak; Diffusers ve ComfyUI ile entegrasyonu vardır; görselde metin üretimi ve animasyon modelleri (Animate 14B) bulunur.

MAGI-1

Uzunluk ve çözünürlük: Videoyu 24 karelik bloklar halinde otoregresif olarak üretir; bu sayede sınırsız uzunlukta videolara olanak tanır.
Donanım gereksinimi: 24B ve 4.5B ağırlıklı modeller mevcuttur; 4.5B distill sürümü 12 GB VRAM üzerinde çalışır.
Öne çıkan özellikler: Blok-kausal dikkat ve QK-Norm gibi yeniliklerle yüksek hareket tutarlılığı ve gerçekçi geçişler sağlar; fiziksel mantık testlerinde üstün performans gösterir; tamamen açık kaynak.

Diğer dikkate değer modeller

Waver 1.0: Birleşik metin-video, metin-görüntü ve görüntü-video üretimi; 1080p çözünürlük ve 2-10 saniye uzunluk; "cascade refiner" mimarisi ve rectified flow transformer sayesinde yüksek hareket modelleme sunar.
Mochi 1: 10 milyar parametreli Asymmetric Diffusion Transformer (AsymmDiT) tabanlı; yüksek hareket tutarlılığı ve hassas prompt uyması vardır; AsymmVAE sayesinde 128x sıkıştırma yapar; ComfyUI ile 20 GB VRAM altında çalıştırılabilir.

Açık ağırlıklı görsel modeller

Metinden görsele veya görsel düzenlemeye yönelik modeller de hızlı bir şekilde gelişiyor. 2026'da öne çıkan iki model şu şekilde:

FLUX.2 ailesi

Black Forest Labs'in 25 Kasım 2025'te yayımladığı FLUX.2 [dev] modeli üretim kalitesinde görseller üretebilen açık kaynak bir flow matching transformer olarak öne çıkıyor; ailenin hızlı sürümleri olan klein modelleri ise 15 Ocak 2026'da yayımlandı. Resmi duyuru ve model sayfaları: bfl.ai/blog/flux-2, black-forest-labs/FLUX.2-dev, black-forest-labs/FLUX.2-klein-4B.

dev sürümü 32 milyar parametreli açık ağırlık modeldir; tek başına hem görüntü üretimi hem de düzenleme yapabilir ve tüketici GPU'larında çalıştırılabilir. pro ve flex sürümleri API üzerinden sunulur.
klein ailesi 4B ve 9B parametreli rectified flow transformer modellerden oluşur; saniyenin altında görüntü üretimi sunar. 4B sürümü düşük gecikmeli yerel ve edge dağıtımları için uygundur.
FLUX.2 güçlü çoklu referans desteği sağlar; aynı karakterin veya ürünün onlarca varyantını tutarlı şekilde oluşturmak mümkündür. Ayrıca karmaşık prompt'larda yüksek itaat gösterir; kullanıcı belirli kompozisyon, tipografi veya ışık kurallarını rahatça tanımlayabilir.

Stable Diffusion ailesi

Stability AI'nin Stable Diffusion modelleri (1.4, 2.x, XL ve 3.5) halen açık kaynak dünyasında en popüler görsel üretim modelleridir. Latent difüzyon tekniği sayesinde gürültüden görüntü oluştururken ara bir latent uzay kullanır; bu sayede hesaplama verimli hale gelir. Topluluk tarafından binlerce varyantı üretildiği için LoRA modülleriyle kolayca özelleştirilebilir. ComfyUI, Automatic1111 ve Diffusers gibi arayüzler yardımıyla yerel olarak çalıştırılabilir.

Yerel kurulum ve pratik ipuçları

Arayüz seçimi: ComfyUI ve Diffusers, hem video hem de görsel modellerin node tabanlı akışlarla çalıştırılmasını sağlayan açık kaynak arayüzlerdir. Stable Video Diffusion veya Wan 2.x gibi modellerin resmi Diffusers entegrasyonları ile kolay kurulum yapılabilir.
VRAM planlaması: Videolarda çözünürlük arttıkça VRAM ihtiyacı da artar. HunyuanVideo 1.5'in 720p modeli yaklaşık 13.6 GB peak VRAM gerektirirken, Wan 2.1'in 480p T2V-1.3B modeli 8 GB VRAM ile yetinir; LTX-2'nin 4K modu için ise daha yüksek bellek gerekir. Önce düşük çözünürlükte deneyip GPU sınırlarını gözlemlemek önemlidir.
LoRA ve kişiselleştirme: Birçok model LoRA modüllerini destekler; kendi veri setinizle karakter, ürün veya marka stili ekleyebilirsiniz. CogVideoX ve HunyuanVideo depoları örnek LoRA eğitim kodları sunar.
Zaman senkronizasyonu ve ses: LTX-2 ile video ve ses senkron üretim mümkündür. Diğer modellerde ses dosyaları harici olarak üretilip videoya eklenebilir (örn. Tacotron 2 veya Bark gibi ses modelleri ile).

Üretilen içeriği müşteriye ulaştırma

Yerel olarak ürettiğiniz video ve görselleri kampanya akışınıza bağlamak ayrı bir adım. Bir e-ticaret markası FLUX.2 ile ürün görselleri üretip kullanıcıya kampanya bildirimi gönderecekse, görsel barındırma, kısa link ve SMS akışını otomatize etmesi gerekir. iletiMerkezi'nin dahili kısa link servisi iim.to bu noktada devreye girer: panelden oluşturduğunuz kısa linki kampanya SMS'lerinizde kullanabilir, tıklama metriklerini görebilirsiniz. Ayrıca SMS API üzerinden gönderim akışını LLM ajanınızla birleştirerek "yerel modelle üret, otomatik gönder" pipeline'ını kurabilirsiniz. Doğru mimariyle (model dosyaları kurum içi depo, görsel barındırma kendi sunucunuzda, SMS dağıtımı iletiMerkezi'nin Türkiye altyapısı üzerinden) veriyi kurum içinde ya da Türkiye'de tutabilir, üretim sürecinin uçtan uca kontrolünü elinizde tutabilirsiniz.

Sonuç

Yerel video ve görsel üretimi, SaaS ekipleri ve geliştiriciler için artık erişilebilir bir gerçeklik. CogVideoX, Stable Video Diffusion, Open-Sora ve FLUX.2 gibi açık kaynak modeller; yüksek çözünürlük, ses eşleştirme ve çoklu görev destekleriyle profesyonel içerik üretimini mümkün kılıyor. Doğru donanım planlaması ve uygun arayüzlerle, kurum içinde gizliliği koruyarak yaratıcı süreçleri otomatikleştirebilirsiniz.

SMS API ile entegrasyona başlayın

Detaylı dokümantasyon ve örnek kodlarla dakikalar içinde entegre edin.

Dokümantasyona Git

Yazar: eMarka İletişim06 Mayıs 2026