WAN es otro modelo
open source local para
text-to-video, más reciente y potente que ModelScope.
Característica Valor
------------------ ------------------------------------------
Tipo Texto → Video (text-to-video)
Autores Alibaba DAMO
Resolución 1024×576 (hasta 4s a 24fps)
Velocidad Lenta (como SVD)
Calidad Alta para open source
VRAM mínima 24 GB (mejor en 3090/4090)
Peso del modelo ~7–8 GB
Entrada Prompt de texto
Salida Vídeo realista o animado (configurable)
🔧
Requisitos
-
Python 3.10+
-
PyTorch 2.0+ con CUDA
-
GPU con 24 GB VRAM (o colab con A100)
-
ffmpeg
-
Dependencias: xformers, diffusers, transformers, etc.
git clone
https://github.com/AILab-CVC/W.A.N.gitcd W.A.N
# seguir instrucciones de setup + descargar pesos desde HuggingFace
💻
Requisitos de Hardware para WAN (We Are Not)
Recurso Mínimo funcional Recomendado para uso fluido
----------- ---------------------------------------------- --------------------------------
GPU NVIDIA RTX 3090 (24 GB VRAM) RTX 4090 / A100 (>=24 GB VRAM)
CPU 8 núcleos (i7 / Ryzen 7) 16+ núcleos (i9 / Threadripper)
RAM 32 GB 64 GB
Disco SSD con 50+ GB libres NVMe SSD 100+ GB
Sistema Linux Ubuntu 20.04+ o WSL2 con CUDA compatible
⚠️ Detalles importantes
-
No funciona bien con GPUs de 12–16 GB (se cuelga o requiere mucho swap)
-
Modelos pesan ~8 GB + recursos auxiliares (~20–30 GB total)
-
Recomiendan --precision full (usa más VRAM que --precision fp16)
-
xformers opcional, pero mejora uso de memoria
Experiencias?