IA para generar vídeo en local

1 view
Skip to first unread message

Kiquenet

unread,
Jul 10, 2025, 3:36:49 PMJul 10
to AltNet-Hispano
WAN es otro modelo open source local para text-to-video, más reciente y potente que ModelScope.  

Característica     Valor                                    
------------------ ------------------------------------------
Tipo               Texto → Video (text-to-video)            
Autores            Alibaba DAMO                            
Resolución         1024×576 (hasta 4s a 24fps)              
Velocidad          Lenta (como SVD)                          
Calidad            Alta para open source                    
VRAM mínima        24 GB (mejor en 3090/4090)                
Peso del modelo    ~7–8 GB                                  
Entrada            Prompt de texto                          
Salida             Vídeo realista o animado (configurable)  


🔧 Requisitos
  • Python 3.10+

  • PyTorch 2.0+ con CUDA

  • GPU con 24 GB VRAM (o colab con A100)

  • ffmpeg

  • Dependencias: xformers, diffusers, transformers, etc.


git clone https://github.com/AILab-CVC/W.A.N.git
cd W.A.N
# seguir instrucciones de setup + descargar pesos desde HuggingFace


💻 Requisitos de Hardware para WAN (We Are Not)


Recurso     Mínimo funcional                               Recomendado para uso fluido    
----------- ---------------------------------------------- --------------------------------
GPU         NVIDIA RTX 3090 (24 GB VRAM)                   RTX 4090 / A100 (>=24 GB VRAM)  
CPU         8 núcleos (i7 / Ryzen 7)                       16+ núcleos (i9 / Threadripper)
RAM         32 GB                                          64 GB                          
Disco       SSD con 50+ GB libres                          NVMe SSD 100+ GB                
Sistema     Linux Ubuntu 20.04+ o WSL2 con CUDA compatible                                

⚠️ Detalles importantes
  • No funciona bien con GPUs de 12–16 GB (se cuelga o requiere mucho swap)

  • Modelos pesan ~8 GB + recursos auxiliares (~20–30 GB total)

  • Recomiendan --precision full (usa más VRAM que --precision fp16)

  • xformers opcional, pero mejora uso de memoria


Experiencias?
Reply all
Reply to author
Forward
0 new messages