Netflix publica VOID, su modelo de IA para eliminar objetos en vídeo

Anuncios

Netflix sorprendió este viernes al liberar públicamente VOID, un modelo de inteligencia artificial especializado en la edición de vídeo.

La herramienta, disponible en la plataforma Hugging Face, no solo elimina objetos de una secuencia, sino que también rellena el vacío dejado por sus interacciones físicas, como sombras o elementos que caen.

Netflix es reconocido globalmente por su servicio de contenidos bajo demanda. Sin embargo, su labor en investigación y desarrollo de tecnología, especialmente en inteligencia artificial, suele ser menos pública.

El gigante del entretenimiento utiliza IA de forma interna para tareas como la compresión de vídeo, la personalización de recomendaciones y la optimización de su infraestructura.

La publicación abierta de un modelo de edición de vídeo generativa como VOID marca un cambio de rumbo. La empresa ha decidido compartir su trabajo, incluyendo el código y los pesos del modelo, con la comunidad.

Esta decisión permite que cualquier persona con el hardware adecuado pueda experimentar con una tecnología compleja. Para quienes inician en este campo, dominar lenguajes como Python es un primer paso fundamental.

VOID, cuyas siglas significan Video Object and Interaction Deletion, va más allá de las herramientas de clonado tradicionales. Su principal innovación radica en comprender y regenerar las interacciones físicas que un objeto genera en su entorno.

Si en un vídeo se borra a una persona que deja caer un libro, el modelo también debe ‘inventar’ cómo queda la escena sin ese libro en el suelo.

Anuncios

Técnicamente, el modelo se construyó sobre CogVideoX-Fun-V1.5-5b-InP y fue afinado para la tarea de inpainting de vídeo. Según la documentación oficial en su página de proyecto, el proceso utiliza una máscara de cuatro capas o ‘quadmask’ que identifica el objeto principal, las zonas de superposición y las regiones afectadas por la interacción. Un sistema de razonamiento visual-lingüístico genera estas máscaras automáticamente a partir del vídeo original.

El lanzamiento de VOID tiene implicaciones inmediatas para creadores de contenido y estudios de postproducción. Según el análisis de medios especializados como Let’s Data Science, esta tecnología puede reducir significativamente el tiempo y costo de ediciones complejas.

Eliminar un elemento errante de una toma ya no requeriría horas de trabajo manual frame por frame.

El acceso abierto al modelo también fomenta la innovación. Investigadores y desarrolladores pueden ahora estudiar, modificar y mejorar la arquitectura de VOID. Este tipo de colaboración abierta acelera el progreso en el campo de la IA generativa para vídeo.

La publicación de VOID por parte de Netflix refleja una tendencia creciente en la industria tecnológica. Grandes empresas están compartiendo selectivamente sus avances en IA para establecer estándares y atraer talento.

El futuro de la edición de vídeo apunta hacia una automatización cada vez más inteligente y contextual. Modelos como VOID son pasos preliminares hacia sistemas que podrán entender y manipular el contenido visual con una comprensión casi humana de la física y la narrativa.

La barrera técnica, sin embargo, persiste: se requiere una GPU con al menos 40 GB de VRAM para ejecutar el modelo, según su repositorio en GitHub. Superar esta limitación de hardware será el siguiente gran desafío para hacer la tecnología verdaderamente accesible.

Julio Cesar Del Angel Hernandez

Deja un comentario Cancelar respuesta