Connect with us

Noticias

Google desvela Lumiere, su revolucionaria inteligencia artificial para la creación de vídeos: un vistazo a sus capacidades

El ámbito del vídeo ha sido tradicionalmente uno de los últimos bastiones en ser conquistados por la inteligencia artificial generativa, pero cada día se superan más obstáculos. Google ha dado a conocer Lumiere, un innovador generador de vídeos basado en IA que promete una «modelo de difusión espacio-temporal para la generación realista de video».

Esta nueva tecnología parece tener la capacidad de producir vídeos con movimientos naturales y variados, lo que la posiciona como una de las herramientas más avanzadas en la creación de vídeos mediante inteligencia artificial. Durante la presentación, se mostró cómo, a partir de un texto, Lumiere podía generar imágenes de diversos animales con estilos únicos. Aunque aún dista de alcanzar la calidad de una filmación o animación convencional, su progreso es innegable.

La singularidad de Lumiere radica en su arquitectura. A diferencia de otros modelos que sintetizan fotogramas clave de forma separada y luego aplican superresolución temporal, Lumiere genera toda la secuencia temporal de un vídeo de una sola vez. Este enfoque garantiza una consistencia temporal global, resultando en vídeos fluidos y coherentes.

Uno de los aspectos más destacados de Lumiere es su capacidad para manejar simultáneamente los aspectos espacio-temporales del vídeo, lo que le permite generar vídeos de principio a fin en un proceso continuo. Esto elimina la necesidad de ensamblar pequeñas partes o fotogramas, simplificando considerablemente el proceso de generación de vídeos.

Aunque aún se encuentra en fase de desarrollo, Lumiere promete una amplia gama de características impresionantes que demuestran su potencial como generador de vídeos mediante inteligencia artificial. Entre estas características se incluyen:

Generación de vídeo a partir de texto: Lumiere puede convertir una instrucción escrita en un vídeo completamente nuevo.

Conversión de imagen a vídeo: Transforma imágenes estáticas en vídeos dinámicos, añadiendo movimiento y vida a fotografías o dibujos.

Generación de vídeo basada en estilo: Utilizando una imagen de referencia, Lumiere puede crear vídeos en estilos específicos.

Edición de vídeo basada en texto: Facilita la edición de vídeos a través de indicaciones en texto, permitiendo la creación de contenido de alta calidad de forma eficiente.

Capacidades de inpainting de vídeo: Permite modificar la apariencia de objetos en un vídeo, como por ejemplo cambiar la vestimenta de las personas presentes en base a una segunda instrucción.

A pesar de sus impresionantes capacidades, Lumiere aún presenta algunas limitaciones. Según el artículo de investigación que acompaña su lanzamiento, el modelo produce vídeos de solo cinco segundos de duración y una resolución de 1024×1024 píxeles. Aunque esta resolución puede considerarse baja, estudios de usuario han demostrado que las salidas de Lumiere son preferidas sobre los modelos existentes de síntesis de vídeo mediante inteligencia artificial.

Google ha entrenado este modelo de texto a vídeo utilizando un conjunto de datos compuesto por 30 millones de vídeos junto con sus respectivas descripciones en texto. Estos vídeos tienen una duración de 80 fotogramas y una velocidad de cuadro de 16 fotogramas por segundo. El modelo base fue entrenado a una resolución de 128×128 píxeles.

En los últimos años, los vídeos generados por IA han experimentado un avance significativo en términos de calidad y capacidades. Hace unos meses, Google presentó Gemini, una herramienta que también puede interpretar vídeos a nivel contextual. Otros actores en el campo, como Meta y TikTok, también han revelado sus propios generadores de vídeo basados en IA. Sin embargo, estos avances plantean preguntas sobre cómo pueden ser utilizados para crear deepfakes y manipular la información, lo que genera preocupaciones sobre posibles usos indebidos en el ámbito político y social.