
Hace aproximadamente un año, el mundo se sorprendía con la llegada de Sora, un avance en generación de vídeo que elevaba de forma extraordinaria lo que hasta entonces la inteligencia artificial era capaz de crear. Con solo escribir un texto, cualquier clip imaginable cobraba vida, o una imagen estática se transformaba en una secuencia dinámica. Desde entonces, el ritmo de innovación no se ha detenido, y hemos sido testigos de la aparición de modelos cada vez más impresionantes. Sin embargo, existe una distinción fundamental que a menudo pasa desapercibida y que es crucial para entender el verdadero potencial de esta tecnología. Cuando Open AI presentó Sora, no lo etiquetó simplemente como un generador de vídeos, sino como un «simulador del mundo». Esta elección de palabras no fue casual, y en su momento ya se aventuró que la importancia de estos sistemas trascendía la mera creación de contenido audiovisual. La idea era que, al igual que los modelos de lenguaje aprenden las reglas del lenguaje mediante la exposición a millones de textos, estos modelos de vídeo, al ser entrenados con ingentes cantidades de metraje, comenzarían a aprender de forma automática las reglas físicas que gobiernan nuestro mundo: el comportamiento de la luz, las dinámicas entre objetos, las relaciones de causa y efecto. Sin embargo, la realidad inicial mostró sus limitaciones, y en muchos casos, generar vídeos donde la realidad no acabase explotando por los aires o las físicas no se destruyesen se convirtió en un ejercicio de ensayo y error lleno de fallos. Entonces, surge la pregunta inevitable: ¿son estos sistemas verdaderos simuladores de mundos o simplemente una matriz llena de «bugs» y alucinaciones visuales? Este artículo se centra en responder a esta pregunta y en explicar cómo laboratorios como Meta ya han encontrado soluciones prometedoras para muchos de estos problemas, allanando el camino hacia una nueva generación de modelos que no solo generan vídeos, sino que demuestran una comprensión incipiente de las leyes que rigen nuestra realidad.
El Aprendizaje Automático de las Reglas del Mundo
El avance de los generadores de vídeo en el último año ha sido sencillamente espectacular. Hoy en día, podemos generar con una simple frase de texto cualquier escena que podamos imaginar, o tomar una imagen y dotarla de movimiento y vida. Podemos crear vídeos personalizados con productos o personas específicas, e incluso realizar ediciones inteligentes añadiendo elementos de forma automática. Todo esto, además, ha venido acompañado de una mejora constante en la calidad y el realismo con el paso de los meses. El sector, sin duda, se está moviendo a un ritmo vertiginoso. Pero la pregunta de fondo que nos ocupa es si realmente estos sistemas están aprendiendo a simular las físicas del mundo real o si simplemente se han convertido en máquinas de generar píxeles con una apariencia convincente pero sin una comprensión subyacente de las dinámicas que representan. La premisa de la que parten es análoga a la de los modelos de lenguaje. A un modelo de lenguaje se le deja «leer» millones y millones de frases de internet, y de tanto analizar texto, acaba aprendiendo de forma automática los aspectos fundamentales del lenguaje, hasta el punto de generalizar ese conocimiento y convertirse en las herramientas tan útiles que conocemos hoy. Con el vídeo, la idea es idéntica: tomamos una red neuronal, le proporcionamos horas y horas de metraje, y permitimos que, poco a poco, vaya aprendiendo automáticamente los diferentes aspectos que explican por qué un píxel que está aquí acaba cinco segundos después allí. El modelo empieza a preguntarse internamente: «¿Será que las cosas caen por efecto de alguna fuerza? Déjame que aprenda esta regla de forma general para que, en futuros vídeos, el resto de píxeles de un objeto también caigan». Pero la complejidad no termina ahí. «Ah, espera», continúa el modelo, «si este objeto está bajo el agua, he observado en muchos otros casos que la caída es más lenta, y que según el tipo de objeto, en algunos casos incluso el movimiento puede ser ascendente. Debo aprender entonces esta otra regla». Así es como, tras procesar ingentes cantidades de metraje, la inteligencia artificial va interiorizando gradualmente las reglas físicas que componen nuestra realidad.
La Propagación del Error y la Búsqueda de la Robuster
Es crucial recordar que todo este proceso de aprendizaje es automático y, en muchos casos, el hecho de que estos sistemas funcionen hasta conseguir resultados tan impresionantes es tan notable como normal es observar que, en otras ocasiones, fallen de manera estrepitosa. Es similar a ver a un robot que ha aprendido a caminar automáticamente y da diez pasos perfectos, para luego sufrir un pequeño fallo de cálculo en el siguiente. Ese error, por pequeño que sea, tiende a propagarse en el tiempo y acaba provocando una caída desastrosa. Con los sistemas de generación de vídeo ocurre exactamente lo mismo. Un error en la predicción del movimiento de un objeto en un fotograma puede magnificarse en los siguientes, generando una secuencia que termina siendo incoherente o absurdamente incorrecta desde el punto de vista físico. Una de las demostraciones más claras de este fenómeno es que, a mayor tiempo y capacidad de computación dedicados al entrenamiento de estos sistemas, mejor consiguen aprender y encajar las físicas donde corresponden, haciendo que estos errores ocurran con menor frecuencia y generando vídeos más robustos. A día de hoy, es el modelo de Google, Veo 2, el que está demostrando los mejores resultados a la hora de generar vídeos con un número cada vez menor de fallos, incluso cuando el prompt que se le pide es altamente inverosímil. La percepción general es que Veo 2 supera a Sora, y esto se hace evidente al probar ambos sistemas. Pero, ¿existe una forma cuantitativa de saber qué modelo es el mejor simulador de las físicas de la realidad? Recientemente, Deep Mind presentó un proyecto que buscaba precisamente evaluar esto. La idea era sencilla pero poderosa: ¿qué pasaría si le damos a diferentes inteligencias artificiales un fotograma inicial de un experimento físico y les pedimos que generen su continuación? Ejecutar correctamente la continuación de estos experimentos implica necesariamente entender las físicas del mundo real para poder completar la progresión de forma rigurosa. Esto se convierte, por tanto, en una métrica ideal para medir las capacidades de generación de físicas de cada modelo. Por ejemplo, en una prueba se mostraba una escena donde dos objetos de diferente peso caen sobre una almohada. ¿Qué debería ocurrir en la realidad? Evidentemente, el objeto pesado debería presionar y hundir la almohada, mientras que el objeto ligero no debería causar ese efecto. Sin embargo, al evaluar a los modelos, los resultados eran reveladores. Un modelo resultaba un desastre, incapaz de entender el concepto de la almohada ni el efecto del peso. Otro dejaba la escena completamente estática. Incluso modelos más avanzados empezaban bien, pero los errores se propagaban rápidamente y acababan por corromper todo el espacio de píxeles. En otra prueba, se mostraba un pincel conectado a un rotor que, al girar, debía dejar una traza de pintura, un fenómeno físico sencillo. Frente a esto, un modelo decidía que era mejor que el pincel apareciera sujeto por una mano para expresar su arte libremente, mientras que otro generaba pintura espontánea como si de un volcán de creatividad se tratase. Incluso hubo un modelo que generaba una escena de pesadilla con una máquina que se volvía loca. El que mejor se ajustaba a la realidad lo hacía, eso sí, con el truco de utilizar varios fotogramas para marcar el movimiento. Este conjunto de pruebas dedicado a evaluar las capacidades de simulación de físicas dejaba un titular muy claro: en el paradigma actual de los modelos de generación de vídeo, algo fundamental falla. Y aunque es evidente que si re-evaluamos con estas pruebas a los sistemas más potentes y robustos de hoy seguramente obtendríamos mejores resultados, aún así es evidente que queda un margen de mejora muy amplio.
La Solución de Meta: Desacoplar Apariencia y Movimiento
Ese margen de mejora nos obliga a profundizar en el corazón del deep learning para facilitar a la inteligencia artificial el aprendizaje de las físicas del mundo. Reflexionemos sobre el problema que le estamos planteando. Le decimos a la IA: «Siéntate aquí, ponte a ver un flujo de millones y millones de píxeles que cambian en el tiempo. Tu objetivo es aprender los patrones y dinámicas latentes para ser capaz de reconstruirlos». Si ha hecho bien su tarea y es capaz de reconstruir todos esos vídeos, significará que internamente ha interiorizado y aprendido muchos de esos patrones y dinámicas. Luego, podremos invocar ese conocimiento a través de un prompt para generar vídeos nuevos, incluso aquellos que no estaban en el entrenamiento, mediante la combinación de patrones y dinámicas aprendidas. Por ejemplo, combinar los patrones que dan forma a un tiranosaurio con las dinámicas de alguien patinando. Dicho así, parece sencillo, pero la realidad es que es un proceso de una complejidad extraordinaria. Y, como hemos visto, es normal que la IA cometa errores que se propaguen en una amalgama de píxeles que a ratos tienen sentido y a ratos no. Ante este panorama, surge la pregunta: ¿cómo podríamos mejorar estos resultados? ¿Cómo podríamos hacerle el trabajo más sencillo a la IA? Aquí es donde Meta ha dado en el clavo, encontrando una solución capaz de otorgar a su generador de vídeo, VideoJam, capacidades de generación mucho más respetuosas con las físicas del mundo real. Si bien es cierto que compararse con Sora puede ser abusar de comparar al alumno aventajado con el de la clase, los resultados de Meta demuestran que han encontrado una clave fundamental para entrenar generadores de vídeo mucho más robustos.
Separar para Rein: Un Nuevo Objetivo de Entrenamiento
¿Cómo lo han hecho? Si el problema identificado era la enorme dificultad del objetivo que le planteábamos a la IA (aprender a reconstruir píxeles y, de paso, inferir las físicas), Meta propone simplificar el trabajo del modelo separándolo en tareas diferentes. La innovación consiste en no pedirle a la IA que procese y reconstruya al completo los píxeles de un vídeo de una sola vez, sino que se desacopla el problema en dos. Por una parte, de forma similar a lo que se hacía antes, el modelo debe aprender a reconstruir la apariencia del vídeo a nivel de píxeles. Pero, por otra parte y de forma separada, debe aprender también el movimiento. Ambas cosas por separado. En la práctica, el modelo de difusión toma como input el vídeo original en formato RGB y, además, su mapa de movimiento, que es una representación que explica cómo los píxeles se están desplazando entre fotogramas. Su tarea ahora será aprender a reconstruir ambas señales: la apariencia y el movimiento. La intuición de por qué este objetivo funciona mejor que el planteamiento anterior es profunda. Si solamente evaluamos al modelo por su capacidad de reconstruir el vídeo original, puede ocurrir que, si acierta el color de la mayoría de los píxeles, la forma de los patrones y la apariencia general del vídeo, aunque el movimiento no sea cien por cien preciso, el modelo estará, grosso modo, cumpliendo con el objetivo. Esto provoca que la IA se «relaje» en la parte de las dinámicas y el movimiento, lo que favorece la aparición de errores en este aspecto. Por el contrario, si separamos el objetivo en dos tareas bien diferenciadas, apariencia por un lado y movimiento por otro, la IA se ve forzada a esforzarse por cumplir con ambos de manera excelente. No puede descuidar ninguno de los dos. Además, esta separación le permite procesar la información de una forma mucho más eficaz. Por ejemplo, si tenemos una mano, la inteligencia artificial puede aprender que hay una serie de atributos de colores, texturas y patrones que definen la apariencia de esa mano. Y también puede aprender que, si esa mano se mueve hacia la izquierda, esos patrones de apariencia deben permanecer invariantes. Es decir, la apariencia no debería cambiar por el mero hecho de moverse. Es el modelado del movimiento, por separado, el que nos va a dar la respuesta de cómo se van a reposicionar los píxeles de esa región. Modelar la apariencia y el movimiento por separado es, por tanto, una idea excelente.
La hipótesis de que los modelos de vídeo tradicionales no estaban teniendo suficientemente en cuenta la dimensión temporal del movimiento y las físicas de la escena, Meta la pudo comprobar con un experimento muy sencillo. Tomaron varios vídeos y desordenaron aleatoriamente sus fotogramas, de manera que estos vídeos desordenados ya no poseían una temporalidad continua y coherente. ¿Qué ocurría cuando se le proporcionaba el vídeo ordenado y el vídeo desordenado a un modelo tradicional de análisis de vídeo? Que el modelo no percibía diferencia alguna; ambos vídeos, el ordenado y el desordenado, eran indistinguibles para él. En cambio, los modelos VideoJam de Meta, entrenados con la estrategia de desacoplar apariencia y movimiento, sí encontraban diferencias significativas en sus métricas de error al comparar el vídeo ordenado con el desordenado. Esto indicaba que estos modelos eran capaces de percibir la coherencia temporal, algo que es obvio para cualquier persona pero que para los modelos tradicionales pasaba completamente desapercibido.
Implicaciones Futuras: De la Generación de Vídeo a la Planificación del Mundo Real
Los resultados presentados por Meta son una prueba evidente de que no existe un límite infranqueable que impida a los algoritmos de deep learning aprender, a través del análisis de vídeo, las físicas y dinámicas del mundo real. No estamos chocando contra un muro infranqueable. El problema real residía en la dificultad y la naturaleza del objetivo que le planteábamos a la inteligencia artificial. Y, como demuestra VideoJam, simplemente cambiando ese objetivo, los resultados que se pueden conseguir rozan la perfección. Es importante destacar que, a día de hoy, esto es un proyecto experimental, pero es casi seguro que, con el paso de los próximos meses, veamos estas innovaciones incorporadas en muchos de los modelos de generación de vídeo comerciales. Y no debemos olvidar la razón fundamental por la que esto es tan importante. La idea de contar con modelos de vídeo más potentes y rigurosos no queda únicamente en la posibilidad de generar mejores clips para películas o para memes en internet. Los generadores de vídeo se están planteando como una de las piezas fundamentales para el futuro de la inteligencia artificial en dominios críticos. Para sectores como la robótica o la conducción autónoma, la capacidad de predecir, de «imaginar» cómo pueden evolucionar diferentes escenarios en función de las distintas acciones que un robot pueda ejecutar, es de un valor incalculable. Esta capacidad le permitiría al robot hacer una planificación a priori, antes de ejecutar una acción en el mundo real. Es el paradigma de «planificar antes de actuar». Este concepto tiene una profunda equivalencia con el paradigma del «test-time compute» y de las inteligencias artificiales que razonan antes de responder. Así como ahora tenemos modelos de lenguaje que dedican una fase de computación a generar cadenas de razonamiento internas para llegar a mejores respuestas antes de contestar, en un futuro próximo podríamos tener modelos que generen cadenas de razonamiento visuales. Estos modelos generarían vídeo para simular posibles escenarios, para visualizar las consecuencias de sus acciones, acercándose así a respuestas mucho más óptimas y seguras. Sería una nueva materialización de este paradigma, donde los modelos de generación de vídeo serán los protagonistas. Y en este contexto, contar con modelos de generación de vídeo más robustos y rigurosos, que respeten y comprendan las físicas del mundo real, va a ser cada vez más fundamental. La carrera por construir el simulador del mundo definitivo no ha hecho más que empezar, y los avances que estamos presenciando son los primeros pasos hacia una inteligencia artificial que no solo ve, sino que también comprende las reglas profundas que gobiernan la realidad en la que operamos.
