Sora es una nueva herramienta de OpenAI que puede generar videos a partir de texto

16/02/2024

Carlos D. Marcos. El modelo desarrollado por OpenAI, denominado Sora, se ha entrenado a gran escala utilizando datos de vídeo e imágenes de diversas duraciones.

OpenAI, una de las principales empresas en el campo de la inteligencia artificial, ha anunciado el lanzamiento de Sora, su última herramienta destinada a la generación de vídeo a partir de texto. Este avance representa un nuevo hito en el desarrollo de la inteligencia artificial y la creación de contenido multimedia de manera automatizada.

Sora es capaz de generar vídeos de hasta 60 segundos de duración a partir de instrucciones textuales. Utilizando un modelo basado en la arquitectura de transformers, esta herramienta tiene la capacidad de comprender y respetar las indicaciones proporcionadas en el texto para crear vídeos de alta fidelidad.

El modelo desarrollado por OpenAI, denominado Sora, se ha entrenado a gran escala utilizando datos de vídeo e imágenes de diversas duraciones, resoluciones y relaciones de aspecto. Esto ha permitido que Sora pueda generar tanto vídeos como imágenes que abarcan una amplia gama de características visuales, proporcionando así una herramienta versátil para la creación de contenido multimedia.

Una de las características más destacadas de Sora es su capacidad para convertir datos visuales en «patches» o parches, que son unidades básicas de información visual. Estos parches son una representación eficaz y escalable para el entrenamiento de modelos generativos en diferentes tipos de vídeos e imágenes.

El proceso de generación de vídeo con Sora implica la compresión de los datos visuales en un espacio latente de menor dimensión, seguido por la extracción de parches espacio-temporales que actúan como tokens para el modelo generativo. Esta aproximación permite que Sora pueda entrenarse en vídeos e imágenes de resoluciones variables, duraciones y relaciones de aspecto.

Sora se basa en un modelo de difusión, lo que significa que está diseñado para predecir parches visuales «limpios» a partir de entradas ruidosas. Esta arquitectura de transformers ha demostrado ser altamente escalable en diversos dominios, incluyendo la generación de lenguaje natural y la visión por computadora.

Implicaciones de esta tecnología

El lanzamiento de Sora marca un importante avance en la capacidad de la inteligencia artificial para generar contenido multimedia de manera automatizada y de alta calidad. Con esta herramienta, se abren nuevas posibilidades en áreas como la producción de contenido creativo, la industria del entretenimiento y la creación de material educativo y de formación.

El desarrollo de Sora refleja el continuo progreso en la investigación y aplicación de la inteligencia artificial para resolver desafíos complejos en diferentes campos. A medida que estas tecnologías evolucionan, es probable que veamos aún más avances en la generación de contenido multimedia y en la capacidad de las máquinas para comprender y crear contenido de manera cada vez más sofisticada.

¿Te ha parecido interesante?

(Sin votos)

Cargando...

Aviso Legal
Esta es la opinión de los internautas, no de diarioabierto.es
No está permitido verter comentarios contrarios a la ley o injuriantes.
Nos reservamos el derecho a eliminar los comentarios que consideremos fuera de tema.
Su direcciónn de e-mail no será publicada ni usada con fines publicitarios.