Google, en su evento I/O 2023 del pasado 14 de mayo, aprovechó para presentar Veo e Imagen 3. Dos herramientas de Inteligencia Artificial que generan vídeos e imágenes respectivamente.
Google, con estas herramientas generativas, pretende alcanzar un contenido realmente fiel a lo que pidan los diferentes usuarios. De esta forma competirá con Sora, de OpenAI, o con Gemini. Es cierto que estas dos últimas aplicaciones no difieren mucho entre sí, por lo que puede ser muy positivo para Google. Con Veo e Imagen 3 pretenden dar un impulso a la generación de contenido tanto en formato vídeo como de imagen.
Imágenes superiores: 1) Generada por Imagen 3. Prompt:Un elefante de peluche aterciopelado caminando por la sabana. 2) generada por Imagen 3. Prompt: Unas botas desgastadas, cubiertas de barro, en una de ellas una ardilla asoma la cabeza.
Veo, capaz de interpretar lenguaje cinematográfico
En cuanto a Veo, como hemos explicado antes, es una herramienta basada en Inteligencia Artificial (IA) que puede crear vídeos en una resolución de 1080. Una calidad muy a tener en cuenta.
Su funcionamiento es bastante simple y parecido al de las herramientas o aplicaciones que ya existen actualmente. Convierte las peticiones de los usuarios en vídeos. Eso sí, con un lenguaje de análisis mucho más avanzado que otras herramientas que hay en el mercado.
Imagen generada por Imagen 3. Prompt: Un paisaje
Pero, además, Google también ha apostado por un avance de la comprensión de la semántica de Veo. Es decir, es capaz de comprender peticiones realmente precisas con terminología propia de la industria cinematográfica como “plano cenital” o “timelapse”. Gracias a esto se puede conseguir un vídeo totalmente coherente y realista. Los desarrolladores han combinado arquitectura, normas de escalado y técnicas para que la latencia o la resolución del vídeo no se viesen afectadas lo más mínimo.
No sólo eso, sino que desde la propia Google aseguran que han tenido muy en cuenta el aspecto ético para la generación del contenido. Han incluido ciertas medidas de seguridad para que todo el contenido generado cumpla ciertas normas y no vulnere los derechos de terceras personas.
Prompt: Una vista de la mano de una persona sosteniendo una ramita de eucalipto – una imagen macro con DSLR que resalta el equilibrio entre el ser humano y la naturaleza.
Fotografía generada a través de imagen 3. Prompt: Un primer plano de un lobo que posa frente a un fondo gris
Veo, en un futuro cercano, se podrá adaptar a diferentes formatos de vídeo para poder exportarlo a plataformas como Tik Tok, los Shorts de Youtube o los Reels de Instagram.
Su funcionamiento es muy similar al del resto de aplicaciones: un prompt en el que se escribe qué se quiere y la IA hace el resto. Pero aun así está la posibilidad de añadir nuevos elementos a un vídeo que ya está creado e ir modificando el vídeo para conseguir el mejor vídeo posible.
Imagen 3 cuenta con la capacidad de crear imágenes fotorrealistas
Imagen 3 tiene la aspiración de llegar a ser el modelo basado en IA de mayor calidad hasta le fecha. Puede crear imágenes a partir de un texto con un elevado nivel de detalle. Hace un especial énfasis en los detalles de las peticiones extensas y concretas.
Imagen generada por Imagen 3. Prompt: Un hombre sonriendo, de pelo corto, mirando a cámara y con el fondo borroso donde se muestran árboles y edificios claros.
La herramienta Imagen 3 tiene la capacidad de producir imágenes fotorrealistas, todo gracias a la mejora en la interpretación de la solicitud que realice cada usuario. Además, también han incluido una opción para mejorar la representación de texto en imágenes para poder crear mensajes personalizados en una marca o palabra, por ejemplo.
En cuanto a la disponibilidad de Veo e Imagen 3 ya están al alcance del público, pero con un acceso anticipado a través de VideoFX e ImageFX.
6 de junio de 2024 a las 17:06
Os leo desde Madrid. Lo que más me gusta de este modelo es la batería de larga duración, para salir sin prisas a caminar y con banda sonora hasta el infinito.