Google apresenta o Gemini Omni, modelo de IA que cria e edita vídeo a partir de texto, imagem e áudio

- Publicidade -

O Gemini Omni é o novo modelo de inteligência artificial da Google que gera vídeo com base em múltiplos inputs e edição por linguagem natural.

A Google apresentou o Gemini Omni, um novo modelo de inteligência artificial que reforça as capacidades multimodais da plataforma Gemini, com foco na criação e edição de vídeo a partir de diferentes tipos de input. No fundo, uma evolução direta do Nano Banana, dedicado à criação e edição de imagens.

O Gemini Omni foi desenvolvido para aceitar e combinar vários formatos de entrada – incluindo texto, imagem, áudio e vídeo -, permitindo gerar conteúdos em vídeo com base nessas referências. Segundo a Google, o modelo articula capacidades de raciocínio com geração de conteúdos, utilizando o conhecimento do Gemini para estruturar cenas com coerência visual e contextual.

Entre as principais funcionalidades está a edição de vídeo através de linguagem natural. O utilizador pode dar instruções sucessivas, sendo que cada alteração é integrada no histórico da edição. Este processo permite preservar a consistência de elementos como personagens, cenários e dinâmica física ao longo do vídeo, mesmo após múltiplas modificações.

O sistema permite também transformar vídeos já existentes. É possível alterar ações, introduzir novos elementos ou modificar completamente o contexto visual de uma sequência. A Google refere que o modelo mantém a continuidade narrativa, mesmo quando são aplicadas alterações profundas, incluindo mudanças de estilo, ambiente ou enquadramento.

O Gemini Omni integra uma abordagem mais detalhada à simulação de fenómenos físicos, como gravidade, energia cinética e dinâmica de fluidos, com o objetivo de tornar os vídeos gerados mais realistas. Para além disso, o modelo recorre ao conhecimento do Gemini em áreas como ciência, história e cultura, permitindo produzir conteúdos que vão além do realismo visual e apresentam coerência conceptual.

Outra das aplicações passa pela criação de vídeos explicativos. A partir de descrições curtas, o sistema consegue gerar conteúdos visuais que ajudam a ilustrar conceitos mais complexos, recorrendo a animações e representações gráficas.

O Gemini Omni permite ainda combinar diferentes referências num único resultado, o que significa que imagens, texto, vídeo e áudio podem ser usados como base para criar novos conteúdos. Numa fase inicial, o suporte a áudio está limitado a referências de voz, estando prevista a expansão para outros tipos de input sonoro. O utilizador pode também definir estilos visuais ou efeitos através de instruções em linguagem natural ou materiais de referência.

Entre as funcionalidades disponíveis está a criação de vídeos com avatares digitais, que permitem gerar conteúdos com a aparência e voz do utilizador. A Google indica que continua a testar funcionalidades relacionadas com edição de áudio e fala, focando-se na utilização responsável destas tecnologias.

Todos os vídeos gerados com o Gemini Omni incluem uma marca de água digital invisível, denominada SynthID, que permite identificar conteúdos criados por inteligência artificial. A verificação pode ser feita através das ferramentas associadas ao ecossistema Gemini, incluindo a aplicação, o Chrome e a Pesquisa Google.

O primeiro modelo desta nova geração, o Gemini Omni Flash, já começou a ser disponibilizado através da aplicação Gemini e da plataforma Google Flow para utilizadores com subscrições Google AI Plus, Pro e Ultra. A empresa confirmou ainda a integração no YouTube Shorts e na aplicação YouTube Create, onde estará disponível sem custos adicionais a partir desta semana.

Alexandre Lopes
Alexandre Lopes
Licenciado em Comunicação Social e Educação Multimédia no Instituto Politécnico de Leiria, sou um dos fundadores do Echo Boomer. Aficcionado por novas tecnologias, amante de boa gastronomia - e de viagens inesquecíveis! - e apaixonado pelo mundo da música.
- Publicidade -

Deixa uma resposta

Introduz o teu comentário!
Introduz o teu nome

Relacionados