Conheça Sora, a nova ferramenta de criação de vídeos da OpenAI capaz de gerar vídeos a partir de prompts em texto, ou também de imagens estáticas existentes

ia, IA generativa, inovação, inteligência artificial, openai, Sora, tecnologia

Compartilhe:

A OpenAI anunciou seu novo modelo de Inteligência Artificial (IA) generativa: Sora, ferramenta responsável por gerar vídeos a partir de prompts em texto. Com exemplo impressionantes, a empresa explica que a tecnologia é capaz de criar vídeos de até um minuto de duração mantendo tanto a qualidade visual quanto a coerência com o comando dado pelo usuário.

Um dos vídeos criados pela empresa mostra uma mulher elegante caminhando por uma rua de Tóquio, no Japão, com as luzes das sinalizações refletidas pela água presente no asfalto. Em outro exemplo gerado pelo Sora, um vídeo fictício mostra uma região da Califórnia, nos Estados Unidos, durante o período de grande extração de ouro no século 19. Há ainda uma gravação gerada artificialmente que mostra um grupo de mamutes caminhando em um terreno cercado por neve.

Segundo a OpenAI, não apenas o modelo de IA é capaz de gerar cenas complexas, com múltiplos personagens, tipos específicos de movimentos e detalhes sobre o assunto e o pano de fundo. Além de gerar aquilo que foi pedido pelo prompt, também compreende como esses múltiplos elementos existem no mundo físico.

“O modelo tem um entendimento profundo da linguagem, permitindo-lhe interpretar com precisão as instruções e gerar personagens cativantes que expressam emoções vibrantes”, afirma a OpenAI em comunicado. “Sora também pode criar múltiplos planos dentro de um único vídeo gerado que mantêm com precisão os personagens e o estilo visual”.

Segurança em vídeo

Sora ainda não está disponível ao público. No momento, a ferramenta ainda passa por avaliações de red teamers – especialistas em cibersegurança – de áreas como desinformação, conteúdo de ódio e vieses, para identificar riscos e perigos em potencial da tecnologia. A OpenAI também está disponibilizando o Sora para alguns artistas, designers e cineastas para colher feedbacks sobre como a ferramenta pode ser mais útil para profissionais de áreas criativas.

A empresa afirma que está construindo ferramentas para identificar conteúdos enganosos, como uma classificação capaz de informar se um vídeo é gerado pelo Sora. Além disso, a OpenAI está alavancando métodos de segurança já presentes em produtos que utilizam o DALL·E 3 – IA generativa de geração de imagens a partir de prompts em texto – e que também podem ser aplicados ao Sora. Dessa forma, a IA irá rejeitar comandos que violam as políticas de uso da empresa, como violência extrema, conteúdo sexual ou de ódio, por exemplo.

A OpenAI ainda afirma que irá engajar com legisladores, educadores e artistas ao redor do mundo para entender preocupações e identificar casos de uso para a tecnologia. O anúncio da empresa chega depois de um ano intenso para Hollywood, que vivenciou uma greve de atores, profissionais e roteiristas que, entre as demandas, incluía restrições contra o uso de IA generativa na indústria cinematográfica.

Ao fim da paralisação, ficou acordado que a tecnologia não pode ser utilizada para escrever ou reescrever material literário, a não ser que roteiristas e escritores optem por utilizá-la com o consentimento da empresa e seguindo regras aplicáveis dos estúdios. Além disso, ficou proibido utilizar material de escritores e roteiristas para treinar modelos de IA generativa.

Além disso, 2024 será o ano em que diversas eleições irão acontecer em países em todo o mundo – o Brasil e os Estados Unidos inclusos. Preocupações relacionadas à criação de deepfakes e conteúdos de desinformação em meio ao período eleitoral, o que poderia gerar ainda mais tensão e conturbações, serão desafios da OpenAI ao avançar com Sora no mercado.

Como Sora funciona

A OpenAI explica que Sora é um modelo de difusão, ou seja, que gera um vídeo começando com uma imagem similar a um barulho estático, ou uma televisão sem sinal, gradualmente transformando em uma imagem nítida e coerente com o prompt. Dessa forma, é capaz de gerar vídeos inteiros ou estender vídeos gerados para deixá-los com maior duração de tempo.

A ferramenta foi construída sobre pesquisas passadas para os modelos DALL·E e GPT e, assim, utiliza a técnica de recaptioning do DALL·E 3 – que gera legendas altamente descritivas para o treinamento visual de dados. Dessa forma, o Sora consegue seguir os comandos do usuário de forma mais fiel. Além disso, a ferramenta é capaz de gerar um vídeo a partir de uma imagem existente, animando os conteúdos estáticos com atenção aos detalhes. Ou ainda, estender um vídeo e preencher lacunas de frames.

“Sora serve como uma base para modelos que podem compreender e simular o mundo real, uma capacidade que acreditamos ser um marco importante para alcançar a IA geral (AGI)”, afirma a OpenAI.

Fonte: Comsumidor Moderno

Sem Comentários

22 fevereiro 2024

Deixe um comentário Cancelar resposta

Compartilhe:

Ultimas Postagens

Meta Creator Marketplace: A solução da Meta para que marcas encontrem os influencers perfeitos para suas campanhas

Apple Search Ads: nova plataforma de anúncios para apps na App Store chega ao Brasil

Como educar, treinar e engajar equipes e funcionários em prol da inclusão efetiva?