Entenda por que Sora, da OpenAI, vai revolucionar a produção de vídeo
Apesar de ainda gerar alucinações e erros óbvios, como a ausência de uma marca de mordida depois que algo foi mordido, Sora está à frente de concorrentes em geração de conteúdo audiovisual
Sora. Você ainda vai ouvir muito esse nome, assim como ChatGPT passou a ser uma palavra comum no vocabulário de muita gente que mal fazia ideia do que era inteligência artificial (IA) e que ela já estava presente em inúmeras ferramentas de uso comum, como o Gmail.
Ontem, a OpenAI, mesma empresa que desenvolveu o ChatGPT e o DALL-E, lançou seu novo modelo de IA para geração de vídeos. Por enquanto, Sora pode criar vídeos de até 60 segundos com cenas altamente detalhadas e impactantes, movimentos de câmera complexos e vários personagens realistas, tudo a partir de uma renderização super natural.
E pra quem vem acompanhando o rápido avanço desses LLMs (grandes modelos de linguagem, que é uma rede neural com muitos parâmetros), já deve ter se deparado com o de várias outras empresas que desenvolveram modelos para gerar vídeos a partir de prompts, ou instruções. Mas realmente Sora surpreende.
Quando observamos com olhar mais técnico, principalmente pra quem trabalha com modelagem, animação e renderização, toda a física envolvida dos vídeos, de gravidade a luz e sombra, impressiona. Coloca em outros patamares o audiovisual e certamente vai revolucionar essa indústria.
Não vou entrar aqui na discussão do futuro do audiovisual, mas a consistência e qualidade visual do pouco que vimos vai impactar fortemente. E o céu é o limite, ou não!
AI VIDEO is insanely taking over in 2024.
OpenAI just announced Sora , their first text-to-video model.
Here are 12 wild examples you can’t afford to miss out on: 🧵 pic.twitter.com/cg129NfliQ
— Shruti Mishra (@heyshrutimishra) February 16, 2024
O que é e como funciona?
Sora, que significa “céu” em japonês, é um modelo muito poderoso que continuamente vai aprender, compreender e simular o mundo físico em movimento.
Já desenvolvido com toda a expertise de modelos de linguagem, como o GPT, a OpenAI consegue lançar, em sua primeira versão, um modelo que não só interpreta com precisão os prompts, mas também é capaz de gerar fundos e composições magníficas pra complementar o que foi pedido.
Já podemos usar?
Pra quem se animou e quer testar, calma! O modelo ainda não está aberto. Ele ainda está sendo testado por “Red teamers”, ou seja, especialistas em diversas áreas, justamente para evitar conteúdos impróprios. Além disso, para já incluir os feedbacks na versão pública, a OpenAI deu acesso a artistas visuais, cineastas e designers. São eles que indicarão possíveis falhas e sugestões para melhorar a plataforma.
Esse processo não tem tempo determinado, e portanto, não sabemos quando a novidade vai estar disponível ao público.
Preocupações
Um dos temas sensíveis são os dados que foram utilizados para treinar o modelo. Como sempre, a OpenAI não informou como treinou o Sora. Até mesmo em resposta ao jornal The New York Times, que está processando a OpenAI por violação de direitos autorais, a empresa explicou apenas ter utilizado “vídeos disponíveis publicamente”, assim como “vídeos licenciados pelos detentores dos direitos autorais”.
Outro ponto relevante é a questão da difusão de conteúdos com o intuito de enganar e gerar mais desinformação. Por isso mesmo a empresa desenvolveu uma ferramenta para ajudar a detectar o mau uso de conteúdo, assim como um classificador que avisa quando um vídeo foi gerado pelo Sora. Ainda em andamento, irão incluir códigos de metadados C2PA, para facilitar a identificação de conteúdo gerado por IA. Mas só o futuro dirá se isso vai ajudar. O que é fato é será ainda mais difícil definir o que é real ou não.
Concorrentes
Em abril do ano passado, fomos surpreendidos com a virada da Runway AI, que antes era um plataforma que ajudava a gerar textos e imagens a partir de códigos abertos, a passou a focar na geração de vídeo a partir de texto. Apesar de ainda curtos e bastante imprecisos, fiquei emocionada quando vi um possível comercial de pizza sendo feito inteiramente na plataforma.
Ao longo de 2023 vivos outras empresas desenvolvendo modelos para a criação de vídeo a partir de textos, imagens ou até aumentando pequenos trechos de vídeo. Foi assim com a Stability AI que lançou o Stable Video Diffusion, a Meta com Make-a-Video, o Pika e mais recentemente, no final do mês passado, o Google que lançou o Lumiere, pelo Google Research.
Cada um com suas particularidades técnicas e diferentes modelos de difusão, todos eles geram vídeos ainda com aparência artificial, pouco fotorealistas, e ficam mais próximos da linguagem de animação. Ah, detalhe importante: todos eles geram poucos segundos de vídeo.
Sora, pelo contrário, engana bem até demais e já faz vídeos razoavelmente longos. Apesar de ainda, assim como todos os modelos de GenAI (inteligência artificial generativa), gerar alucinações e erros óbvios, como a ausência de uma marca de mordida depois que algo foi mordido (exemplo que está no blog), entre outras dificuldades em simular cenas complexas, Sora já está muito à frente dos concorrentes. Sam Altman, CEO que tem um dos planos mais ambiciosos e ousados, certamente está mirando num futuro complexo demais pra darmos conta sozinhos, digo, sem a ajuda quase que simbiótica, de máquinas.
OpenAI’s new Sora video generation AI is incredible.
But it’s still not perfect.
Here are some common mistakes it makes: pic.twitter.com/1lWwWHsLfy
— Matt Shumer (@mattshumer_) February 16, 2024
Conclusão
Estamos apenas no segundo mês de 2024. A OpenAI não pára e já anunciou uma nova atualização para o ChatGPT, que vai permitir aos usuários controlar a memória do chat, criando conversas mais personalizadas. Imaginem o que ainda virá nos próximos meses.
Pra quem se interessar por “um pouco” mais de detalhes técnicos, vale a pena acessar a página do projeto. Apesar de “Open”, já faz tempo que a empresa não abre seus modelos, apesar de ter se aproveitado de outros modelos abertos, como o Transformer do Google. Só a título de curiosidade, o “T” do GPT vem desse modelo.
Como a própria OpenAI disse na postagem, “Sora serve de base para modelos que podem compreender e simular o mundo real, uma capacidade que acreditamos que será um marco importante para alcançar a AGI*. E olha que boa parte da interação com o mundo real já está desenvolvida. Isso nos deixa cada vez mais próximos de uma possível renderização de vídeos em 3D, o que destravaria por completo toda a computação espacial, web3 (também chamada de internet espacial) e metaverso, além de possibilitar a criação de modelos tridimensionais que poderiam invadir nosso mundo físico.
Já temos modelos de estruturas tridimensionais como o Picasso, até mesmo em nanoescala e moléculas complexas, como o BioNeMo, ambos da NVIDIA. Mas estamos avançando para um futuro no qual o real e artificial estarão tão fundidos, que a nossa vida será bem diferente da que é hoje. Fiquemos atentos, pois isso tudo vai demandar muito de nós para não nos perdemos enquanto humanidade.
*Inteligência Artificial Geral = quando a IA conseguisse ter uma capacidade cognitiva similar ou ligeiramente superior à dos humanos. Seria como se um robô como AGI pudesse literalmente agir como um ser humano, principalmente em suas formas de aprender, responder, raciocinar e compreender. Simplesmente qualquer tarefa intelectual que um ser humano faça, a AGI conseguiria.