Falta de dados pode ser um problema para a inteligência artificial
Nunca houve tantos dados no mundo, mas eles não estão organizados, estruturados, catalogados, rotulados e prontos para serem usados
Não é nenhuma novidade que todos os novos modelos de inteligência artificial generativa (GenAI) precisam ser alimentados por dados. É através deles que as redes neurais conseguem “entender” o mundo, ou melhor, ser treinadas para compreender contextos e gerar conteúdos, sejam eles texto, imagem, vídeos, áudios, modelos tridimensionais, moléculas e por aí vai.
Se um dos problemas, que era a capacidade de processamento desses dados, tem sido superado com novas GPUs, TPUs e NPUs cada vez mais potentes, os dados ainda são um entrave. E olha que estamos falando de um mundo informacional, que gera, aproximadamente, 328,77 milhões de terabytes por dia. E claro, a cada dia mais dados são gerados do que no dia anterior.
Com esses números, parece um absurdo falar em “falta de dados”. Nunca houve tantos dados no mundo, e isso só aumenta (haja data center e energia elétrica pra dar conta de tudo isso). O problema é que esses dados não estão organizados, estruturados, catalogados, rotulados e prontos para serem usados.
É tipo quando a bagunça toma conta e, por mais que você tenha tudo ali, não consegue achar e usar nada. Por isso, poderemos chegar em um momento que ficaremos sem dados para treinar modelos de linguagem de IA, nos forçando a criar outras formas para ampliar os dados de treinamento, sem necessariamente ter que criar mais dados.
Outra questão central é que, por mais que se tenha muitos dados, não se pode usar todo e qualquer dado simplesmente. Os dados são sempre de algo ou alguém. Os dados têm donos, por mais que geralmente não sejam os donos corretos. E dados é o que existe de mais valioso hoje (com certeza, já devem ter ouvido falar que dados são o novo petróleo (“data is the new oil“).
Na verdade não os dados em si, mas a sabedoria que eles podem gerar, afinal, captar, armazenar, analisar os dados, e usar esses insights, já virou cotidiano para muitas pessoas e empresas.
E finalmente, como vocês já devem ter imaginado, a grande maioria dos dados disponíveis são totalmente inúteis para o treinamento de IA, justamente por terem falhas ou não estarem completos.
Modelos de linguagem e treinamento
Os grandes modelos de linguagem, conhecidos pela sigla LLM (Large Language Model) são uma das áreas mais quentes da pesquisa em IA no momento. O famoso ChatGPT é um deles e pode trabalhar com diferentes linguagens, ou seja, pode ser um texto ou pode ser um código.
Pra treinar esses modelos, basicamente se “pega” textos públicos, que estão na internet. Então, as fontes podem ser a Wikipédia, artigos de notícias, artigos científicos, blogs, livros, posts de redes sociais, como o X e também o Internet Common Crawl. A questão é que o uso indiscriminado desses textos tem causado muitos problemas.
Com os dados em mãos, eles passam a ser divididos em tokens, ou seja, palavras e partes de palavras que os modelos usam para aprender a formular expressões linguísticas. Quanto mais dados se tem, mais precisos e versáteis se tornam esses modelos.
Mas cada vez mais barreiras estão sendo criadas para se usar esses textos (ainda bem), e o que está disponível pode encontrar o seu limite em 2026, de acordo com um paper, de 2022, de pesquisadores da Epoch, uma organização de pesquisa e previsão de IA, e da Hugging Face, empresa que funciona como uma gestora de códigos de IA para softwares abertos e livres.
Segundo um artigo recente do WSJ, novas pesquisas foram feitas e agora o limite passou para 2028, mas para empresas que consomem muitos dados, como a OpenAI e a Anthropic, a internet seria ainda “muito pequena”, o que traria dificuldades para treinar seus próximos modelos de IA, que estão cada vez mais poderosos e com maiores capacidades.
Além disso, outra parte do problema é que os dados são filtrados para treinar os modelos em duas categorias: alta qualidade e baixa qualidade. Segundo o paper, essa classificação é confusa, mas basicamente seriam textos bem escritos, e muitas vezes produzidos por escritores profissionais, para a primeira categoria, e textos de posts em redes sociais, comentários em fóruns, como de baixa qualidade.
Apesar de se priorizar a qualidade dos textos, a falta de material tem feito com que quase tudo disponível seja usado.
Restrições de uso e escassez
Já comentei em outros textos aqui no blog como alguns jornais, como o New York Times e outros sites, estão bloqueando o acesso de empresas de IA a suas plataformas, principalmente por violarem os direitos autorais, mas também por se tornarem concorrentes na busca de informações confiáveis sobre diversos assuntos.
Isso tem feito a busca de dados de alta qualidade mudar, afinal, ninguém quer desacelerar o desenvolvimento. Apesar das empresas de IA não fornecerem detalhes sobre o material usado para treinamento dos modelos, o que é um grande problema de transparência, sabemos que estão criando novas abordagens de captura e utilização de dados.
Pra vocês terem uma ideia, é estimado que o próximo modelo da OpenAI, o GPT-5, precisaria de 60 trilhões a 100 trilhões de tokens de dados para fazer sentido. O GPT-4 foi treinado com até 12 trilhões de tokens, segundo pesquisa da Epoch.
Com a escassez de 10 trilhões a 20 trilhões de tokens de alta qualidade atualmente, muitas especulações são feitas para tentar entender como será possível dar conta do gap.
Nesse sentido, as empresas que são “donas” dos nossos dados, como a Meta, que tem WhatsApp, Facebook, Instagram e Threads, acabam tendo uma vantagem significativa, pois acabam usando os arquivos das plataformas, de textos a vídeos. Apesar de nem tudo ser de alta qualidade, é inegável que isso já coloca essas empresas nas primeiras posições da corrida pela IA.
Alternativas para a escassez
Por conta de tudo isso, tem muita gente trabalhando em encontrar formas de prolongar a vida útil dos dados. E isso inclui a reutilização dos mesmos dados para treinamento, que podem se diferenciar, por exemplo, na forma em como processam esses dados.
Por isso mesmo, apesar de muitos dos modelos disponíveis terem usado os mesmos dados, os resultados são completamente diferentes, pra além das diferenças dos modelos.
Outra alternativa que vem sendo testada é o uso de dados gerados pela própria rede neural, os dados sintéticos, apesar de ser uma abordagem arriscada, já que os modelos geram falhas. Nesse mesmo sentido, a OpenAI e a Anthropic estão experimentando criar seus próprios dados.
Têm também surgido startups, como a DatologyAI, que tem uma ferramentas de seleção de dados e insere os dados nos modelos de linguagem em uma ordem específica, quase que forçando certas conexões, o que tem sido chamado de “aprendizado de currículo”.
Por fim, sempre há a possibilidade de diminuir esses modelos e também treiná-los para que ajam de formas bem mais limitadas, porém, mais eficientes. Isso também limitaria o tipo de dado, o que melhoraria o desempenho da rede. Como sempre, algo que faz apenas uma coisa, faz essa coisa melhor que algo que faça qualquer coisa de forma bem mediana.
Além disso, cada empresa poderia desenvolver seus próprio modelos, a partir de uma base, que são os famosos modelos fundacionais, e fazer o treinamento a partir dos dados que possuem. Isso traria um inteligência interna muito maior, do que usar modelos genéricos, treinados com dados genéricos.
Mas, dentre tudo que está sendo testado e discutido, o que me parece mais interessante é a criação de um mercado de dados, algo que vem sendo estudado pela OpenAI. E esse ponto é essencial quando pensamos em modelos de IA descentralizada, que remunera a capacidade de processamento através de uma infraestrutura de blockchain, e que também pode ser usada para atribuir valor para dados individuais e remunerar o provedor desses dados. É nisso que empresas como a SingularityNET fazem.
Perigos e oportunidades
No meio dessas opções, muitas outras vão surgindo. E hoje em dia, boa parte do conteúdo consumido online é de vídeos, seja no YouTube ou nas redes sociais, assim como áudios de podcast, que, no fim, podem ser facilmente de um mesacast que está no YouTube.
Então, podemos dizer que é quase tudo vídeo. Inclusive não param de sair pesquisas que mostram o gosto pelos vídeos até na hora de fazer pesquisa. Uma das mais recentes, feita pela Adobe, indica que 64% dos jovens usam o TikTok como ferramenta de busca, ou seja, mais que o Google.
Em tempo de ferramentas com IA para tudo, a busca feita com o uso de inteligência artificial, como o Dexa, mostra como a consulta, pra além do texto, é algo promissor. Apesar de, por hora, funcionar apenas em inglês, a ferramenta identifica vários episódios de podcast/vídeos relevantes e vincula ao momento exato em que o assunto é abordado. Dá para ver ou ouvir o conteúdo original, ou ler um resumo rápido.
Esse potencial tem feito com que a OpenAI já esteja mirando nessa mina de ouro. Segundo fontes da reportagem do WSJ, eles pretendem treinar o GPT-5 a partir de transcrições de vídeos públicos do YouTube, o que acende uma série de alertas.
O mesmo está acontecendo para o treinamento da Sora, ferramenta de geração de vídeos a partir de textos, da própria OpenAI, que também tem se apoiado nos vídeos públicos do YouTube para o seu treinamento.
Segundo uma matéria da Fortune, Sam Altman, CEO da OpenAI, diz ser “impossível” construir modelos de IA de ponta sem informações protegidas por direitos autorais. A admissão veio de um documento que a OpenAI apresentou à Câmara dos Lordes britânica quando o governo do Reino Unido estava considerando uma nova lei que limitaria a forma como as empresas de IA poderiam usar material protegido por direitos autorais.
Neal Mohan, CEO do YouTube, já relatou que, caso a ferramenta Sora usasse conteúdo do YouTube nos seus treinamento, seria uma “clara violação” de seus termos de serviço. O problema é que tudo fica na especulação, já que não se consegue provar nada a partir do que é permitido por lei, pelo menos até agora. Por isso, a cada dia que passa, se torna mais urgente uma regulação para o uso de inteligência artificial.
Mais recentemente, em uma entrevista à jornalista Joanna Stern, do WSJ, Mira Murati, CTO da OpenAI, não conseguiu responder à pergunta sobre que tipo de conteúdo foi usado para treinar a ferramenta Sora, principalmente se parte do conteúdo vinha do YouTube. “Na verdade, não tenho certeza disso”, disse a CTO, mostrando claro desconforto ao falar sobre dados.
Apesar de sabermos que, muito provavelmente, se o Google fosse treinar alguma ferramenta do tipo, usaria o conteúdo dos “creators”, isso só me faz pensar que todo esse imbróglio seja mais por conta da competição do que um cuidado em relação a direitos autorais.
Afinal, ninguém quer que seus concorrentes tenham acesso aos “seus” dados. Pelo menos não de graça. E, por isso, temos visto diversos acordos sendo feitos (recentemente, o Reddit fechou um acordo de licenciamento de US$ 60 milhões por ano com o Google).
Acompanhando todo esse cenário, e o desenrolar dos fatos, o que fica claro pra mim é que sempre se dará um jeito, basta envolver muita grana na parada. E toda essa preocupação com dados, apesar de real, ainda será rapidamente superada, seja com tecnologia ou com grana, novamente.
Gostaria muito de ver projetos que considerassem outros dados, que são totalmente esquecidos pelas Big Techs, como, por exemplo, de comunidades totalmente fora do sistema. No fim, a nossa preocupação com certeza deve ser outra.