Tecnologia

OpenAI treinou Chat GPT com bancos de dados com mais de 100 mil livros; arquivos usados foram deletados

A disputa entre o Sindicato dos Autores e a OpenAI, proprietária do ChatGPT, continua com novos desenvolvimentos, revelando que a startup utilizou milhares de livros para treinar seus algoritmos.

Documentos recentes mostram que a OpenAI deletou dois bancos de dados, chamados books1 e books2, contendo mais de 100 mil obras publicadas. A startup relutou em admitir a existência desses arquivos.

Segundo os novos documentos, datados de 2020 e divulgados agora, esses bancos de dados representavam 16% de todo o treinamento utilizado na criação do GPT-3, totalizando 50 bilhões de palavras.

A OpenAI afirma que interrompeu o treinamento com livros no final de 2021 e deletou os bancos de dados no ano seguinte. A empresa alega que nenhum dos modelos atualmente em uso no ChatGPT foi criado com esses arquivos e que os responsáveis por sua criação não trabalham mais na empresa.

O uso de livros publicados é importante para o treinamento de modelos de IA, mas a questão dos direitos autorais levanta preocupações. Enquanto os produtores de conteúdo exigem compensação pelo uso de seu material, as empresas de tecnologia resistem a pagar por esses dados.

A OpenAI busca manter o conteúdo dos bancos de dados e a identidade dos funcionários em sigilo, enquanto várias questões legais estão em jogo. O processo do Sindicato dos Autores é apenas um exemplo das disputas em curso sobre o uso de dados na IA.

Compartilhar: