A disputa entre o Sindicato dos Autores e a OpenAI, proprietária do ChatGPT, continua com novos desenvolvimentos, revelando que a startup utilizou milhares de livros para treinar seus algoritmos.
Documentos recentes mostram que a OpenAI deletou dois bancos de dados, chamados books1 e books2, contendo mais de 100 mil obras publicadas. A startup relutou em admitir a existência desses arquivos.
Segundo os novos documentos, datados de 2020 e divulgados agora, esses bancos de dados representavam 16% de todo o treinamento utilizado na criação do GPT-3, totalizando 50 bilhões de palavras.
A OpenAI afirma que interrompeu o treinamento com livros no final de 2021 e deletou os bancos de dados no ano seguinte. A empresa alega que nenhum dos modelos atualmente em uso no ChatGPT foi criado com esses arquivos e que os responsáveis por sua criação não trabalham mais na empresa.
O uso de livros publicados é importante para o treinamento de modelos de IA, mas a questão dos direitos autorais levanta preocupações. Enquanto os produtores de conteúdo exigem compensação pelo uso de seu material, as empresas de tecnologia resistem a pagar por esses dados.
A OpenAI busca manter o conteúdo dos bancos de dados e a identidade dos funcionários em sigilo, enquanto várias questões legais estão em jogo. O processo do Sindicato dos Autores é apenas um exemplo das disputas em curso sobre o uso de dados na IA.