CiênciasDestaqueInteligência ArtificialTecnologia

DeepSeek revoluciona compreensão de texto em IA com modelo visual eficiente

DeepSeek lança modelo que transforma texto em imagens para IA processar até dez vezes mais dados com alta precisão.
DeepSeek revoluciona compreensão de texto em IA com modelo visual eficiente

Uma inovação significativa no campo da inteligência artificial (IA) foi anunciada pela startup chinesa DeepSeek com o lançamento do DeepSeek-OCR, um modelo que transforma a maneira como grandes modelos de linguagem (LLMs) interpretam e processam texto. Ao substituir tokens tradicionais de texto por representações visuais, o sistema converte o conteúdo textual em imagens antes da análise, abrindo caminho para maior eficiência e ampliação do contexto dos modelos.

Uma nova abordagem para janelas de contexto

O DeepSeek-OCR promete aumentar a eficiência dos modelos de linguagem em até dez vezes, graças à compressão das informações textuais em representações visuais. Essa técnica permite manipular janelas de contexto muito maiores, ou seja, a capacidade de processar simultaneamente volumes mais extensos de dados textuais, algo essencial para aplicações empresariais que lidam com grandes bases de documentos.

Os testes indicam que, para cada dez tokens de texto, um único token visual pode representar as mesmas informações mantendo 97% de precisão. Mesmo com compressões de até vinte vezes maiores, a taxa de acerto fica em torno de 60%. Essa vantagem oferece um ganho expressivo na densidade informacional, ideal para o processamento de arquivos longos e bases de dados complexas.

Impactos no uso corporativo da inteligência artificial

Ao tratar o texto como imagem e utilizar um codificador visual para processar essas representações, o DeepSeek elimina a necessidade de dividir documentos em múltiplos tokens textuais, reduzindo etapas intermediárias e facilitando o manuseio de grandes volumes de dados. Isso pode significar redução de custos e maior agilidade para empresas que dependem de IA para organizar e analisar suas informações internas.

Jeffrey Emanuel, ex-investidor quantitativo, destaca o potencial do modelo para permitir janelas de contexto de 10 a 20 milhões de tokens, possibilitando que empresas insiram toda sua documentação interna em um único prompt. Isso facilitaria a atualização contínua de bases de código e documentos sem a necessidade de recarregar tudo do zero, otimizando processos e acelerando consultas.

Perspectivas e desafios técnicos

Andrej Karpathy, cofundador da OpenAI, reconheceu a inovação e sugeriu que esse modelo pode indicar um caminho no qual todos os tipos de entrada em LLMs sejam visualmente representados. Ainda assim, o artigo técnico do DeepSeek reconhece desafios a superar, como garantir que os modelos raciocinem sobre tokens visuais com a mesma precisão do texto e lidar com variações de resolução e cor nas imagens processadas.

Além da eficiência, a abordagem tem potencial para aproximar as máquinas da forma como humanos armazenam informações, utilizando pistas visuais e espaciais, semelhante ao conceito dos “palácios da memória”.

Embora ainda haja barreiras técnicas, o DeepSeek-OCR representa um avanço notável e pode redefinir o paradigma do processamento de linguagem natural, mostrando que tratar texto como imagem pode ser não apenas viável, mas altamente vantajoso.


[Da redação do Movimento PB]
MPB-DSK-28102025-A1B2C3D4-19