Modelo desafia abordagem tradicional e reduz custos no desenvolvimento de IA
O DeepSeek R1 surpreendeu o mercado ao demonstrar que é possível desenvolver modelos de inteligência artificial com capacidades avançadas de raciocínio sem depender de enormes conjuntos de dados rotulados. Sua abordagem, baseada no aprendizado por reforço, abre novas possibilidades para a criação de IA de alto desempenho com um custo muito menor do que o praticado por gigantes do setor, como OpenAI, Google e Meta.
Um novo paradigma para o desenvolvimento de IA
Tradicionalmente, treinar modelos de IA com habilidades de raciocínio exige grandes volumes de dados e investimentos massivos em computação. O DeepSeek adotou um caminho diferente:
- Inicialmente, o R1-Zero aprende a raciocinar exclusivamente por meio de aprendizado por reforço, explorando soluções por tentativa e erro.
- Depois, o R1 refina esse aprendizado com uma pequena quantidade de dados iniciais para aprimorar aspectos como legibilidade e coerência.
O modelo utiliza uma arquitetura Expert Mix (MoE) com 671 bilhões de parâmetros no total, mas ativa apenas 37 bilhões por consulta. Isso permite alcançar um desempenho comparável ao modelo GPT-4 da OpenAI com uma fração dos recursos computacionais.
Eficiência e custos reduzidos
Enquanto empresas como OpenAI investem centenas de milhões de dólares no treinamento de seus modelos, o DeepSeek R1 obteve resultados semelhantes com um orçamento inferior a US$ 6 milhões (aproximadamente R$ 34,1 milhões). Esse feito desafia a ideia de que apenas grandes corporações podem liderar a inovação em IA.
Com essa nova abordagem, o DeepSeek abre caminho para que mais grupos independentes desenvolvam modelos avançados sem a necessidade de infraestrutura computacional gigantesca. Isso pode transformar o futuro da inteligência artificial e descentralizar o domínio da tecnologia.