A nova IA da Meta, SEAMLESSM4T, oferece tradução de fala quase instantânea com alta precisão, avançando o sonho de um intérprete universal.
O sonho de contar com um intérprete universal de IA se aproximou um pouco mais esta semana com o lançamento pela Meta de uma nova inteligência artificial que pode traduzir fala em 101 idiomas quase instantaneamente.
Tradutores de IA não são novidade, mas eles costumam funcionar melhor com texto e enfrentam dificuldades para converter palavras faladas de um idioma para outro. O processo tradicional é demorado, envolvendo a conversão de fala em texto, tradução do texto e, finalmente, a reconversão para fala. Embora úteis, esses sistemas são ineficientes e podem introduzir erros em cada etapa.
A nova IA da Meta, batizada de SEAMLESSM4T, contorna esse problema ao converter fala diretamente em fala. Utilizando um sintetizador de voz, o sistema traduz palavras faladas em 101 idiomas para 36 outros, não apenas para o inglês, como é comum em outros intérpretes de IA. Em uma avaliação direta, o algoritmo mostrou ser 23% mais preciso que os melhores modelos atuais e quase tão rápido quanto intérpretes humanos especialistas. Além disso, pode traduzir texto para texto, texto para fala e vice-versa.
Meta está disponibilizando todos os dados e códigos usados no desenvolvimento da IA para uso não-comercial, permitindo que outros otimizem e construam sobre ele. Esse algoritmo é considerado “fundacional” porque pode ser ajustado para propósitos específicos, como melhorar a qualidade de tradução entre determinados pares de idiomas ou para jargões técnicos.
Autoaprendizagem da IA
O avanço na tradução automática foi impulsionado por modelos de linguagem de grande escala, que são treinados em vastos conjuntos de dados extraídos da internet. No entanto, isso cria um desafio para idiomas com poucos recursos, onde dados de treinamento são escassos. Para superar isso, a equipe da Meta utilizou mineração de dados paralelos, coletando trechos de áudio e legendas correspondentes para criar pares de tradução sem necessidade de anotação humana. Eles acumularam aproximadamente 443.000 horas de áudio com texto correspondente, resultando em cerca de 30.000 pares de fala-texto.
SEAMLESSM4T é composto por três blocos principais, cada um lidando com entradas e saídas de texto e fala. Foi pré-treinado com um conjunto de dados massivo de 4,5 milhões de horas de áudio falado em múltiplos idiomas, o que facilitou o ajuste fino para tarefas específicas.
Desafios e Considerações
A tradução de fala em tempo real é uma façanha, mas a IA ainda enfrenta desafios como ruídos de fundo, sotaques fortes e a necessidade de captar nuances culturais e linguísticas. A tradução pode introduzir vieses ou toxidade, especialmente quando se trata de idiomas sem equivalência direta em termos de gênero ou contexto cultural. A equipe da Meta trabalhou para minimizar esses problemas, analisando o modelo para toxidade e ajustando-o para reduzir vieses.
A abertura do código e dos dados pela Meta é um sinal de seu apoio crescente à tecnologia de código aberto, seguindo exemplos anteriores como o lançamento do PyTorch. Embora SEAMLESSM4T ainda esteja longe de cobrir os cerca de 7.000 idiomas falados no mundo, é um passo significativo em direção a uma tradução universal, como o fictício peixe Babel de “O Guia do Mochileiro das Galáxias”.
—
Texto traduzido e adaptado de Singularity Hub e revisado pela nossa redação.