Software

Meta apresenta a nova ferramenta de tradução de fala para texto ‘Voicebox’

Pelo menos na superfície, o mais recente avanço de IA da Meta não parece um grande passo.

Hoje, a Meta publicou uma visão geral de seu novo sistema AI ‘Voicebox’ , que permitirá aos usuários traduzir texto em áudio, em uma variedade de estilos e vozes.

Conforme apresentado neste clipe de visão geral, o sistema Voicebox pode receber entradas de texto e traduzi-las em áudio, com diferentes opções de voz, permitindo uma tradução de texto para áudio mais avançada, mas com requisitos de aprendizado e processamento reduzidos do que outras ofertas semelhantes.

Embora, pelo menos na superfície, não seja muito diferente das ferramentas de conversão de texto em áudio com as quais estamos acostumados – gostemos ou não – no TikTok e em outros aplicativos.

As traduções do Voicebox soam bem parecidas – e aposto que o Meta não vai me deixar usar a voz do Rocket Raccoon ou de um Transformer nessas novas traduções.

Mas o sistema Voicebox também é mais do que apenas uma ferramenta de tradução direta de texto para fala.

 O Voicebox pode produzir clipes de áudio de alta qualidade e editar áudio pré-gravado – como remover buzinas de carro ou um cachorro latindo – enquanto preserva o conteúdo e o estilo do áudio. O modelo também é multilíngue e pode produzir fala em seis idiomas. No futuro, modelos de IA generativos multifuncionais, como o Voicebox, poderiam dar vozes com som natural a assistentes virtuais e personagens não-jogadores no metaverso. Eles podem permitir que pessoas com deficiência visual ouçam mensagens escritas de amigos lidas por IA em suas vozes, dar aos criadores novas ferramentas para criar e editar facilmente faixas de áudio para vídeos e muito mais.”

Como observa o Meta, o Voicebox também permite que você use modelos de voz para tradução, para que você possa usar um clipe de áudio de outra pessoa para fazer sua tradução de texto para fala soar como se a pessoa estivesse falando, por meio de apenas alguns segundos de entrada de áudio .

Leia:   Os 10 principais usos emergentes de IA e ML em data centers

O que, sem dúvida, levará a uma nova série de deepfakes – embora, novamente, ferramentas semelhantes já existam. Eles simplesmente não são os mesmos, e Meta diz que não são tão bons quanto esse novo processo.

O benefício real do Voicebox, em um sentido amplo, estará na tradução, permitindo variações simplificadas e com som nativo de suas entradas de texto em diferentes idiomas. Isso pode abrir novas oportunidades de mercado cruzado, enquanto a modelagem avançada do sistema também facilitará casos de uso e processos mais amplos, o que pode fornecer outros benefícios importantes.

Mas a Meta também está ciente dos riscos.

Nesta fase, a Meta não está liberando o código-fonte ou aplicativo para o público, citando “os riscos potenciais de uso indevido”. Ele espera encontrar casos de uso mais práticos e valiosos para a tecnologia ao longo do tempo – portanto, seu anúncio hoje é mais um FYI do que um lançamento, como tal.

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button