
A precisão da transcrição é um desafio crítico que impacta significativamente a acessibilidade dos serviços de transcrição, especialmente para falantes não nativos de inglês, que enfrentam uma taxa maior de erros. Este artigo aborda os problemas fundamentais das imprecisões de transcrição para falantes não nativos. Ao utilizar técnicas linguísticas avançadas e modelos de linguagem de ponta, buscamos melhorar a qualidade das transcrições, garantindo que sejam precisas e acessíveis para todos os usuários. Este artigo mergulha nas metodologias e estratégias empregadas para enfrentar esse problema, tornando as transcrições mais confiáveis e universalmente benéficas.
O Desafio da Transcrição
Os erros de transcrição são um problema generalizado, especialmente para falantes não nativos de inglês, também conhecidos como falantes L2. De acordo com a pesquisa de Peter Sullivan, Toshiko Shibano e Muhammad Abdul-Mageed, "Improving Automatic Speech Recognition for Non-Native English with Transfer Learning and Language Model Decoding" (2022), esses indivíduos enfrentam um aumento de 10% na taxa de erro de palavra (WER), levando a uma taxa maior de transcrições incorretas em comparação aos falantes nativos (L1).
A raiz desse problema está nas diferenças fonológicas entre o inglês e outros idiomas. Por exemplo, muitos dialetos árabes não possuem o fonema /p/ e o substituem pelo equivalente sonoro /b/. Consequentemente, palavras que contêm /p/ são frequentemente mal interpretadas, levando a imprecisões na comunicação. Dado que os falantes não nativos de inglês superam os falantes nativos em quase três para um, esse problema impacta significativamente uma grande parte da população global, tornando a transcrição menos acessível e eficaz para muitos.
Revertendo Erros Fonológicos
Nossa teoria era que muitos erros de transcrição para falantes não nativos de inglês ocorrem porque eles substituem os fonemas de palavras em inglês por fonemas mais familiares de seu idioma nativo. Ao reverter essas substituições após a transcrição, acreditávamos que poderíamos melhorar bastante a precisão.
No entanto, esse método enfrentou desafios, como descobrir a substituição correta de fonemas com base no contexto das palavras circundantes, aplicar substituições de forma eficiente e converter palavras textuais em seus equivalentes fonéticos. Para enfrentar essas complexidades, nossa solução envolveu o uso da combinação de um alfabeto fonético e modelos de linguagem avançados.
Construindo uma Solução
Desenvolvendo a Ferramenta de Texto-para-IPA
O primeiro passo nesse processo foi desenvolver um tradutor de texto-para-IPA (Alfabeto Fonético Internacional). Após explorar várias opções, escolhemos o dicionário CMU-IPA, o que permitiu a conversão de palavras em inglês em seus equivalentes fonéticos. Essa ferramenta fundamental foi essencial para aplicar substituições fonéticas com precisão. Criamos um script para converter palavras em seus equivalentes fonéticos, formando a base de nosso sistema de melhoria de transcrição.
Criando Substituições Fonéticas
Inicialmente, criamos uma função básica para aplicar substituições fonéticas, mas ela se mostrou limitada e trabalhosa. Descobrimos então o Speech Accent Archive, um recurso abrangente que detalha alterações fonéticas em vários sotaques. Usando dados desse arquivo, construímos um sistema modular para gerar substituições fonéticas para diferentes sotaques. Para lidar com a ordem arbitrária das substituições, usamos métodos de contagem binária para lidar com múltiplas substituições de forma eficiente. Em vez de aplicar todas as substituições a cada palavra, aplicamos apenas as substituições que envolviam fonemas realmente presentes na palavra.
Reavaliação Contextual com IA
Para refinar a precisão das correções de transcrição, integramos a API da OpenAI para reavaliar opções fonéticas dentro do contexto. Essa etapa permitiu ao sistema determinar a expressão falada mais provável considerando as palavras circundantes, melhorando significativamente a confiabilidade das transcrições. Durante os testes, o sistema mostrou melhorias substanciais, mesmo com exemplos sintéticos que o modelo de linguagem não havia encontrado anteriormente.
Resultados e Aprendizados
Os resultados do projeto demonstraram a eficácia da nossa hipótese, e observamos melhorias significativas na precisão da transcrição para fala não nativa em inglês. Com as atualizações descritas, nosso sistema agora pode acomodar aproximadamente 148 sotaques, potencialmente beneficiando cerca de 1 bilhão de falantes.
Melhorias Futuras
Embora o sistema atual foque em substituições de fonema por fonema, melhorias futuras poderiam incorporar contextos adicionais, como a posição na palavra e sons circundantes, para melhor rastrear a assimilação entre palavras e outras mudanças fonológicas sutis. A abordagem também poderia ser expandida para considerar todas as generalizações de um determinado idioma em vez das generalizações de um único falante e ser aplicada a impedimentos de fala, tornando a transcrição ainda mais acessível.
Junte-se a mais de 700 mil organizações que utilizam o Supernormal
Conclua seu trabalho com clientes num flash com agentes de IA para reuniões e trabalho de projetos.
