A precisão da transcrição é um desafio crítico que impacta significativamente a acessibilidade dos serviços de transcrição, especialmente para pessoas que não têm o inglês como língua nativa e enfrentam uma taxa maior de erros. Este paper aborda os problemas centrais das imprecisões de transcrição para falantes não nativos. Ao usar técnicas linguísticas avançadas e advanced language models, buscamos melhorar a qualidade da transcrição, garantindo que as transcrições sejam precisas e acessíveis para todos os usuários. Este paper explora as metodologias e estratégias usadas para enfrentar esse problema, tornando as transcrições mais confiáveis e benéficas para todos.
O Desafio da Transcrição
Erros de transcrição são um problema generalizado, especialmente para pessoas que não têm o inglês como língua nativa, também conhecidas como falantes L2. De acordo com a pesquisa de Peter Sullivan, Toshiko Shibano e Muhammad Abdul-Mageed, "Improving Automatic Speech Recognition for Non-Native English with Transfer Learning and Language Model Decoding" (2022), essas pessoas enfrentam um aumento de 10% na taxa de erro por palavra (WER), o que leva a uma taxa maior de transcrições incorretas em comparação com falantes nativos (L1).
A raiz desse problema está nas diferenças fonológicas entre o inglês e outros idiomas. Por exemplo, muitos dialetos árabes não têm o fonema /p/ e o substituem pelo equivalente sonoro /b/. Como consequência, palavras que contêm /p/ costumam ser interpretadas incorretamente, o que gera imprecisões na comunicação. Como pessoas que não têm o inglês como língua nativa superam os falantes nativos em quase três para um, esse problema impacta significativamente uma grande parte da população global, tornando a transcrição menos acessível e menos eficaz para muitas pessoas.
Revertendo Erros Fonológicos
Nossa hipótese era que muitos erros de transcrição para falantes não nativos de inglês ocorrem porque eles substituem os fonemas de palavras em inglês por fonemas mais familiares de sua língua materna. Ao reverter essas substituições depois da transcrição, acreditávamos que poderíamos melhorar muito a precisão.
No entanto, esse método enfrentou desafios, como descobrir a substituição correta de fonema com base no contexto das palavras ao redor, aplicar substituições de forma eficiente e converter palavras em texto para seus equivalentes fonéticos. Para lidar com essa complexidade, nossa solução envolveu usar a combinação de um alfabeto fonético e advanced language models.
Construindo uma Solução
Desenvolvendo a ferramenta Text-to-IPA
O primeiro passo nesse processo foi desenvolver um tradutor text-to-IPA (International Phonetic Alphabet). Depois de explorar várias opções, escolhemos o CMU-IPA dictionary, que permitiu converter palavras em inglês em seus equivalentes fonéticos. Essa ferramenta fundamental foi essencial para aplicar substituições fonéticas com precisão. Criamos um script para converter palavras em seus equivalentes fonéticos, formando a base do nosso sistema de melhoria de transcrição.
Criando Substituições Fonéticas
Inicialmente, criamos uma função básica para aplicar substituições fonéticas, mas ela se mostrou limitada e trabalhosa. Então descobrimos o Speech Accent Archive, um recurso abrangente que detalha mudanças fonéticas em vários sotaques. Usando dados desse archive, construímos um sistema modular para gerar substituições fonéticas para diferentes sotaques. Para lidar com a ordem arbitrária das substituições, usamos métodos de binary counting para tratar várias substituições com eficiência. Em vez de aplicar cada substituição a cada palavra, aplicamos apenas as substituições que envolviam fonemas realmente presentes na palavra.
Reavaliação Contextual com AI
Para refinar a precisão das correções de transcrição, então integramos a OpenAI API para reavaliar opções fonéticas dentro do contexto. Essa etapa permitiu ao sistema determinar a fala mais provável ao considerar as palavras ao redor, aumentando significativamente a confiabilidade das transcrições. Durante os testes, o sistema mostrou melhora substancial, mesmo com exemplos sintéticos que o language model não havia encontrado antes.
Resultados e Aprendizados
Os resultados do projeto demonstraram a eficácia de nossa hipótese, e observamos melhorias significativas na precisão da transcrição de fala em inglês de pessoas não nativas. Com as atualizações descritas, nosso sistema agora consegue acomodar aproximadamente 148 sotaques, o que pode beneficiar quase 1 bilhão de falantes.
Melhorias Futuras
Embora o sistema atual foque em substituições de fonema para fonema, melhorias futuras poderiam incorporar contextos adicionais, como a posição na palavra e os sons ao redor, para acompanhar melhor a assimilação entre palavras e outras mudanças fonológicas mais sutis. A abordagem também poderia ser ampliada para considerar todas as generalizações de um determinado idioma, em vez das generalizações de um único falante, e aplicada a speech impediments, tornando a transcrição ainda mais acessível.




