Inteligência artificial

 A tecnologia nos ajudará a aprender línguas estrangeiras?

 A tecnologia nos ajudará a aprender línguas estrangeiras?

As tecnologias de IA conversacional estão se tornando onipresentes e cada vez mais produtos que usam reconhecimento automático de fala, compreensão de linguagem natural e síntese de fala entraram no mercado. Especialista em aprendizado de máquina é a profissão do futuro.


Abrir
Marcus Winkler
 

Você se lembra de enfiar palavras em inglês ou alemão em um jogo de blackjack? Para a posteridade, seria como esculpir tábuas de barro com juncos.

Em um ano, reuniões de negócios em equipes e zoome poderiam ficar assim: compro um avatar bitcoin (assim como eu, só que mais bonito), depois me coloco na versão office, acrescentando a opção de tradução automática. Agora eu posso falar urdu. ou hindu.

Confira também:

No momento, ainda é apenas uma fantasia, existem quase 6,5 mil pessoas no mundo. idiomas, e o processo de aprendizado a partir dessa base leva tempo e recursos. No entanto, a tradução automática em tempo real para os idiomas mais populares – inglês, francês e alemão agora é possível.

Por que a tradução ao vivo é tão difícil? Vamos começar com o fato de que você precisa combinar duas tecnologias diferentes: a primeira camada é o reconhecimento de fala, ou seja, a conversão de voz em texto. A segunda questão é a tradução automática. O sistema de software de tradução automática interpreta a estrutura da frase do idioma de origem (do qual estamos traduzindo) e cria uma tradução com base na gramática do idioma de destino (para o qual estamos traduzindo). O processo envolve quebrar estruturas de frases complexas e diversas, identificar partes do discurso, resolver ambiguidades e reunir informações nos componentes e na estrutura de um novo idioma.

Inicialmente, métodos estatísticos foram usados ​​para essas tarefas. Na tradução automática e no reconhecimento de fala, inicialmente, foram utilizados dispositivos estatísticos, como cadeias ocultas de Markov. “Desde cerca de 2013-2015, houve uma mudança nos métodos, e vimos uma mudança de modelos clássicos, estatísticos e probabilísticos para algoritmos baseados em aprendizado de máquina profundo. Atualmente estamos desenvolvendo e desenvolvendo esses modelos no OPI PIB” – diz Dr. M. Marek Kozowski, chefe do Laboratório de Engenharia Linguística. Os algoritmos de aprendizado profundo foram inicialmente refinados no processamento de imagens. Eles são excelentes para categorizar imagens que são rapidamente incorporadas à medicina. Algoritmos, por exemplo, dão suporte ao trabalho de um radiologista, pois detectam irregularidades nas imagens com muita eficácia. Os britânicos divulgaram recentemente um trabalho sobre o uso da inteligência artificial no diagnóstico precoce da doença de Alzheimer com base na análise da fala dos entrevistados.

Outro grande avanço aconteceu há 5 anos. Em 2017, foram publicados os primeiros artigos de pesquisa do Google Brain sobre o uso de Redes Transformadoras baseadas no Mecanismo de Autoatendimento. “Um dos marcos que possibilitaram uma transição mais rápida e ampla do laboratório para a indústria foi a chegada da rede neural profunda do tipo Transformer. Dois anos depois – em 2019 – já havia muitas publicações científicas sobre essas redes e seus múltiplas aplicações”, continua o Dr. Kozovsky. No final de 2021, sua equipe venceu uma competição nacional organizada pelo Centrum Govtech e UOKiK, relacionada à inteligência artificial. Consiste em desenvolver métodos inteligentes que apoiem a divulgação de cláusulas proibidas em contratos. Foi o uso de redes Transformer que conquistou os engenheiros da OPI, permitindo uma detecção mais precisa e rápida de determinadas strings, em comparação com métodos clássicos de aprendizado de máquina ou mesmo redes recursivas profundas. Falando da medida de precisão qualitativa que o Transformer Grids fornece, isso representa uma melhoria de 5 a 10% em relação às melhores abordagens anteriores. Não muito na teoria, mas levando em conta o efeito de escala, já começa a afetar significativamente a aceitação final e os lucros financeiros. Em primeiro lugar, as redes Transformer também são mais rápidas (podem processar mais dados em menos tempo) e mais fáceis de implementar na indústria graças à multiplicidade de bibliotecas ou ao número de modelos pré-treinados. Também não requer grandes equipes de cientistas para ajustes de longo prazo” – diz Marek Kozowski. Ele diz que os transdutores são atualmente a primeira e melhor arquitetura de escolha (como a arquitetura BERT ou GPT-3) em tarefas de processamento de linguagem natural (NLP) .Em uma tarefa de reconhecimento de voz, as redes transformadoras também se tornaram a solução de melhor qualidade.No entanto, recentemente, surgiram modelos chamados Vision Transformer (ViT), que oferecem um modelo puro de rede transformadora, sem a necessidade de blocos convolucionais.

Pode ser seu colega de trabalho virtual

Um relatório da empresa de pesquisa e consultoria Metrigy sobre assistentes virtuais inteligentes descobriu que quase 24% dos entrevistados participam de reuniões com pessoas que não falam inglês. Custos de tradução, muitas vezes não insignificantes. Às vezes, um tradutor humano pode ficar doente, por exemplo, o que não aconteceria com uma máquina. Sim, a qualidade das traduções automáticas ainda não é igual às traduções humanas, e a IA não parecerá cínica ou precisa, mas está melhorando nas realidades dos negócios diários, especialmente com traduções especializadas. Mais da metade das empresas pesquisadas usam serviços externos para traduzir o que os outros estão dizendo, e o custo médio dessa tradução é de US$ 172 por reunião. A integração de assistentes de reuniões virtuais inteligentes com funções de tradução permite reduzir significativamente os custos.

Com novas ferramentas e tecnologias, é mais fácil do que nunca criar um aplicativo de bate-papo com IA, permitindo uma gama muito maior de aplicativos, como assistentes virtuais ou transcrição em tempo real. Essas tecnologias já estão disponíveis no mercado. Em 2019, a CISCO Webex adquiriu tecnologia de tradução em tempo real ao adquirir o Voicea, uma reunião profissional e tecnologia de voz baseada em IA. Atualmente, o Cisco Webex oferece tradução simultânea em 9 idiomas. A solução apresentada usa o Google Tradutor e aprendizado de máquina de voz. A parte do Google é a mesma da tradução, e a parte de voz é o reconhecimento automático de fala e captura de gravação e assinatura. É aí que entra o aprendizado de máquina: à medida que mais e mais pessoas usam esse recurso, a tradução melhora com o tempo à medida que você aprende mais tipos de sons e dialetos. No entanto, a parte palavra por palavra é o Google Translate.

Por sua vez, em outubro de 2021, a Microsoft publicou um modelo muito complexo de Transformer Network para tradução automática (Very Deep Transformers for Neural Machine Translation) e demonstrou que seus modelos para pares de idiomas comuns (inglês, francês e alemão) atualmente fornecem a melhor tradução de alta qualidade . Os métodos baseados em transformadores também melhoram significativamente a qualidade do reconhecimento de voz. Conforme observado pelo Dr. Marek Kozowski, seu maior negócio é a facilidade de implementação, você não precisa contratar dezenas de cientistas para ajustá-los a um aplicativo específico para executá-los. Nesse caso, depende muito do tamanho do conjunto de treinamento e de quanto poder de computação temos que aprender com esses modelos. Tudo se tornou muito mais simples do lado do consumidor e integrado, e essas redes, apesar de sua complexidade, são mais acessíveis e menos caras de usar. Além disso, a disponibilidade de pilhas de placas gráficas permite treinar rapidamente esses modelos e obter resultados cada vez melhores.

Artigos relacionados

Botão Voltar ao topo