¿La tecnología nos ayudará a aprender idiomas extranjeros?
¿La tecnología nos ayudará a aprender idiomas extranjeros?
Las tecnologías de IA conversacional se están volviendo omnipresentes, y cada vez más productos que utilizan el reconocimiento de voz automático, la comprensión del lenguaje natural y la síntesis de voz han ingresado al mercado. El especialista en aprendizaje automático es la profesión del futuro.
¿Recuerdas meter palabras en inglés o alemán en un juego de blackjack? Para la posteridad, sería como esculpir tablas de arcilla con cañas.
En un año, las reuniones de negocios en equipos y zoome podrían verse así: compro un avatar de bitcoin (igual que yo, solo que más bonito), luego me instalo en la versión de oficina, agregando la opción de traducción automática. Ahora puedo hablar urdu. o hindi.
Compruebe también:
Por el momento, todavía es solo una fantasía, hay casi 6.500 personas en el mundo. idiomas, y el proceso de aprendizaje a partir de esta base requiere tiempo y recursos. Sin embargo, ahora es posible la traducción automática en tiempo real a los idiomas más populares: inglés, francés y alemán.
¿Por qué es tan difícil la traducción en vivo? Empecemos por el hecho de que hay que combinar dos tecnologías diferentes: la primera capa es el reconocimiento de voz, es decir, la conversión de voz a texto. El segundo problema es la traducción automática. El sistema de software de traducción automática interpreta la estructura de la oración del idioma de origen (del que estamos traduciendo) y crea una traducción basada en la gramática del idioma de destino (al que estamos traduciendo). El proceso implica desglosar estructuras de oraciones complejas y diversas, identificar partes del discurso, resolver ambigüedades y ensamblar información en los componentes y la estructura de un nuevo idioma.
Inicialmente, se utilizaron métodos estadísticos para estas tareas. En la traducción automática y el reconocimiento de voz, inicialmente se utilizaron dispositivos estadísticos, como cadenas de Markov ocultas. «Desde aproximadamente 2013-2015, ha habido un cambio en los métodos, y hemos visto un cambio de modelos clásicos, estadísticos y probabilísticos a algoritmos basados en aprendizaje automático profundo. Actualmente estamos desarrollando y desarrollando dichos modelos en OPI PIB «, dice doctor m Marek Kozowski, Jefe del Laboratorio de Ingeniería Lingüística. Los algoritmos de aprendizaje profundo se refinaron inicialmente en el procesamiento de imágenes. Son excelentes para categorizar imágenes que se incorporan rápidamente a la medicina. Los algoritmos, por ejemplo, apoyan el trabajo de un radiólogo, porque detectan irregularidades en las imágenes de manera muy efectiva. El británico informó recientemente de un trabajo sobre el uso de la inteligencia artificial en el diagnóstico precoz de la enfermedad de Alzheimer basado en el análisis del habla de los encuestados.
Otro gran avance ocurrió hace 5 años. En 2017, se publicaron los primeros artículos de investigación de Google Brain sobre el uso de redes de transformadores basadas en el mecanismo de autoatención. «Uno de los hitos que permitió una transición más rápida y amplia del laboratorio a la industria fue la llegada de la red neuronal profunda tipo Transformer. Dos años después, en 2019, ya había muchas publicaciones científicas sobre estas redes y su múltiples aplicaciones», continúa el Dr. Kozovski. A fines de 2021, su equipo ganó una competencia nacional organizada por Centrum Govtech y UOKiK, que está relacionada con la inteligencia artificial. Consiste en desarrollar métodos inteligentes que apoyen la divulgación de cláusulas prohibidas en los contratos. Fue el uso de redes de transformadores lo que ganó a los ingenieros de OPI, lo que permitió una detección más precisa y rápida de ciertas cadenas, en comparación con los métodos clásicos de aprendizaje automático o incluso con redes recursivas profundas. Hablando de la medida de precisión cualitativa que proporciona Transformer Grids, se trata de una mejora del 5 al 10 % con respecto a los mejores enfoques anteriores. No mucho en teoría, pero teniendo en cuenta el efecto de escala, ya está empezando a afectar significativamente la aceptación final y las ganancias financieras. En primer lugar, las redes Transformer también son más rápidas (pueden procesar más datos en menos tiempo) y más fáciles de implementar en la industria gracias a la multiplicidad de bibliotecas o la cantidad de modelos preentrenados. Tampoco requiere grandes equipos de científicos para el ajuste a largo plazo «, dice Marek Kozowski. Él dice que los transductores son actualmente la arquitectura de primera y mejor elección (como la arquitectura BERT o GPT-3) en tareas de procesamiento de lenguaje natural (NLP) En una tarea de reconocimiento de voz, las redes de transformadores también se han convertido en la solución de mejor calidad.Sin embargo, recientemente han aparecido modelos denominados Vision Transformer (ViT), que ofrecen un modelo puro de una red de transformadores, sin necesidad de bloques convolucionales.
Puede ser tu compañero de trabajo virtual
Un informe de la firma de investigación y consultoría Metrigy sobre asistentes virtuales inteligentes encontró que casi el 24% de los encuestados asisten a reuniones con personas que no hablan inglés. Costos de traducción, a menudo no insignificantes. A veces, un traductor humano puede enfermarse, por ejemplo, lo que no le sucedería a una máquina. Sí, la calidad de las traducciones automáticas aún no es igual a la de las traducciones humanas, y la IA no se sentirá cínica o precisa, pero está mejorando en las realidades de los negocios cotidianos, especialmente con traducciones especializadas. Más de la mitad de las empresas encuestadas utilizan servicios externos para traducir lo que otros dicen, y el costo promedio de dicha traducción es de $172 por reunión. La integración de asistentes de reuniones virtuales inteligentes con funciones de traducción le permite reducir significativamente los costos.
Con las nuevas herramientas y tecnologías, es más fácil que nunca crear una aplicación de chat de IA, lo que permite una gama mucho más amplia de aplicaciones, como asistentes virtuales o transcripción en tiempo real. Estas tecnologías ya están disponibles en el mercado. En 2019, CISCO Webex adquirió tecnología de traducción en tiempo real al adquirir Voicea, una reunión profesional y tecnología de voz basada en IA. Cisco Webex actualmente ofrece traducción simultánea a 9 idiomas. La solución presentada utiliza Google Translate y aprendizaje automático de voz. La parte de Google es la misma que la traducción, y la parte de voz es reconocimiento de voz automático y captura y firma de grabación. Aquí es donde entra en juego el aprendizaje automático: a medida que más y más personas usan esta función, la traducción mejora con el tiempo a medida que aprende más tipos de sonidos y dialectos. Sin embargo, la parte palabra por palabra es Google Translate.
A su vez, en octubre de 2021, Microsoft publicó un modelo muy complejo de Transformer Network para traducción automática (Very Deep Transformers for Neural Machine Translation) y demostró que sus modelos para pares de idiomas comunes (inglés, francés y alemán) actualmente brindan la mejor traducción de alta calidad. . Los métodos basados en transformadores también mejoran significativamente la calidad del reconocimiento de voz. Como señaló el Dr. Marek Kozowski, su mayor negocio es la facilidad de implementación, no necesita contratar a docenas de científicos para ajustarlos a una aplicación específica para ejecutarlos. En este caso, mucho depende del tamaño del conjunto de entrenamiento y de cuánta potencia informática tengamos que aprender de estos modelos. Todo se ha vuelto mucho más simple en el lado del consumidor e integrado, y estas redes, a pesar de su complejidad, son más accesibles y menos costosas de usar. Además, la disponibilidad de pilas de tarjetas gráficas le permite entrenar rápidamente estos modelos y lograr mejores y mejores resultados.