Помогут ли технологии выучить иностранные языки?
Помогут ли технологии выучить иностранные языки?
Технологии разговорного ИИ становятся повсеместными, и на рынок выходит все больше продуктов, использующих автоматическое распознавание речи, понимание естественного языка и синтез речи. Специалист по машинному обучению — профессия будущего.
Вы помните, как втискивали английские или немецкие слова в игру в блэкджек? Для потомков это было бы все равно, что лепить глиняные таблички из камыша.
Через год деловые встречи в командах и зуме могли выглядеть так: покупаю биткойн-аватарку (прям как я, только красивее), потом настраиваю себе в офисной версии, добавляя возможность машинного перевода. Теперь я могу говорить на урду. или хинди.
Проверьте также:
На данный момент это пока только фантастика, в мире почти 6,5 тысяч человек. языков, и процесс обучения на этой базе требует времени и ресурсов. Однако теперь возможен автоматический перевод в режиме реального времени на самые популярные языки — английский, французский и немецкий.
Почему живой перевод так сложен? Начнем с того, что вам предстоит объединить две разные технологии: первый слой — это распознавание речи, то есть преобразование голоса в текст. Вторая проблема — машинный перевод. Программная система машинного перевода интерпретирует структуру предложения исходного языка (с которого мы переводим) и создает перевод на основе грамматики целевого языка (на который мы переводим). Этот процесс включает в себя разрушение сложных и разнообразных структур предложений, определение частей речи, устранение двусмысленностей и сборку информации в компоненты и структуру нового языка.
Первоначально для этих задач использовались статистические методы. В машинном переводе и распознавании речи изначально использовались статистические устройства, такие как скрытые цепи Маркова. «Примерно с 2013-2015 года произошло изменение методов, и мы наблюдаем переход от классических, статистических и вероятностных моделей к алгоритмам, основанным на глубоком машинном обучении. В настоящее время мы разрабатываем и развиваем такие модели в OPI PIB», — говорит Доктор М. Марек Козовски, руководитель лаборатории лингвистической инженерии. Алгоритмы глубокого обучения изначально были усовершенствованы при обработке изображений. Они отлично классифицируют изображения, которые быстро внедряются в медицину. Алгоритмы, например, поддерживают работу рентгенолога, потому что они очень эффективно обнаруживают нарушения в изображениях. Британцы недавно сообщили о работе по использованию искусственного интеллекта в ранней диагностике болезни Альцгеймера на основе анализа речи респондентов.
Еще один большой прорыв произошел 5 лет назад. В 2017 году были опубликованы первые исследовательские статьи Google Brain об использовании Transformer Networks на основе механизма самоконтроля. «Одной из вех, позволивших более быстрый и широкий переход от лаборатории к индустрии, стал приход глубокой нейронной сети типа «Трансформатор». Через два года — в 2019 году — уже было много научных публикаций об этих сетях и их несколько приложений», — продолжает доктор. Козовский. В конце 2021 года его команда выиграла национальный конкурс, организованный Centrum Govtech и UOKiK, который связан с искусственным интеллектом. Он заключается в разработке интеллектуальных методов, поддерживающих раскрытие запрещенных положений в контрактах. Именно использование сетей Transformer покорило инженеров OPI, позволяя более точно и быстро обнаруживать определенные строки, по сравнению с классическими методами машинного обучения или даже с глубокими рекурсивными сетями. Говоря о качественном показателе точности, обеспечиваемом трансформаторными сетями, можно сказать, что это примерно на 5-10 % больше, чем у лучших предыдущих подходов. Теоретически немного, но с учетом эффекта масштаба это уже начинает существенно влиять на окончательную приемку и финансовую прибыль. Прежде всего, сети Transformer также быстрее (они способны обрабатывать больше данных за меньшее время) и их легче внедрять в отрасли благодаря множеству библиотек или количеству предварительно обученных моделей. Это также не требует больших групп ученых для долгосрочной настройки», — говорит Марек Козовский, который говорит, что в настоящее время преобразователи являются первой и лучшей архитектурой выбора (например, архитектура BERT или GPT-3) в задачах обработки естественного языка (NLP). В задаче распознавания речи сети-трансформеры также стали наиболее качественным решением. Однако в последнее время появились модели под названием Vision Transformer (ViT), которые предлагают чистую модель сети-трансформера, без необходимости сверточных блоков.
Это может быть ваш виртуальный сотрудник
Отчет исследовательской и консалтинговой компании Metrigy об интеллектуальных виртуальных помощниках показал, что почти 24% респондентов посещают встречи с людьми, не говорящими по-английски. Затраты на перевод, зачастую немалые. Иногда человек-переводчик может, например, заболеть, чего не случилось бы с машиной. Да, качество машинных переводов еще не сравнится с человеческим переводом, и ИИ не будет чувствовать себя циничным или точным, но в реалиях повседневного бизнеса, особенно в специализированных переводах, оно становится лучше. Более половины опрошенных компаний используют сторонние сервисы для перевода того, что говорят другие, а средняя стоимость такого перевода составляет 172 доллара за встречу. Интеграция интеллектуальных виртуальных помощников для совещаний с функциями перевода позволяет значительно сократить расходы.
Благодаря новым инструментам и технологиям стало проще, чем когда-либо, создать приложение для чата с искусственным интеллектом, позволяющее использовать гораздо более широкий спектр приложений, таких как виртуальные помощники или транскрипция в реальном времени. Эти технологии уже доступны на рынке. В 2019 году CISCO Webex приобрела технологию перевода в реальном времени, приобретя Voicea, профессиональную конференцию и голосовую технологию на основе искусственного интеллекта. Cisco Webex в настоящее время предлагает синхронный перевод на 9 языков. Представленное решение использует Google Translate и голосовое машинное обучение. Часть Google такая же, как и перевод, а голосовая часть — это автоматическое распознавание речи, захват записи и подпись. Здесь на помощь приходит машинное обучение: по мере того, как все больше и больше людей используют эту функцию, перевод со временем улучшается по мере того, как вы изучаете все больше типов звуков и диалектов. Однако дословная часть — это Google Translate.
В свою очередь, в октябре 2021 года Microsoft опубликовала очень сложную модель Transformer Network для машинного перевода (Very Deep Transformers for Neural Machine Translation) и продемонстрировала, что ее модели для общих языковых пар (английский, французский и немецкий) в настоящее время обеспечивают наилучший качественный перевод. . Методы на основе трансформаторов также значительно улучшают качество распознавания голоса. Как отмечает Др. Марек Козовски, их главный бизнес — простота реализации, вам не нужно нанимать десятки ученых, чтобы настроить их на конкретное приложение для их запуска. В этом случае многое зависит от размера обучающей выборки и от того, какую вычислительную мощность мы должны извлечь из этих моделей. Со стороны потребителя и интеграции все стало намного проще, и эти сети, несмотря на их сложность, более доступны и менее дороги в использовании. Кроме того, наличие стеков видеокарт позволяет быстро обучать эти модели и добиваться все лучших и лучших результатов.