技术会帮助我们学习外语吗?
技术会帮助我们学习外语吗?
会话人工智能技术正变得无处不在,越来越多的使用自动语音识别、自然语言理解和语音合成的产品进入市场。机器学习专家是未来的职业。
你还记得在二十一点游戏中塞进英语或德语单词吗?对于后人来说,这就像用芦苇雕刻泥板一样。
一年后,团队和 zoome 的商务会议可能是这样的:我买了一个比特币头像(和我一样,只是更漂亮),然后将自己设置为 office 版本,添加机器翻译选项。现在我可以说乌尔都语了。或印地语。
还要检查:
此刻,这还只是一个幻想,世界上有将近六千五千人。语言,从这个基础学习的过程需要时间和资源。但是,现在可以自动实时翻译成最流行的语言——英语、法语和德语。
为什么现场翻译这么难?让我们从你必须结合两种不同技术的事实开始:第一层是语音识别,即语音到文本的转换。第二个问题是机器翻译。机器翻译软件系统解释源语言(我们正在翻译的)的句子结构,并根据目标语言(我们正在翻译成的)的语法创建翻译。该过程包括分解复杂多样的句子结构、识别词性、解决歧义以及将信息组装成新语言的组件和结构。
最初,统计方法用于这些任务。在机器翻译和语音识别中,最初使用了统计设备,例如隐藏马尔可夫链。“自 2013-2015 年以来,方法发生了变化,我们看到了从经典、统计和概率模型到基于深度机器学习的算法的转变。我们目前正在 OPI PIB 中开发和开发此类模型” – 说博士。Marek Kozowski,语言工程实验室负责人。深度学习算法最初是在图像处理中改进的。他们非常擅长对迅速融入医学的图像进行分类。例如,算法支持放射科医生的工作,因为它们非常有效地检测图像中的不规则性。英国最近报道了基于对受访者言语分析的人工智能在阿尔茨海默病早期诊断中的应用。
另一个重大突破发生在 5 年前。2017 年,Google Brain 第一篇关于使用基于 Self Attention Mechanism 的 Transformer Networks 的研究文章发表。“实现从实验室更快、更广泛地过渡到工业的里程碑之一是 Transformer 型深度神经网络的到来。两年后 – 2019 年 – 已经有很多关于这些网络及其网络的科学出版物多种应用,”博士继续说道。科佐夫斯基。2021年底,他的团队在Centrum Govtech和UOKiK组织的人工智能相关的全国竞赛中获胜。它包括开发支持披露合同中禁止条款的智能方法。与经典的机器学习方法甚至深度递归网络相比,使用 Transformer 网络赢得了 OPI 工程师的青睐,可以更准确、更快地检测某些字符串。说到 Transformer Grids 提供的定性精度测量,这比以前的最佳方法提高了 5-10%。理论上不多,但考虑到规模效应,它已经开始显着影响最终验收和财务利润。首先,由于库的多样性或预训练模型的数量,Transformer 网络也更快(它们能够在更短的时间内处理更多数据)并且更容易在行业中实施。它也不需要大型科学家团队进行长期调优”——Marek Kozowski 说。他说,传感器目前是自然语言处理 (NLP) 任务中的首选和最佳选择架构(例如 BERT 或 GPT-3 架构) . 在语音识别任务中,Transformer 网络也成为了质量最好的解决方案。然而,最近出现了称为 Vision Transformer (ViT) 的模型,它提供了一个纯粹的 Transformer 网络模型,不需要卷积块。
它可以是你的虚拟同事
研究和咨询公司 Metrigy 的一份关于智能虚拟助手的报告发现,近 24% 的受访者与非英语人士会面。翻译成本,往往不小。例如,有时人工翻译会生病,这不会发生在机器上。是的,机器翻译的质量仍然不及人工翻译,人工智能不会让人感到愤世嫉俗或准确,但它在日常业务的现实中变得越来越好,尤其是在专业翻译方面。超过一半的受访公司使用外部服务来翻译他人的言论,此类翻译的平均成本为每次会议 172 美元。将智能虚拟会议助手与翻译功能相结合,可以显着降低成本。
借助新的工具和技术,创建 AI 聊天应用程序比以往任何时候都更加容易,从而支持更广泛的应用程序,例如虚拟助手或实时转录。这些技术已经在市场上可用。2019年,CISCO Webex通过收购专业会议和基于AI的语音技术Voicea,获得了实时翻译技术。Cisco Webex 目前提供 9 种语言的同声传译。提出的解决方案使用谷歌翻译和语音机器学习。谷歌部分和翻译一样,语音部分是自动语音识别和录音采集签名。这就是机器学习的用武之地:随着越来越多的人使用此功能,随着您学习更多类型的声音和方言,翻译会随着时间的推移而提高。但是,逐字逐句的部分是谷歌翻译。
反过来,微软在 2021 年 10 月发布了一个非常复杂的用于机器翻译的 Transformer Network 模型(Very Deep Transformers for Neural Machine Translation),并证明其用于通用语言对(英语、法语和德语)的模型目前提供了最好的高质量翻译. 基于 Transformer 的方法也显着提高了语音识别的质量。正如博士所说。Marek Kozowski,他们最大的业务是易于实施,您无需雇用数十名科学家来调整它们以适应特定的应用程序来运行它们。在这种情况下,很大程度上取决于训练集的大小以及我们必须从这些模型中学习多少计算能力。在消费者和集成方面,一切都变得更加简单,这些网络尽管复杂,但更易于访问且使用成本更低。此外,显卡堆栈的可用性使您可以快速训练这些模型并获得越来越好的结果。