人工智能

 技术会帮助我们学习外语吗?

 技术会帮助我们学习外语吗?

会话人工智能技术正变得无处不在,越来越多的使用自动语音识别、自然语言理解和语音合成的产品进入市场。机器学习专家是未来的职业。


不飞溅
马库斯·温克勒
 

你还记得在二十一点游戏中塞进英语或德语单词吗?对于后人来说,这就像用芦苇雕刻泥板一样。

一年后,团队和 zoome 的商务会议可能是这样的:我买了一个比特币头像(和我一样,只是更漂亮),然后将自己设置为 office 版本,添加机器翻译选项。现在我可以说乌尔都语了。或印地语。

还要检查:

此刻,这还只是一个幻想,世界上有将近六千五千人。语言,从这个基础学习的过程需要时间和资源。但是,现在可以自动实时翻译成最流行的语言——英语、法语和德语。

为什么现场翻译这么难?让我们从你必须结合两种不同技术的事实开始:第一层是语音识别,即语音到文本的转换。第二个问题是机器翻译。机器翻译软件系统解释源语言(我们正在翻译的)的句子结构,并根据目标语言(我们正在翻译成的)的语法创建翻译。该过程包括分解复杂多样的句子结构、识别词性、解决歧义以及将信息组装成新语言的组件和结构。

最初,统计方法用于这些任务。在机器翻译和语音识别中,最初使用了统计设备,例如隐藏马尔可夫链。“自 2013-2015 年以来,方法发生了变化,我们看到了从经典、统计和概率模型到基于深度机器学习的算法的转变。我们目前正在 OPI PIB 中开发和开发此类模型” – 说博士。Marek Kozowski,语言工程实验室负责人。深度学习算法最初是在图像处理中改进的。他们非常擅长对迅速融入医学的图像进行分类。例如,算法支持放射科医生的工作,因为它们非常有效地检测图像中的不规则性。英国最近报道了基于对受访者言语分析的人工智能在阿尔茨海默病早期诊断中的应用。

另一个重大突破发生在 5 年前。2017 年,Google Brain 第一篇关于使用基于 Self Attention Mechanism 的 Transformer Networks 的研究文章发表。“实现从实验室更快、更广泛地过渡到工业的里程碑之一是 Transformer 型深度神经网络的到来。两年后 – 2019 年 – 已经有很多关于这些网络及其网络的科学出版物多种应用,”博士继续说道。科佐夫斯基。2021年底,他的团队在Centrum Govtech和UOKiK组织的人工智能相关的全国竞赛中获胜。它包括开发支持披露合同中禁止条款的智能方法。与经典的机器学习方法甚至深度递归网络相比,使用 Transformer 网络赢得了 OPI 工程师的青睐,可以更准确、更快地检测某些字符串。说到 Transformer Grids 提供的定性精度测量,这比以前的最佳方法提高了 5-10%。理论上不多,但考虑到规模效应,它已经开始显着影响最终验收和财务利润。首先,由于库的多样性或预训练模型的数量,Transformer 网络也更快(它们能够在更短的时间内处理更多数据)并且更容易在行业中实施。它也不需要大型科学家团队进行长期调优”——Marek Kozowski 说。他说,传感器目前是自然语言处理 (NLP) 任务中的首选和最佳选择架构(例如 BERT 或 GPT-3 架构) . 在语音识别任务中,Transformer 网络也成为了质量最好的解决方案。然而,最近出现了称为 Vision Transformer (ViT) 的模型,它提供了一个纯粹的 Transformer 网络模型,不需要卷积块。

它可以是你的虚拟同事

研究和咨询公司 Metrigy 的一份关于智能虚拟助手的报告发现,近 24% 的受访者与非英语人士会面。翻译成本,往往不小。例如,有时人工翻译会生病,这不会发生在机器上。是的,机器翻译的质量仍然不及人工翻译,人工智能不会让人感到愤世嫉俗或准确,但它在日常业务的现实中变得越来越好,尤其是在专业翻译方面。超过一半的受访公司使用外部服务来翻译他人的言论,此类翻译的平均成本为每次会议 172 美元。将智能虚拟会议助手与翻译功能相结合,可以显着降低成本。

借助新的工具和技术,创建 AI 聊天应用程序比以往任何时候都更加容易,从而支持更广泛的应用程序,例如虚拟助手或实时转录。这些技术已经在市场上可用。2019年,CISCO Webex通过收购专业会议和基于AI的语音技术Voicea,获得了实时翻译技术。Cisco Webex 目前提供 9 种语言的同声传译。提出的解决方案使用谷歌翻译和语音机器学习。谷歌部分和翻译一样,语音部分是自动语音识别和录音采集签名。这就是机器学习的用武之地:随着越来越多的人使用此功能,随着您学习更多类型的声音和方言,翻译会随着时间的推移而提高。但是,逐字逐句的部分是谷歌翻译。

反过来,微软在 2021 年 10 月发布了一个非常复杂的用于机器翻译的 Transformer Network 模型(Very Deep Transformers for Neural Machine Translation),并证明其用于通用语言对(英语、法语和德语)的模型目前提供了最好的高质量翻译. 基于 Transformer 的方法也显着提高了语音识别的质量。正如博士所说。Marek Kozowski,他们最大的业务是易于实施,您无需雇用数十名科学家来调整它们以适应特定的应用程序来运行它们。在这种情况下,很大程度上取决于训练集的大小以及我们必须从这些模型中学习多少计算能力。在消费者和集成方面,一切都变得更加简单,这些网络尽管复杂,但更易于访问且使用成本更低。此外,显卡堆栈的可用性使您可以快速训练这些模型并获得越来越好的结果。

Related Articles

Artificial intelligence

 Will technology help us learn foreign languages?

 Will technology help us learn foreign languages?

Conversational AI technologies are becoming ubiquitous, and more and more products using automatic speech recognition, natural language understanding and speech synthesis have entered the market. Machine learning specialist is the profession of the future.


Unsplash
Marcus Winkler
 

Do you remember cramming English or German words into a blackjack game? For posterity, it would be like sculpting clay tablets with reeds.

In a year, business meetings in teams and zoome could look like this: I buy a bitcoin avatar (just like me, only prettier), then set myself up in the office version, adding the option of machine translation. Now I can speak Urdu. or Hindi.

Check also:

At the moment, it is still just a fantasy, there are almost 6.5 thousand people in the world. languages, and the process of learning from this base takes time and resources. However, automatic real-time translation into the most popular languages ​​- English, French and German is now possible.

Why is live translation so difficult? Let’s start with the fact that you have to combine two different technologies: the first layer is speech recognition, that is, the conversion of voice to text. The second issue is machine translation. The machine translation software system interprets the sentence structure of the source language (from which we are translating) and creates a translation based on the grammar of the target language (which we are translating into). The process involves breaking down complex and diverse sentence structures, identifying parts of speech, resolving ambiguities, and assembling information into the components and structure of a new language.

في البداية ، تم استخدام الأساليب الإحصائية لهذه المهام. في الترجمة الآلية والتعرف على الكلام ، في البداية ، تم استخدام الجهاز الإحصائي ، مثل سلاسل ماركوف المخفية. “منذ حوالي 2013-2015 ، حدث تغيير في الأساليب ، وشهدنا تحولًا من النماذج الكلاسيكية والإحصائية والاحتمالية إلى الخوارزميات القائمة على التعلم الآلي العميق. نحن نعمل حاليًا على تطوير وتطوير مثل هذه النماذج في OPI PIB “- كما يقول الدكتور م. ماريك كوزوفسكي ، رئيس مختبر الهندسة اللغوية. تم تنقيح خوارزميات التعلم العميق في البداية في معالجة الصور. فهي ممتازة في تصنيف الصور التي سرعان ما ضمها الطب. الخوارزميات ، على سبيل المثال ، تدعم عمل اختصاصي الأشعة ، لأنها تكتشف المخالفات في الصور بشكل فعال للغاية. أبلغ البريطانيون مؤخرًا عن العمل على استخدام الذكاء الاصطناعي في التشخيص المبكر لمرض الزهايمر بناءً على تحليل كلام المستجيبين.

حدث اختراق كبير آخر قبل 5 سنوات. في عام 2017 ، تم نشر أول مقالات بحثية من Google Brain حول استخدام شبكات Transformer بناءً على آلية الانتباه الذاتي. “كان أحد المعالم البارزة التي أتاحت انتقالًا أسرع وأوسع من المختبر إلى الصناعة هو وصول الشبكة العصبية العميقة من نوع Transformer. بعد ذلك بعامين – في عام 2019 – كان هناك بالفعل الكثير من المنشورات العلمية حول هذه الشبكات وتطبيقاتها المتعددة “، يتابع د. كوزوفسكي. في نهاية عام 2021 ، فاز فريقه في مسابقة وطنية نظمتها Centrum Govtech و UOKiK ، والتي تتعلق بالذكاء الاصطناعي. يتمثل في تطوير أساليب ذكية تدعم الكشف عن البنود المحظورة في العقود. لقد كان استخدام شبكات Transformer هو الذي فاز بمهندسي OPI ، مما سمح باكتشاف أكثر دقة وأسرع لجمل معينة ، مقارنة بأساليب التعلم الآلي الكلاسيكية أو حتى الشبكات العودية العميقة. بالحديث عن مقياس الدقة النوعية الذي توفره شبكات Transformer ، فهذا يمثل تحسنًا بنسبة 5-10٪ تقريبًا عن أفضل الأساليب السابقة. ليس كثيرًا من الناحية النظرية ، ولكن مع الأخذ في الاعتبار تأثير المقياس ، فقد بدأ بالفعل في التأثير بشكل كبير على القبول النهائي والأرباح المالية. بادئ ذي بدء ، تعد شبكات Transformer أيضًا أسرع (فهي قادرة على معالجة المزيد من البيانات في وقت أقل) وأسهل للتطبيق في الصناعة بفضل تعدد المكتبات أو عدد النماذج المدربة مسبقًا. كما أنها لا تتطلب فرقًا كبيرة من العلماء لضبط طويل المدى “- يقول ماريك كوزوفسكي. كما يقول ، المحولات هي حاليًا بنية الخيار الأول والأفضل (مثل هندسة BERT أو GPT-3) في مهام معالجة اللغة الطبيعية (NLP). في مهمة التعرف على الكلام ، أصبحت شبكات Transformer أيضًا أفضل حل جودة. ومع ذلك ، ظهرت مؤخرًا نماذج تسمى Vision Transformer (ViT) ، والتي تقدم نموذجًا خالصًا لشبكة المحولات ، دون الحاجة إلى الكتل التلافيفية. تظهر الأبحاث أن ViT يمكن أن يتفوق في الأداء على معظم الشبكات التلافيفية الحديثة على مجموعة متنوعة من مجموعات بيانات التعرف على الصور ، مع موارد حسابية أقل بشكل ملحوظ.

يمكن أن يكون زميلك في العمل افتراضيًا

وجد تقرير صادر عن شركة الأبحاث والاستشارات Metrigy عن المساعدين الافتراضيين الأذكياء أن ما يقرب من 24 ٪ من المستجيبين يحضرون اجتماعات مع غير المتحدثين باللغة الإنجليزية. تكاليف الترجمة ، في كثير من الأحيان ليست ضئيلة. في بعض الأحيان يمكن أن يمرض مترجم بشري ، على سبيل المثال ، وهو ما لن يحدث للآلة. نعم ، لا تزال جودة الترجمات الآلية غير متساوية مع الترجمات البشرية ، ولن يشعر الذكاء الاصطناعي بالسخرية أو الدقة ، ولكنه يتحسن في واقع الأعمال اليومية ، خاصةً مع الترجمات المتخصصة. تستخدم أكثر من نصف الشركات التي شملها الاستطلاع خدمات خارجية لترجمة ما يقوله الآخرون ، ويبلغ متوسط ​​تكلفة هذه الترجمة 172 دولارًا لكل اجتماع. يتيح لك دمج مساعدي الاجتماع الظاهري الأذكياء مع وظائف الترجمة تقليل التكاليف بشكل كبير.

بفضل الأدوات والتقنيات الجديدة ، أصبح إنشاء تطبيق AI للمحادثة أسهل من أي وقت مضى ، مما يتيح نطاقًا أوسع بكثير من التطبيقات ، مثل المساعدين الافتراضيين أو النسخ في الوقت الفعلي. هذه التقنيات متوفرة بالفعل في السوق. في عام 2019 ، استحوذت CISCO Webex على تقنية الترجمة في الوقت الفعلي من خلال الاستحواذ على Voicea ، وهو اجتماع متخصص وتكنولوجيا الصوت القائمة على الذكاء الاصطناعي. تقدم Cisco Webex حاليًا ترجمة فورية إلى 9 لغات. يستخدم الحل المقدم ترجمة Google والتعلم الآلي الصوتي. جزء Google هو نفس الترجمة ، والجزء الصوتي هو التعرف التلقائي على الكلام والتقاط التسجيلات وتوقيعها. هذا هو المكان الذي يأتي فيه التعلم الآلي: نظرًا لأن المزيد والمزيد من الأشخاص يستخدمون هذه الميزة ، تتحسن الترجمة بمرور الوقت حيث تتعلم المزيد من أنواع الأصوات واللهجات. ومع ذلك ، فإن جزء كلمة مقابل كلمة هو Google Translate.

In turn, in October 2021 Microsoft published a very complex Transformer network model for machine translation (Very Deep Transformers for Neural Machine Translation) and demonstrated that its models for common language pairs (English, French and German) currently provide the best high-quality translation. Transformer-based methods also significantly improve the quality of voice recognition. As noted by Dr. Marek Kozowski, their biggest business is ease of implementation, you don’t need to hire dozens of scientists to tune them to a specific application to run them. In this case, a lot depends on the size of the training set and how much computing power we have to learn from these models. Everything has become much simpler on the consumer and integrated side, and these networks, despite their complexity, are more accessible and less expensive to use. In addition, the availability of graphics card stacks allows you to quickly train these models and achieve better and better results.

Related Articles

L'intelligence artificielle

 La technologie nous aidera-t-elle à apprendre des langues étrangères ?

 La technologie nous aidera-t-elle à apprendre des langues étrangères ?

Les technologies d’IA conversationnelle deviennent omniprésentes et de plus en plus de produits utilisant la reconnaissance automatique de la parole, la compréhension du langage naturel et la synthèse vocale sont entrés sur le marché. Le spécialiste de l’apprentissage automatique est le métier d’avenir.


Unsplash
Marcus Winkel
 

Vous souvenez-vous d’avoir fourré des mots anglais ou allemands dans un jeu de blackjack ? Pour la postérité, ce serait comme sculpter des tablettes d’argile avec des roseaux.

Dans un an, les réunions de travail en équipe et zoome pourraient ressembler à ça : j’achète un avatar bitcoin (tout comme moi, en plus joli), puis je m’installe en version bureautique, en y ajoutant l’option de traduction automatique. Maintenant, je peux parler ourdou. ou hindi.

Vérifiez également :

Pour le moment, ce n’est encore qu’un fantasme, il y a près de 6,5 mille personnes dans le monde. langues, et le processus d’apprentissage à partir de cette base prend du temps et des ressources. Cependant, la traduction automatique en temps réel dans les langues les plus populaires – anglais, français et allemand est désormais possible.

Pourquoi la traduction en direct est-elle si difficile ? Commençons par le fait que vous devez combiner deux technologies différentes : la première couche est la reconnaissance vocale, c’est-à-dire la conversion de la voix en texte. Le deuxième problème est la traduction automatique. Le système logiciel de traduction automatique interprète la structure de la phrase de la langue source (à partir de laquelle nous traduisons) et crée une traduction basée sur la grammaire de la langue cible (vers laquelle nous traduisons). Le processus implique de décomposer des structures de phrases complexes et diverses, d’identifier des parties du discours, de résoudre des ambiguïtés et d’assembler des informations dans les composants et la structure d’une nouvelle langue.

Initialement, des méthodes statistiques ont été utilisées pour ces tâches. Dans la traduction automatique et la reconnaissance vocale, initialement, des dispositifs statistiques, tels que des chaînes de Markov cachées, ont été utilisés. “Depuis environ 2013-2015, il y a eu un changement dans les méthodes, et nous avons vu un passage des modèles classiques, statistiques et probabilistes aux algorithmes basés sur l’apprentissage automatique en profondeur. Nous développons et développons actuellement de tels modèles dans OPI PIB” – dit Dr M. Marek Kozowski, responsable du laboratoire d’ingénierie linguistique. Les algorithmes d’apprentissage en profondeur ont d’abord été affinés dans le traitement d’images. Ils sont excellents pour catégoriser les images qui sont rapidement intégrées à la médecine. Les algorithmes, par exemple, soutiennent le travail d’un radiologue, car ils détectent très efficacement les irrégularités des images. Les Britanniques ont récemment rapporté des travaux sur l’utilisation de l’intelligence artificielle dans le diagnostic précoce de la maladie d’Alzheimer basés sur l’analyse du discours des répondants.

Une autre grande percée s’est produite il y a 5 ans. En 2017, les premiers articles de recherche de Google Brain sur l’utilisation des Transformer Networks basés sur le Self Attention Mechanism ont été publiés. “L’un des jalons qui a permis une transition plus rapide et plus large du laboratoire vers l’industrie a été l’arrivée du réseau de neurones profonds de type Transformer. Deux ans plus tard – en 2019 – il y avait déjà beaucoup de publications scientifiques sur ces réseaux et leurs applications multiples », poursuit le Dr. Kozovsky. Fin 2021, son équipe a remporté un concours national organisé par Centrum Govtech et UOKiK, qui est lié à l’intelligence artificielle. Elle consiste à développer des méthodes intelligentes qui supportent la divulgation des clauses interdites dans les contrats. C’est l’utilisation des réseaux Transformer qui a séduit les ingénieurs d’OPI, permettant une détection plus précise et plus rapide de certaines chaînes, par rapport aux méthodes classiques d’apprentissage automatique ou même aux réseaux récursifs profonds. En parlant de la mesure de précision qualitative fournie par Transformer Grids, il s’agit d’une amélioration d’environ 5 à 10 % par rapport aux meilleures approches précédentes. Pas grand-chose en théorie, mais compte tenu de l’effet d’échelle, cela commence déjà à affecter significativement l’acceptation finale et les bénéfices financiers. Tout d’abord, les réseaux Transformer sont également plus rapides (ils sont capables de traiter plus de données en moins de temps) et plus faciles à mettre en œuvre dans l’industrie grâce à la multiplicité des bibliothèques ou au nombre de modèles pré-entraînés. Cela ne nécessite pas non plus de grandes équipes de scientifiques pour un réglage à long terme “- dit Marek Kozowski. Il dit que les transducteurs sont actuellement la première et la meilleure architecture de choix (telle que l’architecture BERT ou GPT-3) dans les tâches de traitement du langage naturel (NLP) Dans une tâche de reconnaissance vocale, les réseaux de transformateurs sont également devenus la meilleure solution de qualité.

Cela peut être votre collègue virtuel

Un rapport de la société de recherche et de conseil Metrigy sur les assistants virtuels intelligents a révélé que près de 24 % des personnes interrogées assistent à des réunions avec des non-anglophones. Coûts de traduction, souvent non négligeables. Parfois, un traducteur humain peut tomber malade, par exemple, ce qui n’arriverait pas à une machine. Oui, la qualité des traductions automatiques n’est toujours pas égale aux traductions humaines, et l’IA ne se sentira pas cynique ou précise, mais elle s’améliore dans les réalités des affaires quotidiennes, en particulier avec les traductions spécialisées. Plus de la moitié des entreprises interrogées utilisent des services externes pour traduire ce que les autres disent, et le coût moyen d’une telle traduction est de 172 $ par réunion. L’intégration d’assistants de réunion virtuels intelligents avec des fonctions de traduction vous permet de réduire considérablement les coûts.

Avec de nouveaux outils et technologies, il est plus facile que jamais de créer une application de chat IA, permettant une gamme beaucoup plus large d’applications, telles que les assistants virtuels ou la transcription en temps réel. Ces technologies sont déjà disponibles sur le marché. En 2019, CISCO Webex a acquis une technologie de traduction en temps réel en acquérant Voicea, une réunion professionnelle et une technologie vocale basée sur l’IA. Cisco Webex propose actuellement une traduction simultanée en 9 langues. La solution présentée utilise Google Translate et l’apprentissage automatique de la voix. La partie Google est la même que la traduction, et la partie vocale est la reconnaissance automatique de la parole et la capture et la signature de l’enregistrement. C’est là qu’intervient l’apprentissage automatique : à mesure que de plus en plus de personnes utilisent cette fonctionnalité, la traduction s’améliore au fil du temps à mesure que vous apprenez plus de types de sons et de dialectes. Cependant, la partie mot à mot est Google Translate.

À son tour, en octobre 2021, Microsoft a publié un modèle très complexe de Transformer Network pour la traduction automatique (Very Deep Transformers for Neural Machine Translation) et a démontré que ses modèles pour les paires de langues communes (anglais, français et allemand) fournissent actuellement la meilleure traduction de haute qualité. . Les méthodes basées sur les transformateurs améliorent également considérablement la qualité de la reconnaissance vocale. Comme l’a noté le Dr. Marek Kozowski, leur plus grande activité est la facilité de mise en œuvre, vous n’avez pas besoin d’embaucher des dizaines de scientifiques pour les régler sur une application spécifique pour les exécuter. Dans ce cas, beaucoup dépend de la taille de l’ensemble d’apprentissage et de la puissance de calcul que nous devons apprendre de ces modèles. Tout est devenu beaucoup plus simple côté consommateur et intégré, et ces réseaux, malgré leur complexité, sont plus accessibles et moins coûteux à utiliser. De plus, la disponibilité des piles de cartes graphiques vous permet de former rapidement ces modèles et d’obtenir des résultats de mieux en mieux.

Related Articles

Künstliche Intelligenz

 Wird Technologie uns helfen, Fremdsprachen zu lernen?

 Wird Technologie uns helfen, Fremdsprachen zu lernen?

Konversations-KI-Technologien werden allgegenwärtig, und immer mehr Produkte, die automatische Spracherkennung, natürliches Sprachverständnis und Sprachsynthese verwenden, kommen auf den Markt. Machine Learning Specialist ist der Beruf der Zukunft.


Unsplash
Markus Winkler
 

Erinnern Sie sich daran, englische oder deutsche Wörter in ein Blackjack-Spiel zu stopfen? Für die Nachwelt wäre es wie das Formen von Tontafeln mit Schilf.

In einem Jahr könnten Business-Meetings in Teams und Zoome so aussehen: Ich kaufe einen Bitcoin-Avatar (genau wie ich, nur schöner), richte mich dann in der Office-Version ein und füge die Option der maschinellen Übersetzung hinzu. Jetzt kann ich Urdu sprechen. oder Hindi.

Überprüfen Sie auch:

Im Moment ist es nur eine Fantasie, es gibt fast 6,5 Tausend Menschen auf der Welt. Sprachen, und der Prozess des Lernens von dieser Basis erfordert Zeit und Ressourcen. Allerdings ist jetzt eine automatische Echtzeitübersetzung in die gängigsten Sprachen – Englisch, Französisch und Deutsch – möglich.

Warum ist Live-Übersetzung so schwierig? Fangen wir damit an, dass man zwei unterschiedliche Technologien kombinieren muss: Die erste Schicht ist die Spracherkennung, also die Umwandlung von Sprache in Text. Das zweite Problem ist die maschinelle Übersetzung. Das Softwaresystem für die maschinelle Übersetzung interpretiert die Satzstruktur der Ausgangssprache (aus der wir übersetzen) und erstellt eine Übersetzung basierend auf der Grammatik der Zielsprache (in die wir übersetzen). Der Prozess umfasst das Aufschlüsseln komplexer und vielfältiger Satzstrukturen, das Identifizieren von Wortarten, das Auflösen von Mehrdeutigkeiten und das Zusammenfügen von Informationen in die Komponenten und die Struktur einer neuen Sprache.

Für diese Aufgaben wurden zunächst statistische Methoden eingesetzt. In der maschinellen Übersetzung und Spracherkennung wurden zunächst statistische Geräte wie Hidden Markov Chains verwendet. “Seit etwa 2013-2015 gab es einen Methodenwechsel, und wir haben eine Verschiebung von klassischen, statistischen und probabilistischen Modellen zu Algorithmen auf der Grundlage von tiefem maschinellem Lernen gesehen. Wir entwickeln und entwickeln derzeit solche Modelle in OPI PIB”, sagt er Dr.M. Marek Kozowski, Leiter des Linguistic Engineering Lab. Deep-Learning-Algorithmen wurden zunächst in der Bildverarbeitung verfeinert. Sie sind hervorragend darin, Bilder zu kategorisieren, die schnell in die Medizin einfließen. Algorithmen beispielsweise unterstützen die Arbeit eines Radiologen, weil sie Unregelmäßigkeiten in Bildern sehr effektiv erkennen. Die Briten berichteten kürzlich über Arbeiten zum Einsatz künstlicher Intelligenz bei der Früherkennung der Alzheimer-Krankheit auf der Grundlage der Analyse der Rede der Befragten.

Ein weiterer großer Durchbruch geschah vor 5 Jahren. Im Jahr 2017 wurden die ersten Forschungsartikel von Google Brain über die Verwendung von Transformer Networks basierend auf Self Attention Mechanism veröffentlicht. “Einer der Meilensteine, der einen schnelleren und breiteren Übergang vom Labor zur Industrie ermöglichte, war die Ankunft des tiefen neuronalen Netzwerks vom Transformer-Typ. Zwei Jahre später – im Jahr 2019 – gab es bereits viele wissenschaftliche Veröffentlichungen über diese Netzwerke und ihre mehrere Anwendungen”, fährt Dr. Kosowski. Ende 2021 gewann sein Team einen nationalen Wettbewerb, der von Centrum Govtech und UOKiK organisiert wurde und sich auf künstliche Intelligenz bezieht. Sie besteht darin, intelligente Methoden zu entwickeln, die die Offenlegung verbotener Klauseln in Verträgen unterstützen. Es war die Verwendung von Transformer-Netzwerken, die OPI-Ingenieure überzeugte, da sie eine genauere und schnellere Erkennung bestimmter Zeichenfolgen im Vergleich zu klassischen maschinellen Lernmethoden oder sogar tiefen rekursiven Netzwerken ermöglichten. Apropos qualitatives Genauigkeitsmaß, das Transformer Grids bieten, das ist eine Verbesserung von etwa 5-10 % gegenüber den besten vorherigen Ansätzen. Theoretisch nicht viel, aber unter Berücksichtigung des Skaleneffekts beginnt es bereits, die Endabnahme und die finanziellen Gewinne erheblich zu beeinflussen. Erstens sind Transformer-Netzwerke auch schneller (sie können mehr Daten in kürzerer Zeit verarbeiten) und dank der Vielzahl von Bibliotheken oder der Anzahl vortrainierter Modelle einfacher in der Industrie zu implementieren. Es sind auch keine großen Teams von Wissenschaftlern für die langfristige Abstimmung erforderlich”, sagt Marek Kozowski. Er sagt, dass Transducer derzeit die erste und beste Architektur (wie BERT oder GPT-3) für Aufgaben der Verarbeitung natürlicher Sprache (NLP) sind In einer Spracherkennungsaufgabe sind Transformer-Netzwerke auch die qualitativ beste Lösung geworden.Jedoch sind kürzlich Modelle namens Vision Transformer (ViT) erschienen, die ein reinesModell eines Transformer-Netzwerks ohne die Notwendigkeit von Faltungsblöckenbieten.

Es kann Ihr virtueller Mitarbeiter sein

Ein Bericht des Forschungs- und Beratungsunternehmens Metrigy über intelligente virtuelle Assistenten ergab, dass fast 24 % der Befragten an Meetings mit nicht englischsprachigen Personen teilnehmen. Übersetzungskosten, oft nicht unerheblich. Manchmal kann zum Beispiel ein menschlicher Übersetzer krank werden, was einer Maschine nicht passieren würde. Ja, die Qualität maschineller Übersetzungen ist immer noch nicht gleichzusetzen mit menschlichen Übersetzungen, und KI wird sich nicht zynisch oder genau anfühlen, aber sie wird in der Realität des täglichen Geschäfts immer besser, insbesondere bei Fachübersetzungen. Mehr als die Hälfte der befragten Unternehmen nutzen externe Dienste, um zu übersetzen, was andere sagen, und die durchschnittlichen Kosten für eine solche Übersetzung betragen 172 US-Dollar pro Meeting. Durch die Integration intelligenter virtueller Meeting-Assistenten mit Übersetzungsfunktionen können Sie die Kosten erheblich senken.

Mit neuen Tools und Technologien ist es einfacher denn je, eine KI-Chat-App zu erstellen, die eine viel breitere Palette von Anwendungen ermöglicht, wie z. B. virtuelle Assistenten oder Echtzeit-Transkription. Diese Technologien sind bereits auf dem Markt verfügbar. Im Jahr 2019 erwarb CISCO Webex Echtzeit-Übersetzungstechnologie durch den Erwerb von Voicea, einer professionellen Meeting- und KI-basierten Sprachtechnologie. Cisco Webex bietet derzeit Simultanübersetzung in 9 Sprachen an. Die vorgestellte Lösung nutzt Google Translate und Voice Machine Learning. Der Google-Teil ist derselbe wie die Übersetzung, und der Sprachteil ist die automatische Spracherkennung und Aufzeichnung, Erfassung und Signatur. Hier kommt maschinelles Lernen ins Spiel: Da immer mehr Menschen diese Funktion nutzen, verbessert sich die Übersetzung im Laufe der Zeit, wenn Sie mehr Arten von Lauten und Dialekten lernen. Der Wort-für-Wort-Teil ist jedoch Google Translate.

Microsoft wiederum hat im Oktober 2021 ein sehr komplexes Transformer-Network-Modell für maschinelle Übersetzung (Very Deep Transformers for Neural Machine Translation) veröffentlicht und gezeigt, dass seine Modelle für gängige Sprachpaare (Englisch, Französisch und Deutsch) derzeit die beste Übersetzung in hoher Qualität liefern . Transformer-basierte Verfahren verbessern auch die Qualität der Spracherkennung erheblich. Wie von Dr. Marek Kozowski, ihr größtes Geschäft ist die einfache Implementierung. Sie müssen nicht Dutzende von Wissenschaftlern einstellen, um sie auf eine bestimmte Anwendung einzustellen, um sie auszuführen. In diesem Fall hängt viel von der Größe des Trainingssets ab und davon, wie viel Rechenleistung wir von diesen Modellen lernen müssen. Auf der Verbraucher- und integrierten Seite ist alles viel einfacher geworden, und diese Netzwerke sind trotz ihrer Komplexität leichter zugänglich und kostengünstiger in der Nutzung. Darüber hinaus ermöglicht Ihnen die Verfügbarkeit von Grafikkarten-Stacks, diese Modelle schnell zu trainieren und immer bessere Ergebnisse zu erzielen.

Related Articles

Intelligenza artificiale

 La tecnologia ci aiuterà a imparare le lingue straniere?

 La tecnologia ci aiuterà a imparare le lingue straniere?

Le tecnologie di intelligenza artificiale conversazionale stanno diventando onnipresenti e sempre più prodotti che utilizzano il riconoscimento vocale automatico, la comprensione del linguaggio naturale e la sintesi vocale sono entrati nel mercato. Lo specialista dell’apprendimento automatico è la professione del futuro.


Spruzza
Marco Winkler
 

Ti ricordi di aver inserito parole inglesi o tedesche in un gioco di blackjack? Per i posteri sarebbe come scolpire tavolette di argilla con canne.

Tra un anno, le riunioni di lavoro in team e zoome potrebbero essere così: compro un avatar bitcoin (proprio come me, solo più carino), poi mi installo nella versione office, aggiungendo l’opzione della traduzione automatica. Ora posso parlare l’urdu. o hindi.

Controlla anche:

Al momento è ancora solo una fantasia, ci sono quasi 6,5 mila persone nel mondo. lingue e il processo di apprendimento da questa base richiede tempo e risorse. Tuttavia, ora è possibile la traduzione automatica in tempo reale nelle lingue più popolari: inglese, francese e tedesco.

Perché la traduzione dal vivo è così difficile? Partiamo dal fatto che devi combinare due diverse tecnologie: il primo livello è il riconoscimento vocale, ovvero la conversione della voce in testo. Il secondo problema è la traduzione automatica. Il sistema software di traduzione automatica interpreta la struttura della frase della lingua di partenza (da cui stiamo traducendo) e crea una traduzione basata sulla grammatica della lingua di arrivo (in cui stiamo traducendo). Il processo prevede la scomposizione di strutture sintattiche complesse e diverse, l’identificazione di parti del discorso, la risoluzione di ambiguità e l’assemblaggio di informazioni nei componenti e nella struttura di una nuova lingua.

Inizialmente, per questi compiti sono stati utilizzati metodi statistici. Nella traduzione automatica e nel riconoscimento vocale, inizialmente sono stati utilizzati dispositivi statistici, come le catene di Markov nascoste. “Dal 2013 al 2015 circa, c’è stato un cambiamento nei metodi e abbiamo assistito al passaggio dai modelli classici, statistici e probabilistici agli algoritmi basati sul deep machine learning. Attualmente stiamo sviluppando e sviluppando tali modelli in OPI PIB” – afferma il dottor M. Marek Kozowski, capo del laboratorio di ingegneria linguistica. Gli algoritmi di deep learning sono stati inizialmente perfezionati nell’elaborazione delle immagini. Sono eccellenti nel classificare le immagini che vengono rapidamente incorporate nella medicina. Gli algoritmi, ad esempio, supportano il lavoro di un radiologo, perché rilevano le irregolarità nelle immagini in modo molto efficace. Gli inglesi hanno recentemente riportato un lavoro sull’uso dell’intelligenza artificiale nella diagnosi precoce del morbo di Alzheimer sulla base dell’analisi del discorso degli intervistati.

Un’altra grande svolta è avvenuta 5 anni fa. Nel 2017 sono stati pubblicati i primi articoli di ricerca di Google Brain sull’uso di Transformer Networks basati sul meccanismo di attenzione personale. “Una delle pietre miliari che ha consentito una transizione più rapida e ampia dal laboratorio all’industria è stato l’arrivo della rete neurale profonda di tipo Transformer. Due anni dopo, nel 2019, c’erano già molte pubblicazioni scientifiche su queste reti e le loro molteplici applicazioni”, continua il dott. Kozovsky. Alla fine del 2021, la sua squadra ha vinto una competizione nazionale organizzata da Centrum Govtech e UOKiK, che riguarda l’intelligenza artificiale. Consiste nello sviluppo di metodi intelligenti che supportino la divulgazione delle clausole vietate nei contratti. È stato l’uso delle reti Transformer a conquistare gli ingegneri OPI, consentendo un rilevamento più accurato e rapido di determinate stringhe, rispetto ai classici metodi di apprendimento automatico o persino alle reti ricorsive profonde. Parlando della misura di precisione qualitativa fornita da Transformer Grids, si tratta di un miglioramento del 5-10% circa rispetto ai migliori approcci precedenti. Non molto in teoria, ma tenendo conto dell’effetto di scala, sta già iniziando a influenzare in modo significativo l’accettazione finale e i profitti finanziari. Innanzitutto, le reti Transformer sono anche più veloci (sono in grado di elaborare più dati in meno tempo) e più facili da implementare nel settore grazie alla molteplicità di librerie o al numero di modelli pre-addestrati. Inoltre, non richiede grandi team di scienziati per la messa a punto a lungo termine” – afferma Marek Kozowski. Afferma che i trasduttori sono attualmente l’architettura di prima e migliore scelta (come l’architettura BERT o GPT-3) nelle attività di elaborazione del linguaggio naturale (NLP) In un compito di riconoscimento vocale, anche le reti Transformer sono diventate la soluzione di migliore qualità.Tuttavia, recentemente sono comparsi modelli chiamati Vision Transformer (ViT), che offrono un modello puro di una rete di trasformatori, senza la necessità di blocchi convoluzionali.

Può essere il tuo collega virtuale

Un rapporto della società di ricerca e consulenza Metrigy sugli assistenti virtuali intelligenti ha rilevato che quasi il 24% degli intervistati partecipa a riunioni con persone che non parlano inglese. Costi di traduzione, spesso non insignificanti. A volte un traduttore umano può ammalarsi, ad esempio, cosa che non accadrebbe a una macchina. Sì, la qualità delle traduzioni automatiche non è ancora all’altezza delle traduzioni umane e l’IA non si sentirà cinica o accurata, ma sta migliorando nelle realtà del lavoro quotidiano, specialmente con traduzioni specializzate. Più della metà delle aziende intervistate utilizza servizi esterni per tradurre ciò che dicono gli altri e il costo medio di tale traduzione è di $ 172 per riunione. L’integrazione di assistenti per riunioni virtuali intelligenti con le funzioni di traduzione consente di ridurre notevolmente i costi.

Con i nuovi strumenti e tecnologie, è più facile che mai creare un’app di chat AI, consentendo una gamma molto più ampia di applicazioni, come assistenti virtuali o trascrizione in tempo reale. Queste tecnologie sono già disponibili sul mercato. Nel 2019, CISCO Webex ha acquisito la tecnologia di traduzione in tempo reale acquisendo Voicea, una riunione professionale e una tecnologia vocale basata sull’intelligenza artificiale. Cisco Webex offre attualmente la traduzione simultanea in 9 lingue. La soluzione presentata utilizza Google Translate e l’apprendimento automatico vocale. La parte di Google è la stessa della traduzione e la parte vocale è il riconoscimento vocale automatico e l’acquisizione e la firma della registrazione. È qui che entra in gioco l’apprendimento automatico: man mano che sempre più persone utilizzano questa funzione, la traduzione migliora nel tempo man mano che impari più tipi di suoni e dialetti. Tuttavia, la parte parola per parola è Google Translate.

A sua volta, nell’ottobre 2021 Microsoft ha pubblicato un modello Transformer Network molto complesso per la traduzione automatica (Very Deep Transformers for Neural Machine Translation) e ha dimostrato che i suoi modelli per coppie di lingue comuni (inglese, francese e tedesco) attualmente forniscono la migliore traduzione di alta qualità . I metodi basati su trasformatore migliorano anche significativamente la qualità del riconoscimento vocale. Come notato dal dott. Marek Kozowski, la loro più grande attività è la facilità di implementazione, non è necessario assumere dozzine di scienziati per sintonizzarli su un’applicazione specifica per eseguirli. In questo caso, molto dipende dalle dimensioni del training set e da quanta potenza di calcolo dobbiamo imparare da questi modelli. Tutto è diventato molto più semplice dal lato consumer e integrato e queste reti, nonostante la loro complessità, sono più accessibili e meno costose da utilizzare. Inoltre, la disponibilità di pile di schede grafiche consente di addestrare rapidamente questi modelli e ottenere risultati sempre migliori.

Related Articles

人工知能

 テクノロジーは私たちが外国語を学ぶのに役立ちますか?

 テクノロジーは私たちが外国語を学ぶのに役立ちますか?

会話型AI技術は普及しつつあり、自動音声認識、自然言語理解、音声合成を使用した製品がますます市場に参入しています。機械学習のスペシャリストは未来の職業です。


スプラッシュを解除
マーカスウィンクラー
 

英語またはドイツ語の単語をブラックジャックゲームに詰め込んだことを覚えていますか?後世のために、それは葦で粘土板を彫刻するようなものです。

1年で、チームとズームでのビジネス会議は次のようになります。ビットコインのアバターを購入し(私と同じように、もっときれいです)、オフィスバージョンでセットアップし、機械翻訳のオプションを追加します。今、私はウルドゥー語を話すことができます。またはヒンディー語。

また確認してください:

現時点では、それはまだ単なる空想であり、世界には約6.5千人の人々がいます。言語、そしてこのベースから学ぶプロセスは時間とリソースを要します。ただし、最も人気のある言語(英語、フランス語、ドイツ語)への自動リアルタイム翻訳が可能になりました。

なぜライブ翻訳はとても難しいのですか?2つの異なるテクノロジーを組み合わせる必要があるという事実から始めましょう。最初のレイヤーは音声認識、つまり音声からテキストへの変換です。2番目の問題は機械翻訳です。機械翻訳ソフトウェアシステムは、(翻訳元の)ソース言語の文構造を解釈し、(翻訳先の)ターゲット言語の文法に基づいて翻訳を作成します。このプロセスには、複雑で多様な文の構造を分解し、品詞を識別し、あいまいさを解決し、新しい言語のコンポーネントと構造に情報を組み立てることが含まれます。

当初、これらのタスクには統計的手法が使用されていました。機械翻訳と音声認識では、当初、隠れマルコフ連鎖などの統計デバイスが使用されていました。「2013年から2015年頃から方法が変更され、古典的、統計的、確率的モデルから深層機械学習に基づくアルゴリズムへの移行が見られました。現在、OPIPIBでそのようなモデルを開発しています」と述べています。 M博士 言語工学研究所の責任者、マレク・コゾウスキー。ディープラーニングアルゴリズムは、当初、画像処理で洗練されていました。それらは、すぐに医学に組み込まれる画像を分類するのに優れています。たとえば、アルゴリズムは画像の不規則性を非常に効果的に検出するため、放射線科医の作業をサポートします。英国人は最近、回答者のスピーチの分析に基づいたアルツハイマー病の早期診断における人工知能の使用に関する研究を報告しました。

もう1つの大きな進歩は5年前に起こりました。2017年に、自己注意メカニズムに基づくTransformerネットワークの使用に関する最初のGoogleBrain研究記事が公開されました。「研究室から業界へのより迅速で幅広い移行を可能にしたマイルストーンの1つは、Transformerタイプのディープニューラルネットワークの登場でした。2年後の2019年には、これらのネットワークとそのネットワークに関する科学的な出版物がすでにたくさんありました。複数のアプリケーション」と続けます。コゾフスキー。2021年の終わりに、彼のチームは、人工知能に関連するCentrumGovtechとUOKiKが主催する全国大会で優勝しました。それは、契約における禁止条項の開示をサポートするインテリジェントな方法を開発することにあります。OPIエンジニアを獲得したのは、Transformerネットワークの使用であり、従来の機械学習手法や深い再帰型ネットワークと比較して、特定の文字列をより正確かつ迅速に検出できるようになりました。Transformer Gridsが提供する定性的な精度の尺度と言えば、これは以前の最良のアプローチよりも約5〜10%向上しています。理論的にはそれほど多くはありませんが、規模の影響を考慮すると、それはすでに最終的な受け入れと経済的利益に大きな影響を及ぼし始めています。まず第一に、Transformerネットワークは、ライブラリの多様性または事前にトレーニングされたモデルの数のおかげで、より高速で(より多くのデータをより短い時間で処理できる)、業界での実装が容易です。また、長期的な調整のために科学者の大規模なチームを必要としません」とマレク・コゾウスキー氏は言います。トランスデューサーは現在、自然言語処理(NLP)タスクで最初で最良のアーキテクチャー(BERTやGPT-3アーキテクチャーなど)です。音声認識タスクでは、トランスフォーマーネットワークも最高品質のソリューションになりました。しかし、最近、畳み込みブロックを必要とせずにトランスフォーマーネットワークの純粋なモデルを提供するVision Transformer(ViT)と呼ばれるモデルが登場しました。

それはあなたの仮想の同僚になることができます

インテリジェントな仮想アシスタントに関する調査およびコンサルティング会社Metrigyのレポートによると、回答者の24%近くが英語を話さない人との会議に出席しています。多くの場合、重要ではない翻訳コスト。たとえば、人間の翻訳者が病気になることがありますが、これは機械には起こりません。はい、機械翻訳の品質はまだ人間の翻訳と同等ではなく、AIは冷笑的または正確に感じることはありませんが、特に特殊な翻訳を使用することで、日常業務の現実において改善されています。調査対象の企業の半数以上が外部サービスを使用して他の人の発言を翻訳しており、そのような翻訳の平均コストは会議あたり172ドルです。スマート仮想会議アシスタントを翻訳機能と統合することで、コストを大幅に削減できます。

新しいツールとテクノロジーにより、AIチャットアプリの作成がこれまでになく簡単になり、仮想アシスタントやリアルタイムの文字起こしなど、はるかに幅広いアプリケーションが可能になります。これらの技術はすでに市場で入手可能です。2019年、CISCO Webexは、専門家会議およびAIベースの音声テクノロジーであるVoiceaを買収することにより、リアルタイム翻訳テクノロジーを買収しました。Cisco Webexは現在、9つの言語への同時翻訳を提供しています。提示されたソリューションは、Google翻訳と音声機械学習を使用しています。Googleの部分は翻訳と同じであり、音声の部分は自動音声認識と録音のキャプチャと署名です。ここで機械学習が登場します。この機能を使用する人が増えるにつれて、より多くの種類の音や方言を学習するにつれて、翻訳は時間の経過とともに向上します。ただし、単語ごとの部分はGoogle翻訳です。

次に、2021年10月、Microsoftは機械翻訳用の非常に複雑なTransformer Networkモデル(ニューラル機械翻訳用のVery Deep Transformers)を公開し、一般的な言語ペア(英語、フランス語、ドイツ語)のモデルが現在最高の高品質の翻訳を提供することを実証しました。トランスフォーマーベースの方法は、音声認識の品質も大幅に向上させます。博士が指摘したように。Marek Kozowski、彼らの最大のビジネスは実装の容易さです。彼らを実行するために特定のアプリケーションにそれらを調整するために何十人もの科学者を雇う必要はありません。この場合、トレーニングセットのサイズと、これらのモデルから学習する必要のある計算能力に大きく依存します。消費者側と統合側ではすべてがはるかに単純になり、これらのネットワークは複雑であるにもかかわらず、アクセスしやすく、使用コストも低くなっています。さらに、グラフィックカードスタックが利用できるため、これらのモデルをすばやくトレーニングして、より良い結果を得ることができます。

Related Articles

Inteligência artificial

 A tecnologia nos ajudará a aprender línguas estrangeiras?

 A tecnologia nos ajudará a aprender línguas estrangeiras?

As tecnologias de IA conversacional estão se tornando onipresentes e cada vez mais produtos que usam reconhecimento automático de fala, compreensão de linguagem natural e síntese de fala entraram no mercado. Especialista em aprendizado de máquina é a profissão do futuro.


Abrir
Marcus Winkler
 

Você se lembra de enfiar palavras em inglês ou alemão em um jogo de blackjack? Para a posteridade, seria como esculpir tábuas de barro com juncos.

Em um ano, reuniões de negócios em equipes e zoome poderiam ficar assim: compro um avatar bitcoin (assim como eu, só que mais bonito), depois me coloco na versão office, acrescentando a opção de tradução automática. Agora eu posso falar urdu. ou hindu.

Confira também:

No momento, ainda é apenas uma fantasia, existem quase 6,5 mil pessoas no mundo. idiomas, e o processo de aprendizado a partir dessa base leva tempo e recursos. No entanto, a tradução automática em tempo real para os idiomas mais populares – inglês, francês e alemão agora é possível.

Por que a tradução ao vivo é tão difícil? Vamos começar com o fato de que você precisa combinar duas tecnologias diferentes: a primeira camada é o reconhecimento de fala, ou seja, a conversão de voz em texto. A segunda questão é a tradução automática. O sistema de software de tradução automática interpreta a estrutura da frase do idioma de origem (do qual estamos traduzindo) e cria uma tradução com base na gramática do idioma de destino (para o qual estamos traduzindo). O processo envolve quebrar estruturas de frases complexas e diversas, identificar partes do discurso, resolver ambiguidades e reunir informações nos componentes e na estrutura de um novo idioma.

Inicialmente, métodos estatísticos foram usados ​​para essas tarefas. Na tradução automática e no reconhecimento de fala, inicialmente, foram utilizados dispositivos estatísticos, como cadeias ocultas de Markov. “Desde cerca de 2013-2015, houve uma mudança nos métodos, e vimos uma mudança de modelos clássicos, estatísticos e probabilísticos para algoritmos baseados em aprendizado de máquina profundo. Atualmente estamos desenvolvendo e desenvolvendo esses modelos no OPI PIB” – diz Dr. M. Marek Kozowski, chefe do Laboratório de Engenharia Linguística. Os algoritmos de aprendizado profundo foram inicialmente refinados no processamento de imagens. Eles são excelentes para categorizar imagens que são rapidamente incorporadas à medicina. Algoritmos, por exemplo, dão suporte ao trabalho de um radiologista, pois detectam irregularidades nas imagens com muita eficácia. Os britânicos divulgaram recentemente um trabalho sobre o uso da inteligência artificial no diagnóstico precoce da doença de Alzheimer com base na análise da fala dos entrevistados.

Outro grande avanço aconteceu há 5 anos. Em 2017, foram publicados os primeiros artigos de pesquisa do Google Brain sobre o uso de Redes Transformadoras baseadas no Mecanismo de Autoatendimento. “Um dos marcos que possibilitaram uma transição mais rápida e ampla do laboratório para a indústria foi a chegada da rede neural profunda do tipo Transformer. Dois anos depois – em 2019 – já havia muitas publicações científicas sobre essas redes e seus múltiplas aplicações”, continua o Dr. Kozovsky. No final de 2021, sua equipe venceu uma competição nacional organizada pelo Centrum Govtech e UOKiK, relacionada à inteligência artificial. Consiste em desenvolver métodos inteligentes que apoiem a divulgação de cláusulas proibidas em contratos. Foi o uso de redes Transformer que conquistou os engenheiros da OPI, permitindo uma detecção mais precisa e rápida de determinadas strings, em comparação com métodos clássicos de aprendizado de máquina ou mesmo redes recursivas profundas. Falando da medida de precisão qualitativa que o Transformer Grids fornece, isso representa uma melhoria de 5 a 10% em relação às melhores abordagens anteriores. Não muito na teoria, mas levando em conta o efeito de escala, já começa a afetar significativamente a aceitação final e os lucros financeiros. Em primeiro lugar, as redes Transformer também são mais rápidas (podem processar mais dados em menos tempo) e mais fáceis de implementar na indústria graças à multiplicidade de bibliotecas ou ao número de modelos pré-treinados. Também não requer grandes equipes de cientistas para ajustes de longo prazo” – diz Marek Kozowski. Ele diz que os transdutores são atualmente a primeira e melhor arquitetura de escolha (como a arquitetura BERT ou GPT-3) em tarefas de processamento de linguagem natural (NLP) .Em uma tarefa de reconhecimento de voz, as redes transformadoras também se tornaram a solução de melhor qualidade.No entanto, recentemente, surgiram modelos chamados Vision Transformer (ViT), que oferecem um modelo puro de rede transformadora, sem a necessidade de blocos convolucionais.

Pode ser seu colega de trabalho virtual

Um relatório da empresa de pesquisa e consultoria Metrigy sobre assistentes virtuais inteligentes descobriu que quase 24% dos entrevistados participam de reuniões com pessoas que não falam inglês. Custos de tradução, muitas vezes não insignificantes. Às vezes, um tradutor humano pode ficar doente, por exemplo, o que não aconteceria com uma máquina. Sim, a qualidade das traduções automáticas ainda não é igual às traduções humanas, e a IA não parecerá cínica ou precisa, mas está melhorando nas realidades dos negócios diários, especialmente com traduções especializadas. Mais da metade das empresas pesquisadas usam serviços externos para traduzir o que os outros estão dizendo, e o custo médio dessa tradução é de US$ 172 por reunião. A integração de assistentes de reuniões virtuais inteligentes com funções de tradução permite reduzir significativamente os custos.

Com novas ferramentas e tecnologias, é mais fácil do que nunca criar um aplicativo de bate-papo com IA, permitindo uma gama muito maior de aplicativos, como assistentes virtuais ou transcrição em tempo real. Essas tecnologias já estão disponíveis no mercado. Em 2019, a CISCO Webex adquiriu tecnologia de tradução em tempo real ao adquirir o Voicea, uma reunião profissional e tecnologia de voz baseada em IA. Atualmente, o Cisco Webex oferece tradução simultânea em 9 idiomas. A solução apresentada usa o Google Tradutor e aprendizado de máquina de voz. A parte do Google é a mesma da tradução, e a parte de voz é o reconhecimento automático de fala e captura de gravação e assinatura. É aí que entra o aprendizado de máquina: à medida que mais e mais pessoas usam esse recurso, a tradução melhora com o tempo à medida que você aprende mais tipos de sons e dialetos. No entanto, a parte palavra por palavra é o Google Translate.

Por sua vez, em outubro de 2021, a Microsoft publicou um modelo muito complexo de Transformer Network para tradução automática (Very Deep Transformers for Neural Machine Translation) e demonstrou que seus modelos para pares de idiomas comuns (inglês, francês e alemão) atualmente fornecem a melhor tradução de alta qualidade . Os métodos baseados em transformadores também melhoram significativamente a qualidade do reconhecimento de voz. Conforme observado pelo Dr. Marek Kozowski, seu maior negócio é a facilidade de implementação, você não precisa contratar dezenas de cientistas para ajustá-los a um aplicativo específico para executá-los. Nesse caso, depende muito do tamanho do conjunto de treinamento e de quanto poder de computação temos que aprender com esses modelos. Tudo se tornou muito mais simples do lado do consumidor e integrado, e essas redes, apesar de sua complexidade, são mais acessíveis e menos caras de usar. Além disso, a disponibilidade de pilhas de placas gráficas permite treinar rapidamente esses modelos e obter resultados cada vez melhores.

Related Articles

Искусственный интеллект

 Помогут ли технологии выучить иностранные языки?

 Помогут ли технологии выучить иностранные языки?

Технологии разговорного ИИ становятся повсеместными, и на рынок выходит все больше продуктов, использующих автоматическое распознавание речи, понимание естественного языка и синтез речи. Специалист по машинному обучению — профессия будущего.


Скрыть
Маркус Винклер
 

Вы помните, как втискивали английские или немецкие слова в игру в блэкджек? Для потомков это было бы все равно, что лепить глиняные таблички из камыша.

Через год деловые встречи в командах и зуме могли выглядеть так: покупаю биткойн-аватарку (прям как я, только красивее), потом настраиваю себе в офисной версии, добавляя возможность машинного перевода. Теперь я могу говорить на урду. или хинди.

Проверьте также:

На данный момент это пока только фантастика, в мире почти 6,5 тысяч человек. языков, и процесс обучения на этой базе требует времени и ресурсов. Однако теперь возможен автоматический перевод в режиме реального времени на самые популярные языки — английский, французский и немецкий.

Почему живой перевод так сложен? Начнем с того, что вам предстоит объединить две разные технологии: первый слой — это распознавание речи, то есть преобразование голоса в текст. Вторая проблема — машинный перевод. Программная система машинного перевода интерпретирует структуру предложения исходного языка (с которого мы переводим) и создает перевод на основе грамматики целевого языка (на который мы переводим). Этот процесс включает в себя разрушение сложных и разнообразных структур предложений, определение частей речи, устранение двусмысленностей и сборку информации в компоненты и структуру нового языка.

Первоначально для этих задач использовались статистические методы. В машинном переводе и распознавании речи изначально использовались статистические устройства, такие как скрытые цепи Маркова. “Примерно с 2013-2015 года произошло изменение методов, и мы наблюдаем переход от классических, статистических и вероятностных моделей к алгоритмам, основанным на глубоком машинном обучении. В настоящее время мы разрабатываем и развиваем такие модели в OPI PIB”, – говорит Доктор М. Марек Козовски, руководитель лаборатории лингвистической инженерии. Алгоритмы глубокого обучения изначально были усовершенствованы при обработке изображений. Они отлично классифицируют изображения, которые быстро внедряются в медицину. Алгоритмы, например, поддерживают работу рентгенолога, потому что они очень эффективно обнаруживают нарушения в изображениях. Британцы недавно сообщили о работе по использованию искусственного интеллекта в ранней диагностике болезни Альцгеймера на основе анализа речи респондентов.

Еще один большой прорыв произошел 5 лет назад. В 2017 году были опубликованы первые исследовательские статьи Google Brain об использовании Transformer Networks на основе механизма самоконтроля. «Одной из вех, позволивших более быстрый и широкий переход от лаборатории к индустрии, стал приход глубокой нейронной сети типа «Трансформатор». Через два года — в 2019 году — уже было много научных публикаций об этих сетях и их несколько приложений», — продолжает доктор. Козовский. В конце 2021 года его команда выиграла национальный конкурс, организованный Centrum Govtech и UOKiK, который связан с искусственным интеллектом. Он заключается в разработке интеллектуальных методов, поддерживающих раскрытие запрещенных положений в контрактах. Именно использование сетей Transformer покорило инженеров OPI, позволяя более точно и быстро обнаруживать определенные строки, по сравнению с классическими методами машинного обучения или даже с глубокими рекурсивными сетями. Говоря о качественном показателе точности, обеспечиваемом трансформаторными сетями, можно сказать, что это примерно на 5-10 % больше, чем у лучших предыдущих подходов. Теоретически немного, но с учетом эффекта масштаба это уже начинает существенно влиять на окончательную приемку и финансовую прибыль. Прежде всего, сети Transformer также быстрее (они способны обрабатывать больше данных за меньшее время) и их легче внедрять в отрасли благодаря множеству библиотек или количеству предварительно обученных моделей. Это также не требует больших групп ученых для долгосрочной настройки», — говорит Марек Козовский, который говорит, что в настоящее время преобразователи являются первой и лучшей архитектурой выбора (например, архитектура BERT или GPT-3) в задачах обработки естественного языка (NLP). В задаче распознавания речи сети-трансформеры также стали наиболее качественным решением. Однако в последнее время появились модели под названием Vision Transformer (ViT), которые предлагают чистую модель сети-трансформера, без необходимости сверточных блоков.

Это может быть ваш виртуальный сотрудник

Отчет исследовательской и консалтинговой компании Metrigy об интеллектуальных виртуальных помощниках показал, что почти 24% респондентов посещают встречи с людьми, не говорящими по-английски. Затраты на перевод, зачастую немалые. Иногда человек-переводчик может, например, заболеть, чего не случилось бы с машиной. Да, качество машинных переводов еще не сравнится с человеческим переводом, и ИИ не будет чувствовать себя циничным или точным, но в реалиях повседневного бизнеса, особенно в специализированных переводах, оно становится лучше. Более половины опрошенных компаний используют сторонние сервисы для перевода того, что говорят другие, а средняя стоимость такого перевода составляет 172 доллара за встречу. Интеграция интеллектуальных виртуальных помощников для совещаний с функциями перевода позволяет значительно сократить расходы.

Благодаря новым инструментам и технологиям стало проще, чем когда-либо, создать приложение для чата с искусственным интеллектом, позволяющее использовать гораздо более широкий спектр приложений, таких как виртуальные помощники или транскрипция в реальном времени. Эти технологии уже доступны на рынке. В 2019 году CISCO Webex приобрела технологию перевода в реальном времени, приобретя Voicea, профессиональную конференцию и голосовую технологию на основе искусственного интеллекта. Cisco Webex в настоящее время предлагает синхронный перевод на 9 языков. Представленное решение использует Google Translate и голосовое машинное обучение. Часть Google такая же, как и перевод, а голосовая часть — это автоматическое распознавание речи, захват записи и подпись. Здесь на помощь приходит машинное обучение: по мере того, как все больше и больше людей используют эту функцию, перевод со временем улучшается по мере того, как вы изучаете все больше типов звуков и диалектов. Однако дословная часть — это Google Translate.

В свою очередь, в октябре 2021 года Microsoft опубликовала очень сложную модель Transformer Network для машинного перевода (Very Deep Transformers for Neural Machine Translation) и продемонстрировала, что ее модели для общих языковых пар (английский, французский и немецкий) в настоящее время обеспечивают наилучший качественный перевод. . Методы на основе трансформаторов также значительно улучшают качество распознавания голоса. Как отмечает Др. Марек Козовски, их главный бизнес — простота реализации, вам не нужно нанимать десятки ученых, чтобы настроить их на конкретное приложение для их запуска. В этом случае многое зависит от размера обучающей выборки и от того, какую вычислительную мощность мы должны извлечь из этих моделей. Со стороны потребителя и интеграции все стало намного проще, и эти сети, несмотря на их сложность, более доступны и менее дороги в использовании. Кроме того, наличие стеков видеокарт позволяет быстро обучать эти модели и добиваться все лучших и лучших результатов.

Related Articles

Inteligencia artificial

 ¿La tecnología nos ayudará a aprender idiomas extranjeros?

 ¿La tecnología nos ayudará a aprender idiomas extranjeros?

Las tecnologías de IA conversacional se están volviendo omnipresentes, y cada vez más productos que utilizan el reconocimiento de voz automático, la comprensión del lenguaje natural y la síntesis de voz han ingresado al mercado. El especialista en aprendizaje automático es la profesión del futuro.


Unsplash
marcus winkler
 

¿Recuerdas meter palabras en inglés o alemán en un juego de blackjack? Para la posteridad, sería como esculpir tablas de arcilla con cañas.

En un año, las reuniones de negocios en equipos y zoome podrían verse así: compro un avatar de bitcoin (igual que yo, solo que más bonito), luego me instalo en la versión de oficina, agregando la opción de traducción automática. Ahora puedo hablar urdu. o hindi.

Compruebe también:

Por el momento, todavía es solo una fantasía, hay casi 6.500 personas en el mundo. idiomas, y el proceso de aprendizaje a partir de esta base requiere tiempo y recursos. Sin embargo, ahora es posible la traducción automática en tiempo real a los idiomas más populares: inglés, francés y alemán.

¿Por qué es tan difícil la traducción en vivo? Empecemos por el hecho de que hay que combinar dos tecnologías diferentes: la primera capa es el reconocimiento de voz, es decir, la conversión de voz a texto. El segundo problema es la traducción automática. El sistema de software de traducción automática interpreta la estructura de la oración del idioma de origen (del que estamos traduciendo) y crea una traducción basada en la gramática del idioma de destino (al que estamos traduciendo). El proceso implica desglosar estructuras de oraciones complejas y diversas, identificar partes del discurso, resolver ambigüedades y ensamblar información en los componentes y la estructura de un nuevo idioma.

Inicialmente, se utilizaron métodos estadísticos para estas tareas. En la traducción automática y el reconocimiento de voz, inicialmente se utilizaron dispositivos estadísticos, como cadenas de Markov ocultas. “Desde aproximadamente 2013-2015, ha habido un cambio en los métodos, y hemos visto un cambio de modelos clásicos, estadísticos y probabilísticos a algoritmos basados ​​en aprendizaje automático profundo. Actualmente estamos desarrollando y desarrollando dichos modelos en OPI PIB “, dice doctor m Marek Kozowski, Jefe del Laboratorio de Ingeniería Lingüística. Los algoritmos de aprendizaje profundo se refinaron inicialmente en el procesamiento de imágenes. Son excelentes para categorizar imágenes que se incorporan rápidamente a la medicina. Los algoritmos, por ejemplo, apoyan el trabajo de un radiólogo, porque detectan irregularidades en las imágenes de manera muy efectiva. El británico informó recientemente de un trabajo sobre el uso de la inteligencia artificial en el diagnóstico precoz de la enfermedad de Alzheimer basado en el análisis del habla de los encuestados.

Otro gran avance ocurrió hace 5 años. En 2017, se publicaron los primeros artículos de investigación de Google Brain sobre el uso de redes de transformadores basadas en el mecanismo de autoatención. “Uno de los hitos que permitió una transición más rápida y amplia del laboratorio a la industria fue la llegada de la red neuronal profunda tipo Transformer. Dos años después, en 2019, ya había muchas publicaciones científicas sobre estas redes y su múltiples aplicaciones”, continúa el Dr. Kozovski. A fines de 2021, su equipo ganó una competencia nacional organizada por Centrum Govtech y UOKiK, que está relacionada con la inteligencia artificial. Consiste en desarrollar métodos inteligentes que apoyen la divulgación de cláusulas prohibidas en los contratos. Fue el uso de redes de transformadores lo que ganó a los ingenieros de OPI, lo que permitió una detección más precisa y rápida de ciertas cadenas, en comparación con los métodos clásicos de aprendizaje automático o incluso con redes recursivas profundas. Hablando de la medida de precisión cualitativa que proporciona Transformer Grids, se trata de una mejora del 5 al 10 % con respecto a los mejores enfoques anteriores. No mucho en teoría, pero teniendo en cuenta el efecto de escala, ya está empezando a afectar significativamente la aceptación final y las ganancias financieras. En primer lugar, las redes Transformer también son más rápidas (pueden procesar más datos en menos tiempo) y más fáciles de implementar en la industria gracias a la multiplicidad de bibliotecas o la cantidad de modelos preentrenados. Tampoco requiere grandes equipos de científicos para el ajuste a largo plazo “, dice Marek Kozowski. Él dice que los transductores son actualmente la arquitectura de primera y mejor elección (como la arquitectura BERT o GPT-3) en tareas de procesamiento de lenguaje natural (NLP) En una tarea de reconocimiento de voz, las redes de transformadores también se han convertido en la solución de mejor calidad.Sin embargo, recientemente han aparecido modelos denominados Vision Transformer (ViT), que ofrecen un modelo puro de una red de transformadores, sin necesidad de bloques convolucionales.

Puede ser tu compañero de trabajo virtual

Un informe de la firma de investigación y consultoría Metrigy sobre asistentes virtuales inteligentes encontró que casi el 24% de los encuestados asisten a reuniones con personas que no hablan inglés. Costos de traducción, a menudo no insignificantes. A veces, un traductor humano puede enfermarse, por ejemplo, lo que no le sucedería a una máquina. Sí, la calidad de las traducciones automáticas aún no es igual a la de las traducciones humanas, y la IA no se sentirá cínica o precisa, pero está mejorando en las realidades de los negocios cotidianos, especialmente con traducciones especializadas. Más de la mitad de las empresas encuestadas utilizan servicios externos para traducir lo que otros dicen, y el costo promedio de dicha traducción es de $172 por reunión. La integración de asistentes de reuniones virtuales inteligentes con funciones de traducción le permite reducir significativamente los costos.

Con las nuevas herramientas y tecnologías, es más fácil que nunca crear una aplicación de chat de IA, lo que permite una gama mucho más amplia de aplicaciones, como asistentes virtuales o transcripción en tiempo real. Estas tecnologías ya están disponibles en el mercado. En 2019, CISCO Webex adquirió tecnología de traducción en tiempo real al adquirir Voicea, una reunión profesional y tecnología de voz basada en IA. Cisco Webex actualmente ofrece traducción simultánea a 9 idiomas. La solución presentada utiliza Google Translate y aprendizaje automático de voz. La parte de Google es la misma que la traducción, y la parte de voz es reconocimiento de voz automático y captura y firma de grabación. Aquí es donde entra en juego el aprendizaje automático: a medida que más y más personas usan esta función, la traducción mejora con el tiempo a medida que aprende más tipos de sonidos y dialectos. Sin embargo, la parte palabra por palabra es Google Translate.

A su vez, en octubre de 2021, Microsoft publicó un modelo muy complejo de Transformer Network para traducción automática (Very Deep Transformers for Neural Machine Translation) y demostró que sus modelos para pares de idiomas comunes (inglés, francés y alemán) actualmente brindan la mejor traducción de alta calidad. . Los métodos basados ​​en transformadores también mejoran significativamente la calidad del reconocimiento de voz. Como señaló el Dr. Marek Kozowski, su mayor negocio es la facilidad de implementación, no necesita contratar a docenas de científicos para ajustarlos a una aplicación específica para ejecutarlos. En este caso, mucho depende del tamaño del conjunto de entrenamiento y de cuánta potencia informática tengamos que aprender de estos modelos. Todo se ha vuelto mucho más simple en el lado del consumidor e integrado, y estas redes, a pesar de su complejidad, son más accesibles y menos costosas de usar. Además, la disponibilidad de pilas de tarjetas gráficas le permite entrenar rápidamente estos modelos y lograr mejores y mejores resultados.

Related Articles

yapay zeka

 Teknoloji yabancı dil öğrenmemize yardımcı olacak mı?

 Teknoloji yabancı dil öğrenmemize yardımcı olacak mı?

Konuşmalı AI teknolojileri her yerde bulunur hale geliyor ve otomatik konuşma tanıma, doğal dil anlama ve konuşma sentezi kullanan daha fazla ürün pazara girdi. Makine öğrenimi uzmanı geleceğin mesleğidir.


Sıçramayı kaldır
Marcus Winkler
 

Bir blackjack oyununa İngilizce veya Almanca sözcükleri tıkıştırdığınızı hatırlıyor musunuz? Gelecek nesiller için, sazlarla kil tabletler yapmak gibi olurdu.

Bir yıl içinde, ekiplerdeki ve zoom’daki iş toplantıları şöyle görünebilir: Bir bitcoin avatarı satın alıyorum (tıpkı benim gibi, sadece daha güzel), sonra makine çevirisi seçeneğini ekleyerek ofis sürümüne geçiyorum. Artık Urduca konuşabiliyorum. veya Hintçe.

Ayrıca kontrol edin:

Şu anda hala sadece bir hayal, dünyada neredeyse 6,5 bin insan var. diller ve bu temelden öğrenme süreci zaman ve kaynak gerektirir. Ancak, en popüler dillere – İngilizce, Fransızca ve Almanca – otomatik gerçek zamanlı çeviri artık mümkün.

Canlı çeviri neden bu kadar zor? İki farklı teknolojiyi birleştirmeniz gerektiği gerçeğiyle başlayalım: ilk katman konuşma tanıma, yani sesin metne dönüştürülmesidir. İkinci konu makine çevirisidir. Makine çevirisi yazılım sistemi, kaynak dilin (çeviri yaptığımız) cümle yapısını yorumlar ve hedef dilin (çeviri yaptığımız) dilbilgisine dayalı bir çeviri oluşturur. Süreç, karmaşık ve çeşitli cümle yapılarını parçalamayı, konuşmanın bölümlerini tanımlamayı, belirsizlikleri çözmeyi ve yeni bir dilin bileşenlerine ve yapısına bilgi toplamayı içerir.

Başlangıçta, bu görevler için istatistiksel yöntemler kullanıldı. Makine çevirisi ve konuşma tanımada, başlangıçta, gizli Markov zincirleri gibi istatistiksel cihazlar kullanıldı. “Yaklaşık 2013-2015’ten bu yana yöntemlerde bir değişiklik oldu ve klasik, istatistiksel ve olasılıklı modellerden derin makine öğrenimine dayalı algoritmalara geçiş gördük. Şu anda OPI PIB’de bu tür modelleri geliştiriyor ve geliştiriyoruz” – diyor Dr.M. Marek Kozowski, Dil Mühendisliği Laboratuvarı Başkanı. Derin öğrenme algoritmaları başlangıçta görüntü işlemede rafine edildi. Tıbba hızla dahil edilen görüntüleri kategorize etmede mükemmeldirler. Algoritmalar, örneğin, görüntülerdeki düzensizlikleri çok etkili bir şekilde tespit ettikleri için bir radyoloğun çalışmasını destekler. İngilizler kısa süre önce, yanıtlayanların konuşmalarının analizine dayalı olarak, Alzheimer hastalığının erken teşhisinde yapay zekanın kullanımına ilişkin bir çalışma bildirdiler.

5 yıl önce büyük bir gelişme daha yaşandı. 2017 yılında, Öz Dikkat Mekanizmasına dayalı Transformer Ağlarının kullanımına ilişkin ilk Google Beyin araştırma makaleleri yayınlandı. “Laboratuvardan sektöre daha hızlı ve daha geniş bir geçişi sağlayan kilometre taşlarından biri de Transformer tipi derin sinir ağının gelişiydi. İki yıl sonra – 2019’da – bu ağlar ve bunların işlevleri hakkında zaten birçok bilimsel yayın vardı. çoklu uygulamalar,” diye devam ediyor Dr. Kozovski. 2021’in sonunda ekibi, Centrum Govtech ve UOKiK tarafından düzenlenen yapay zeka ile ilgili ulusal bir yarışmayı kazandı. Sözleşmelerdeki yasaklanmış maddelerin açıklanmasını destekleyen akıllı yöntemler geliştirmeyi içerir. OPI mühendislerini kazanan, klasik makine öğrenimi yöntemlerine ve hatta derin özyinelemeli ağlara kıyasla belirli dizilerin daha doğru ve daha hızlı algılanmasını sağlayan Transformer ağlarının kullanılmasıydı. Transformer Grids’in sağladığı niteliksel doğruluk ölçüsünden bahsetmişken, bu, önceki en iyi yaklaşımlara göre yaklaşık %5-10’luk bir gelişmedir. Teoride çok fazla değil, ancak ölçeğin etkisi dikkate alındığında, kesin kabulü ve finansal karları önemli ölçüde etkilemeye başladı bile. Her şeyden önce, Transformer ağları da daha hızlıdır (daha az zamanda daha fazla veri işleyebilirler) ve çok sayıda kütüphane veya önceden eğitilmiş model sayısı sayesinde endüstride uygulanması daha kolaydır. Ayrıca uzun vadeli ayarlama için büyük bilim insanlarından oluşan ekipler gerektirmiyor” diyor Marek Kozowski. Dönüştürücülerin şu anda doğal dil işleme (NLP) görevlerinde ilk ve en iyi seçim mimarisi (BERT veya GPT-3 mimarisi gibi) olduğunu söylüyor. .Bir konuşma tanıma görevinde Transformer ağları da en kaliteli çözüm haline geldi.Ancak, son zamanlarda, konvolüsyonel bloklara ihtiyaç duymadan bir transformatör ağının saf bir modelini sunan Vision Transformer (ViT) adlı modeller ortaya çıktı.

Sanal iş arkadaşınız olabilir

Araştırma ve danışmanlık firması Metrigy tarafından akıllı sanal asistanlar hakkında bir rapor, katılımcıların yaklaşık %24’ünün İngilizce konuşmayanlarla toplantılara katıldığını buldu. Çeviri maliyetleri, genellikle önemsiz değildir. Bazen bir insan tercüman, örneğin bir makinenin başına gelmeyecek şekilde hastalanabilir. Evet, makine çevirilerinin kalitesi hala insan çevirilerine eşit değil ve yapay zeka alaycı veya doğru hissetmeyecek, ancak özellikle özel çevirilerle günlük işlerin gerçeklerinde daha iyi hale geliyor. Ankete katılan şirketlerin yarısından fazlası, diğerlerinin söylediklerini çevirmek için harici hizmetler kullanıyor ve bu tür bir çevirinin ortalama maliyeti toplantı başına 172 dolar. Akıllı sanal toplantı yardımcılarını çeviri işlevleriyle entegre etmek, maliyetleri önemli ölçüde azaltmanıza olanak tanır.

Yeni araçlar ve teknolojilerle, sanal asistanlar veya gerçek zamanlı transkripsiyon gibi çok daha geniş bir uygulama yelpazesine olanak tanıyan bir AI sohbet uygulaması oluşturmak hiç olmadığı kadar kolay. Bu teknolojiler zaten piyasada mevcuttur. 2019’da CISCO Webex, profesyonel bir toplantı ve yapay zeka tabanlı ses teknolojisi olan Voicea’yı satın alarak gerçek zamanlı çeviri teknolojisini satın aldı. Cisco Webex şu anda 9 dile eşzamanlı çeviri sunmaktadır. Sunulan çözüm, Google Çeviri ve sesli makine öğrenimini kullanır. Google kısmı çeviri ile aynıdır ve ses kısmı otomatik konuşma tanıma ve kayıt yakalama ve imzadır. İşte burada makine öğrenimi devreye giriyor: Gittikçe daha fazla insan bu özelliği kullandıkça, siz daha fazla ses ve lehçe türü öğrendikçe çeviri zamanla gelişir. Ancak, kelimesi kelimesine kısım Google Translate’dir.

Buna karşılık, Ekim 2021’de Microsoft, makine çevirisi için çok karmaşık bir Transformer Network modeli (Neural Machine Translation için Çok Derin Transformatörler) yayınladı ve ortak dil çiftlerine (İngilizce, Fransızca ve Almanca) yönelik modellerinin şu anda en iyi yüksek kaliteli çeviriyi sağladığını gösterdi. . Transformatör tabanlı yöntemler de ses tanıma kalitesini önemli ölçüde artırır. Dr. Marek Kozowski, onların en büyük işi uygulama kolaylığıdır, onları çalıştırmak için belirli bir uygulamaya ayarlamak için düzinelerce bilim insanını işe almanıza gerek yoktur. Bu durumda, çok şey eğitim setinin boyutuna ve bu modellerden ne kadar bilgi işlem gücü öğrenmemiz gerektiğine bağlıdır. Tüketici ve entegre tarafta her şey çok daha basit hale geldi ve bu ağlar, karmaşıklıklarına rağmen daha erişilebilir ve kullanımı daha ucuz. Ek olarak, grafik kartı yığınlarının mevcudiyeti, bu modelleri hızlı bir şekilde eğitmenize ve daha iyi ve daha iyi sonuçlar elde etmenize olanak tanır.

Related Articles

الذكاء الاصطناعي

هل ستساعدنا التكنولوجيا على تعلم اللغات الأجنبية؟

 هل ستساعدنا التكنولوجيا على تعلم اللغات الأجنبية؟

أصبحت تقنيات الذكاء الاصطناعي للمحادثة منتشرة في كل مكان ، ودخل السوق المزيد والمزيد من المنتجات التي تستخدم التعرف التلقائي على الكلام وفهم اللغة الطبيعية وتوليف الكلام. متخصص التعلم الآلي هو مهنة المستقبل.


Unsplash

ماركوس وينكلر

 

هل تتذكر حشر الكلمات الإنجليزية أو الألمانية في لعبة ورق؟ بالنسبة للأجيال القادمة ، سيكون الأمر أشبه بالنحت على ألواح من الطين بالقصب.

في غضون عام ، يمكن أن تبدو اجتماعات العمل في الفرق و zoome على النحو التالي: أشتري صورة رمزية لعملات البيتكوين (مثلي تمامًا ، أجمل فقط) ، ثم ضبط نفسي في إصدار المكتب ، مضيفًا خيار الترجمة الآلية. الآن يمكنني التحدث باللغة الأردية. أو الهندية.

تحقق أيضًا من:

في الوقت الحالي ، لا يزال الأمر مجرد خيال ، فهناك ما يقرب من 6.5 ألف شخص في العالم. اللغات ، وعملية التعلم من هذه القاعدة تستغرق وقتًا وموارد. ومع ذلك ، أصبحت الترجمة التلقائية في الوقت الفعلي إلى اللغات الأكثر شيوعًا – الإنجليزية والفرنسية والألمانية ممكنة الآن.

لماذا الترجمة الحية صعبة للغاية؟ لنبدأ بحقيقة أنه يجب عليك الجمع بين تقنيتين مختلفتين: الطبقة الأولى هي التعرف على الكلام ، أي تحويل الصوت إلى نص. المسألة الثانية هي الترجمة الآلية. يفسر نظام برمجيات الترجمة الآلية بنية الجملة للغة المصدر (التي نترجم منها) وينشئ ترجمة بناءً على قواعد اللغة الهدف (التي نترجم إليها). تتضمن العملية تحطيم تراكيب الجمل المعقدة والمتنوعة ، وتحديد أجزاء الكلام ، وحل الغموض ، وتجميع المعلومات في مكونات وهيكل لغة جديدة.

في البداية ، تم استخدام الأساليب الإحصائية لهذه المهام. في الترجمة الآلية والتعرف على الكلام ، في البداية ، تم استخدام الجهاز الإحصائي ، مثل سلاسل ماركوف المخفية. “منذ حوالي 2013-2015 ، حدث تغيير في الأساليب ، وشهدنا تحولًا من النماذج الكلاسيكية والإحصائية والاحتمالية إلى الخوارزميات القائمة على التعلم الآلي العميق. نحن نعمل حاليًا على تطوير وتطوير مثل هذه النماذج في OPI PIB “- كما يقول الدكتور م. ماريك كوزوفسكي ، رئيس مختبر الهندسة اللغوية. تم تنقيح خوارزميات التعلم العميق في البداية في معالجة الصور. فهي ممتازة في تصنيف الصور التي سرعان ما ضمها الطب. الخوارزميات ، على سبيل المثال ، تدعم عمل اختصاصي الأشعة ، لأنها تكتشف المخالفات في الصور بشكل فعال للغاية. أبلغ البريطانيون مؤخرًا عن العمل على استخدام الذكاء الاصطناعي في التشخيص المبكر لمرض الزهايمر بناءً على تحليل كلام المستجيبين.

حدث اختراق كبير آخر قبل 5 سنوات. في عام 2017 ، تم نشر أول مقالات بحثية من Google Brain حول استخدام شبكات Transformer بناءً على آلية الانتباه الذاتي. “كان أحد المعالم البارزة التي أتاحت انتقالًا أسرع وأوسع من المختبر إلى الصناعة هو وصول الشبكة العصبية العميقة من نوع Transformer. بعد ذلك بعامين – في عام 2019 – كان هناك بالفعل الكثير من المنشورات العلمية حول هذه الشبكات وتطبيقاتها المتعددة “، يتابع د. كوزوفسكي. في نهاية عام 2021 ، فاز فريقه في مسابقة وطنية نظمتها Centrum Govtech و UOKiK ، والتي تتعلق بالذكاء الاصطناعي. يتمثل في تطوير أساليب ذكية تدعم الكشف عن البنود المحظورة في العقود. لقد كان استخدام شبكات Transformer هو الذي فاز بمهندسي OPI ، مما سمح باكتشاف أكثر دقة وأسرع لجمل معينة ، مقارنة بأساليب التعلم الآلي الكلاسيكية أو حتى الشبكات العودية العميقة. بالحديث عن مقياس الدقة النوعية الذي توفره شبكات Transformer ، فهذا يمثل تحسنًا بنسبة 5-10٪ تقريبًا عن أفضل الأساليب السابقة. ليس كثيرًا من الناحية النظرية ، ولكن مع الأخذ في الاعتبار تأثير المقياس ، فقد بدأ بالفعل في التأثير بشكل كبير على القبول النهائي والأرباح المالية. بادئ ذي بدء ، تعد شبكات Transformer أيضًا أسرع (فهي قادرة على معالجة المزيد من البيانات في وقت أقل) وأسهل للتطبيق في الصناعة بفضل تعدد المكتبات أو عدد النماذج المدربة مسبقًا. كما أنها لا تتطلب فرقًا كبيرة من العلماء لضبط طويل المدى “- يقول ماريك كوزوفسكي. كما يقول ، المحولات هي حاليًا بنية الخيار الأول والأفضل (مثل هندسة BERT أو GPT-3) في مهام معالجة اللغة الطبيعية (NLP). في مهمة التعرف على الكلام ، أصبحت شبكات Transformer أيضًا أفضل حل جودة. ومع ذلك ، ظهرت مؤخرًا نماذج تسمى Vision Transformer (ViT) ، والتي تقدم نموذجًا خالصًا لشبكة المحولات ، دون الحاجة إلى الكتل التلافيفية. تظهر الأبحاث أن ViT يمكن أن يتفوق في الأداء على معظم الشبكات التلافيفية الحديثة على مجموعة متنوعة من مجموعات بيانات التعرف على الصور ، مع موارد حسابية أقل بشكل ملحوظ.

يمكن أن يكون زميلك في العمل افتراضيًا

وجد تقرير صادر عن شركة الأبحاث والاستشارات Metrigy عن المساعدين الافتراضيين الأذكياء أن ما يقرب من 24 ٪ من المستجيبين يحضرون اجتماعات مع غير المتحدثين باللغة الإنجليزية. تكاليف الترجمة ، في كثير من الأحيان ليست ضئيلة. في بعض الأحيان يمكن أن يمرض مترجم بشري ، على سبيل المثال ، وهو ما لن يحدث للآلة. نعم ، لا تزال جودة الترجمات الآلية غير متساوية مع الترجمات البشرية ، ولن يشعر الذكاء الاصطناعي بالسخرية أو الدقة ، ولكنه يتحسن في واقع الأعمال اليومية ، خاصةً مع الترجمات المتخصصة. تستخدم أكثر من نصف الشركات التي شملها الاستطلاع خدمات خارجية لترجمة ما يقوله الآخرون ، ويبلغ متوسط ​​تكلفة هذه الترجمة 172 دولارًا لكل اجتماع. يتيح لك دمج مساعدي الاجتماع الظاهري الأذكياء مع وظائف الترجمة تقليل التكاليف بشكل كبير.

بفضل الأدوات والتقنيات الجديدة ، أصبح إنشاء تطبيق AI للمحادثة أسهل من أي وقت مضى ، مما يتيح نطاقًا أوسع بكثير من التطبيقات ، مثل المساعدين الافتراضيين أو النسخ في الوقت الفعلي. هذه التقنيات متوفرة بالفعل في السوق. في عام 2019 ، استحوذت CISCO Webex على تقنية الترجمة في الوقت الفعلي من خلال الاستحواذ على Voicea ، وهو اجتماع متخصص وتكنولوجيا الصوت القائمة على الذكاء الاصطناعي. تقدم Cisco Webex حاليًا ترجمة فورية إلى 9 لغات. يستخدم الحل المقدم ترجمة Google والتعلم الآلي الصوتي. جزء Google هو نفس الترجمة ، والجزء الصوتي هو التعرف التلقائي على الكلام والتقاط التسجيلات وتوقيعها. هذا هو المكان الذي يأتي فيه التعلم الآلي: نظرًا لأن المزيد والمزيد من الأشخاص يستخدمون هذه الميزة ، تتحسن الترجمة بمرور الوقت حيث تتعلم المزيد من أنواع الأصوات واللهجات. ومع ذلك ، فإن جزء كلمة مقابل كلمة هو Google Translate.

بدورها ، نشرت Microsoft في أكتوبر 2021 نموذجًا معقدًا للغاية لشبكة Transformer للترجمة الآلية (محولات عميقة جدًا للترجمة الآلية العصبية) وأثبتت أن نماذجها للأزواج اللغوية الشائعة (الإنجليزية والفرنسية والألمانية) تقدم حاليًا أفضل ترجمة عالية الجودة . تعمل الأساليب القائمة على المحولات أيضًا على تحسين جودة التعرف على الصوت بشكل كبير. كما لاحظ د. ماريك كوزوفسكي ، أكبر أعمالهم هو سهولة التنفيذ ، فأنت لست بحاجة إلى توظيف عشرات العلماء لضبطهم لتطبيق معين لتشغيلهم. في هذه الحالة ، يعتمد الكثير على حجم مجموعة التدريب ومقدار قوة الحوسبة التي يجب أن نتعلمها من هذه النماذج. أصبح كل شيء أكثر بساطة من جانب المستهلك والمتكامل ، وهذه الشبكات ، على الرغم من تعقيدها ، يمكن الوصول إليها بشكل أكبر واستخدامها أقل تكلفة. بالإضافة إلى ذلك ، يتيح لك توفر مجموعات بطاقات الرسومات إمكانية تدريب هذه النماذج بسرعة وتحقيق نتائج أفضل وأفضل.

Related Articles

Back to top button