Will technology help us learn foreign languages?
Will technology help us learn foreign languages?
Conversational AI technologies are becoming ubiquitous, and more and more products using automatic speech recognition, natural language understanding and speech synthesis have entered the market. Machine learning specialist is the profession of the future.
Do you remember cramming English or German words into a blackjack game? For posterity, it would be like sculpting clay tablets with reeds.
In a year, business meetings in teams and zoome could look like this: I buy a bitcoin avatar (just like me, only prettier), then set myself up in the office version, adding the option of machine translation. Now I can speak Urdu. or Hindi.
Check also:
At the moment, it is still just a fantasy, there are almost 6.5 thousand people in the world. languages, and the process of learning from this base takes time and resources. However, automatic real-time translation into the most popular languages - English, French and German is now possible.
Why is live translation so difficult? Let’s start with the fact that you have to combine two different technologies: the first layer is speech recognition, that is, the conversion of voice to text. The second issue is machine translation. The machine translation software system interprets the sentence structure of the source language (from which we are translating) and creates a translation based on the grammar of the target language (which we are translating into). The process involves breaking down complex and diverse sentence structures, identifying parts of speech, resolving ambiguities, and assembling information into the components and structure of a new language.
في البداية ، تم استخدام الأساليب الإحصائية لهذه المهام. في الترجمة الآلية والتعرف على الكلام ، في البداية ، تم استخدام الجهاز الإحصائي ، مثل سلاسل ماركوف المخفية. “منذ حوالي 2013-2015 ، حدث تغيير في الأساليب ، وشهدنا تحولًا من النماذج الكلاسيكية والإحصائية والاحتمالية إلى الخوارزميات القائمة على التعلم الآلي العميق. نحن نعمل حاليًا على تطوير وتطوير مثل هذه النماذج في OPI PIB “- كما يقول الدكتور م. ماريك كوزوفسكي ، رئيس مختبر الهندسة اللغوية. تم تنقيح خوارزميات التعلم العميق في البداية في معالجة الصور. فهي ممتازة في تصنيف الصور التي سرعان ما ضمها الطب. الخوارزميات ، على سبيل المثال ، تدعم عمل اختصاصي الأشعة ، لأنها تكتشف المخالفات في الصور بشكل فعال للغاية. أبلغ البريطانيون مؤخرًا عن العمل على استخدام الذكاء الاصطناعي في التشخيص المبكر لمرض الزهايمر بناءً على تحليل كلام المستجيبين.
حدث اختراق كبير آخر قبل 5 سنوات. في عام 2017 ، تم نشر أول مقالات بحثية من Google Brain حول استخدام شبكات Transformer بناءً على آلية الانتباه الذاتي. “كان أحد المعالم البارزة التي أتاحت انتقالًا أسرع وأوسع من المختبر إلى الصناعة هو وصول الشبكة العصبية العميقة من نوع Transformer. بعد ذلك بعامين – في عام 2019 – كان هناك بالفعل الكثير من المنشورات العلمية حول هذه الشبكات وتطبيقاتها المتعددة “، يتابع د. كوزوفسكي. في نهاية عام 2021 ، فاز فريقه في مسابقة وطنية نظمتها Centrum Govtech و UOKiK ، والتي تتعلق بالذكاء الاصطناعي. يتمثل في تطوير أساليب ذكية تدعم الكشف عن البنود المحظورة في العقود. لقد كان استخدام شبكات Transformer هو الذي فاز بمهندسي OPI ، مما سمح باكتشاف أكثر دقة وأسرع لجمل معينة ، مقارنة بأساليب التعلم الآلي الكلاسيكية أو حتى الشبكات العودية العميقة. بالحديث عن مقياس الدقة النوعية الذي توفره شبكات Transformer ، فهذا يمثل تحسنًا بنسبة 5-10٪ تقريبًا عن أفضل الأساليب السابقة. ليس كثيرًا من الناحية النظرية ، ولكن مع الأخذ في الاعتبار تأثير المقياس ، فقد بدأ بالفعل في التأثير بشكل كبير على القبول النهائي والأرباح المالية. بادئ ذي بدء ، تعد شبكات Transformer أيضًا أسرع (فهي قادرة على معالجة المزيد من البيانات في وقت أقل) وأسهل للتطبيق في الصناعة بفضل تعدد المكتبات أو عدد النماذج المدربة مسبقًا. كما أنها لا تتطلب فرقًا كبيرة من العلماء لضبط طويل المدى “- يقول ماريك كوزوفسكي. كما يقول ، المحولات هي حاليًا بنية الخيار الأول والأفضل (مثل هندسة BERT أو GPT-3) في مهام معالجة اللغة الطبيعية (NLP). في مهمة التعرف على الكلام ، أصبحت شبكات Transformer أيضًا أفضل حل جودة. ومع ذلك ، ظهرت مؤخرًا نماذج تسمى Vision Transformer (ViT) ، والتي تقدم نموذجًا خالصًا لشبكة المحولات ، دون الحاجة إلى الكتل التلافيفية. تظهر الأبحاث أن ViT يمكن أن يتفوق في الأداء على معظم الشبكات التلافيفية الحديثة على مجموعة متنوعة من مجموعات بيانات التعرف على الصور ، مع موارد حسابية أقل بشكل ملحوظ.
يمكن أن يكون زميلك في العمل افتراضيًا
وجد تقرير صادر عن شركة الأبحاث والاستشارات Metrigy عن المساعدين الافتراضيين الأذكياء أن ما يقرب من 24 ٪ من المستجيبين يحضرون اجتماعات مع غير المتحدثين باللغة الإنجليزية. تكاليف الترجمة ، في كثير من الأحيان ليست ضئيلة. في بعض الأحيان يمكن أن يمرض مترجم بشري ، على سبيل المثال ، وهو ما لن يحدث للآلة. نعم ، لا تزال جودة الترجمات الآلية غير متساوية مع الترجمات البشرية ، ولن يشعر الذكاء الاصطناعي بالسخرية أو الدقة ، ولكنه يتحسن في واقع الأعمال اليومية ، خاصةً مع الترجمات المتخصصة. تستخدم أكثر من نصف الشركات التي شملها الاستطلاع خدمات خارجية لترجمة ما يقوله الآخرون ، ويبلغ متوسط تكلفة هذه الترجمة 172 دولارًا لكل اجتماع. يتيح لك دمج مساعدي الاجتماع الظاهري الأذكياء مع وظائف الترجمة تقليل التكاليف بشكل كبير.
بفضل الأدوات والتقنيات الجديدة ، أصبح إنشاء تطبيق AI للمحادثة أسهل من أي وقت مضى ، مما يتيح نطاقًا أوسع بكثير من التطبيقات ، مثل المساعدين الافتراضيين أو النسخ في الوقت الفعلي. هذه التقنيات متوفرة بالفعل في السوق. في عام 2019 ، استحوذت CISCO Webex على تقنية الترجمة في الوقت الفعلي من خلال الاستحواذ على Voicea ، وهو اجتماع متخصص وتكنولوجيا الصوت القائمة على الذكاء الاصطناعي. تقدم Cisco Webex حاليًا ترجمة فورية إلى 9 لغات. يستخدم الحل المقدم ترجمة Google والتعلم الآلي الصوتي. جزء Google هو نفس الترجمة ، والجزء الصوتي هو التعرف التلقائي على الكلام والتقاط التسجيلات وتوقيعها. هذا هو المكان الذي يأتي فيه التعلم الآلي: نظرًا لأن المزيد والمزيد من الأشخاص يستخدمون هذه الميزة ، تتحسن الترجمة بمرور الوقت حيث تتعلم المزيد من أنواع الأصوات واللهجات. ومع ذلك ، فإن جزء كلمة مقابل كلمة هو Google Translate.
In turn, in October 2021 Microsoft published a very complex Transformer network model for machine translation (Very Deep Transformers for Neural Machine Translation) and demonstrated that its models for common language pairs (English, French and German) currently provide the best high-quality translation. Transformer-based methods also significantly improve the quality of voice recognition. As noted by Dr. Marek Kozowski, their biggest business is ease of implementation, you don’t need to hire dozens of scientists to tune them to a specific application to run them. In this case, a lot depends on the size of the training set and how much computing power we have to learn from these models. Everything has become much simpler on the consumer and integrated side, and these networks, despite their complexity, are more accessible and less expensive to use. In addition, the availability of graphics card stacks allows you to quickly train these models and achieve better and better results.