人工知能

 テクノロジーは私たちが外国語を学ぶのに役立ちますか?

 テクノロジーは私たちが外国語を学ぶのに役立ちますか?

会話型AI技術は普及しつつあり、自動音声認識、自然言語理解、音声合成を使用した製品がますます市場に参入しています。機械学習のスペシャリストは未来の職業です。


スプラッシュを解除
マーカスウィンクラー
 

英語またはドイツ語の単語をブラックジャックゲームに詰め込んだことを覚えていますか?後世のために、それは葦で粘土板を彫刻するようなものです。

1年で、チームとズームでのビジネス会議は次のようになります。ビットコインのアバターを購入し(私と同じように、もっときれいです)、オフィスバージョンでセットアップし、機械翻訳のオプションを追加します。今、私はウルドゥー語を話すことができます。またはヒンディー語。

また確認してください:

現時点では、それはまだ単なる空想であり、世界には約6.5千人の人々がいます。言語、そしてこのベースから学ぶプロセスは時間とリソースを要します。ただし、最も人気のある言語(英語、フランス語、ドイツ語)への自動リアルタイム翻訳が可能になりました。

なぜライブ翻訳はとても難しいのですか?2つの異なるテクノロジーを組み合わせる必要があるという事実から始めましょう。最初のレイヤーは音声認識、つまり音声からテキストへの変換です。2番目の問題は機械翻訳です。機械翻訳ソフトウェアシステムは、(翻訳元の)ソース言語の文構造を解釈し、(翻訳先の)ターゲット言語の文法に基づいて翻訳を作成します。このプロセスには、複雑で多様な文の構造を分解し、品詞を識別し、あいまいさを解決し、新しい言語のコンポーネントと構造に情報を組み立てることが含まれます。

当初、これらのタスクには統計的手法が使用されていました。機械翻訳と音声認識では、当初、隠れマルコフ連鎖などの統計デバイスが使用されていました。「2013年から2015年頃から方法が変更され、古典的、統計的、確率的モデルから深層機械学習に基づくアルゴリズムへの移行が見られました。現在、OPIPIBでそのようなモデルを開発しています」と述べています。 M博士 言語工学研究所の責任者、マレク・コゾウスキー。ディープラーニングアルゴリズムは、当初、画像処理で洗練されていました。それらは、すぐに医学に組み込まれる画像を分類するのに優れています。たとえば、アルゴリズムは画像の不規則性を非常に効果的に検出するため、放射線科医の作業をサポートします。英国人は最近、回答者のスピーチの分析に基づいたアルツハイマー病の早期診断における人工知能の使用に関する研究を報告しました。

もう1つの大きな進歩は5年前に起こりました。2017年に、自己注意メカニズムに基づくTransformerネットワークの使用に関する最初のGoogleBrain研究記事が公開されました。「研究室から業界へのより迅速で幅広い移行を可能にしたマイルストーンの1つは、Transformerタイプのディープニューラルネットワークの登場でした。2年後の2019年には、これらのネットワークとそのネットワークに関する科学的な出版物がすでにたくさんありました。複数のアプリケーション」と続けます。コゾフスキー。2021年の終わりに、彼のチームは、人工知能に関連するCentrumGovtechとUOKiKが主催する全国大会で優勝しました。それは、契約における禁止条項の開示をサポートするインテリジェントな方法を開発することにあります。OPIエンジニアを獲得したのは、Transformerネットワークの使用であり、従来の機械学習手法や深い再帰型ネットワークと比較して、特定の文字列をより正確かつ迅速に検出できるようになりました。Transformer Gridsが提供する定性的な精度の尺度と言えば、これは以前の最良のアプローチよりも約5〜10%向上しています。理論的にはそれほど多くはありませんが、規模の影響を考慮すると、それはすでに最終的な受け入れと経済的利益に大きな影響を及ぼし始めています。まず第一に、Transformerネットワークは、ライブラリの多様性または事前にトレーニングされたモデルの数のおかげで、より高速で(より多くのデータをより短い時間で処理できる)、業界での実装が容易です。また、長期的な調整のために科学者の大規模なチームを必要としません」とマレク・コゾウスキー氏は言います。トランスデューサーは現在、自然言語処理(NLP)タスクで最初で最良のアーキテクチャー(BERTやGPT-3アーキテクチャーなど)です。音声認識タスクでは、トランスフォーマーネットワークも最高品質のソリューションになりました。しかし、最近、畳み込みブロックを必要とせずにトランスフォーマーネットワークの純粋なモデルを提供するVision Transformer(ViT)と呼ばれるモデルが登場しました。

それはあなたの仮想の同僚になることができます

インテリジェントな仮想アシスタントに関する調査およびコンサルティング会社Metrigyのレポートによると、回答者の24%近くが英語を話さない人との会議に出席しています。多くの場合、重要ではない翻訳コスト。たとえば、人間の翻訳者が病気になることがありますが、これは機械には起こりません。はい、機械翻訳の品質はまだ人間の翻訳と同等ではなく、AIは冷笑的または正確に感じることはありませんが、特に特殊な翻訳を使用することで、日常業務の現実において改善されています。調査対象の企業の半数以上が外部サービスを使用して他の人の発言を翻訳しており、そのような翻訳の平均コストは会議あたり172ドルです。スマート仮想会議アシスタントを翻訳機能と統合することで、コストを大幅に削減できます。

新しいツールとテクノロジーにより、AIチャットアプリの作成がこれまでになく簡単になり、仮想アシスタントやリアルタイムの文字起こしなど、はるかに幅広いアプリケーションが可能になります。これらの技術はすでに市場で入手可能です。2019年、CISCO Webexは、専門家会議およびAIベースの音声テクノロジーであるVoiceaを買収することにより、リアルタイム翻訳テクノロジーを買収しました。Cisco Webexは現在、9つの言語への同時翻訳を提供しています。提示されたソリューションは、Google翻訳と音声機械学習を使用しています。Googleの部分は翻訳と同じであり、音声の部分は自動音声認識と録音のキャプチャと署名です。ここで機械学習が登場します。この機能を使用する人が増えるにつれて、より多くの種類の音や方言を学習するにつれて、翻訳は時間の経過とともに向上します。ただし、単語ごとの部分はGoogle翻訳です。

次に、2021年10月、Microsoftは機械翻訳用の非常に複雑なTransformer Networkモデル(ニューラル機械翻訳用のVery Deep Transformers)を公開し、一般的な言語ペア(英語、フランス語、ドイツ語)のモデルが現在最高の高品質の翻訳を提供することを実証しました。トランスフォーマーベースの方法は、音声認識の品質も大幅に向上させます。博士が指摘したように。Marek Kozowski、彼らの最大のビジネスは実装の容易さです。彼らを実行するために特定のアプリケーションにそれらを調整するために何十人もの科学者を雇う必要はありません。この場合、トレーニングセットのサイズと、これらのモデルから学習する必要のある計算能力に大きく依存します。消費者側と統合側ではすべてがはるかに単純になり、これらのネットワークは複雑であるにもかかわらず、アクセスしやすく、使用コストも低くなっています。さらに、グラフィックカードスタックが利用できるため、これらのモデルをすばやくトレーニングして、より良い結果を得ることができます。

Related Articles

Back to top button