Google Translateが同音異義語を認識する方法を教えた方法

Google Translateが同音異義語を正しく認識する方法を紹介します

あなたはベースが好きですか?

この質問に対するあなたの答えは、シーフードを思い浮かべるか、音楽を思い浮かべるかによって異なるでしょう。なぜなら、「ベース」と「ベース」は同音異義語であり、同じ綴りや発音を持ちながら異なる意味を持つ言葉です。野生で「ベース」という同音異義語に出くわした場合、文脈の手がかりを使って質問の意味を理解し、適切な返答を見つけるでしょう。Google翻訳も同じようにします。高度な機械学習の一環として、翻訳は文脈を解析し、さまざまな同音異義語を区別できるのです。しかし、この成果に至るまでには多くの作業が必要でした。

Google翻訳の初期には、翻訳は非常に文字通りで逐語的な結果になりがちでした。Google翻訳のエンジニアであるアプー・シャーは、これは翻訳が元々統計的な手法を用いて結果を生成していたからだと述べています。そして、それは同音異義語のような言語の理解には適していませんでした。たとえば、英語からスペイン語に「VoAGI」という言葉を翻訳したいとします。統計的な手法を使うと、Translateは公開されている翻訳データ(オンライン辞書など)において、「VoAGI」という意味のスペイン語の単語がどれだけ登場するかを数えます。その後、最も一般的なオプションに基づいて結果を表示します。ですので、あなたが霊媒師について話していたために「el médium」と言いたかったとしても、Translateはより多く登場した普通のサイズを意味する単語「medio」を提案してしまうかもしれません。「Translateは利用可能なデータに制約されていました。」とアプーは言います。「意味や文脈をよく読み取ることができませんでした。」

今日、Google翻訳は133の言語をサポートしています。2006年に最初にリリースされた当時の数は60に近かったです。サポートする言語の数が増えるにつれて、翻訳の品質も向上していったとGoogleのエンジニアリングディレクターであるマクダフ・ヒューズは述べています。彼は約11年間この役職に従事し、2016年に製品の重大な転換を監督し、純粋にニューラルネットワークをベースとした機械翻訳システムへの移行を実現しました。この移行により、私たちはより正確で文脈を考慮した翻訳を得ることができるようになりました(ベースとベースの例のように)。

Google翻訳のウェブサイトのスクリーンショットで、製品が英語からスペイン語への2つの文章を翻訳しています。最初の文は「私は釣りに行って大きなベースを釣りました。」というものです。2番目の文は「私はギター店に行って大きなベースを買いました。」というものです。その下のボックスには、両方の文がスペイン語で書かれており、「ベース」の異なる単語が表示されています。

しかし、ニューラルネットワークベースのシステムへの移行後でも、まだ改善の余地がありました。マクダフは言います。「Translateは非常に印象的な自然な文を生成することができましたが、ときには間違いも含まれていました。」それは文法的に正しく見える場合でも、その文はまだ間違っている可能性があります。」

そのため、チームはニューラルネットワークをより正確にするために取り組んできました。「今日実行しているモデルは、最初にリリースしたものの3倍から4倍ほど大きく、より高速になっています。」とマクダフは述べます。チームは翻訳された資料の例をモデルに示すことで、言語の表現方法を教える訓練を行っています。これにより、Translateはより微妙な結果を提供することができます。「単語ごとの表現だけでなく、文脈も考慮しています。あなたはレースに出場しましたか?あなたのプログラムは実行されましたか?それを徹底的に実行しましたか?」とアプーは言います。

翻訳システムが正しい意味を選択するための十分な文脈がない場合もあります。先に述べた「ベース」の例のようにです。本日から、Translateはそのような場合を検出し、意図した意味を手動で選択できるようになります。これは私たちの最新の生成型AI実験の成果であり、Search Labsを通じて可能になりました。もしもあなたが米国で私たちのSearch Generative Experience(SGE)にオプトインされており、英語からスペイン語へのフレーズの翻訳をSearchに依頼した場合、特定の単語に複数の意味がある可能性がある場合にそれらの用語がアンダーライン表示されます。アンダーラインの単語をタップするだけで、特定の意味を示すことができます。単語の性別を指定する必要がある場合にもこのオプションが表示されることがあります。

関連記事

関連記事

セ…での生成型AI

生成型AIとは、検索での生成型エクスペリエンス(SGE)の言語は世界中で拡大しており、4つの新しい言語が追加されました。

詳細はこちら

SGE以外でも、例えばWebブラウザのTranslateにコンテキストのない単語を入力したり、Translateアプリを使用して声に出した場合、アルゴリズムは潜在的な結果を評価し、意味を明確にするためのオプションを提供します。例えば、単語「バット」のTranslateオプションには、動物、装置、アクションが含まれます。

同音異義語を含むフレーズ全体を書いたり話した場合、アルゴリズムは文脈に基づいてフレーズを分析し、統計に頼るよりも正確な同音異義語の使用方法を示します。

「私たちはデータのカリエーションにも多くの取り組みを行いました」とマクダフは言います。Googleは辞書プロバイダとサードパーティの翻訳者と提携し、異なる言語での単語やフレーズを集め、チームは公開データベースを研究して新しいTranslateの機能の構築方法をよりよく理解しています。「私たちはまた、高品質な翻訳と低品質な翻訳の違いを認識するための言語モデルのトレーニングも行いました」とマクダフは言います。また、「貢献」オプションでは、Google Translateのユーザーが翻訳の手助けや修正を提供することもできます。

Translateは、時と共に同音異義語や文脈を必要とする他の翻訳の処理能力が向上していくでしょうし、チームはそれを実現するために柔軟性を持続することが重要だと考えています。「AIは進化しており、コンピュータのパワーも進化していますが、言語も進化している」とアプは述べます。単語には常に新しい意味や使用方法が付加されています。例えば、「slay」や「cancel」をご覧ください。この作業はチームを引き続き活気づけますが、彼らの基本的な目標は変わりません。

「私たちの将来のビジョンは、人々に非常に流動的な対話を可能にすることです」とアプは述べています。「私たちは、コミュニケーションにおけるすべての障壁を取り除きたいので、どの言語を話す人にも簡単に会話ができるようにしたいのです。」どのようなベースを話しているかに関係なく。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「Amazon SageMakerを使用して、Llama 2モデルのスループット性能を向上させる」

機械学習(ML)の普及において、私たちは興奮する転換点にいます私たちは、ほとんどの顧客の体験やアプリケーションが生成型A...

機械学習

「I2D2に会ってください:制約付きデコーディングと自己模倣学習を用いた言語モデルからの汎用知識生成のための新しいAIフレームワーク」

言語モデルの急速な進歩は、主にその巨大なスケールによるものであり、様々な自然言語処理のタスクで驚異的な能力を実現して...

データサイエンス

スタンフォード大学の研究は、PointOdysseyを紹介します:長期ポイント追跡のための大規模な合成データセット

大規模な注釈付きデータセットは、さまざまなコンピュータビジョンタスクで正確なモデルを作成するためのハイウェイとして機...

データサイエンス

「データサイエンス、機械学習、コンピュータビジョンプロジェクトを強化する 効果的なプロジェクト管理のための必須ツール」

「機械学習またはデータサイエンスのプロジェクトは非常に大規模であり、多くの種類のファイルや多様なアーキテクチャを含ん...

コンピュータサイエンス

「ナノフォトニクスがカメラレンズを平らにする」

「ナノスケールメタ光学は、スマートフォンから隆起を取り除きながら、より良いイメージングの可能性を秘めています」

機械学習

マシンラーニングのロードマップ:コミュニティの推奨事項2023

前回の記事で、このロードマップの第1部では、機械学習のための出発点と方向性について簡単に説明しました初心者が堅固な基盤...