Google Translateが同音異義語を認識する方法を教えた方法

Google Translateが同音異義語を正しく認識する方法を紹介します

あなたはベースが好きですか?

この質問に対するあなたの答えは、シーフードを思い浮かべるか、音楽を思い浮かべるかによって異なるでしょう。なぜなら、「ベース」と「ベース」は同音異義語であり、同じ綴りや発音を持ちながら異なる意味を持つ言葉です。野生で「ベース」という同音異義語に出くわした場合、文脈の手がかりを使って質問の意味を理解し、適切な返答を見つけるでしょう。Google翻訳も同じようにします。高度な機械学習の一環として、翻訳は文脈を解析し、さまざまな同音異義語を区別できるのです。しかし、この成果に至るまでには多くの作業が必要でした。

Google翻訳の初期には、翻訳は非常に文字通りで逐語的な結果になりがちでした。Google翻訳のエンジニアであるアプー・シャーは、これは翻訳が元々統計的な手法を用いて結果を生成していたからだと述べています。そして、それは同音異義語のような言語の理解には適していませんでした。たとえば、英語からスペイン語に「VoAGI」という言葉を翻訳したいとします。統計的な手法を使うと、Translateは公開されている翻訳データ(オンライン辞書など)において、「VoAGI」という意味のスペイン語の単語がどれだけ登場するかを数えます。その後、最も一般的なオプションに基づいて結果を表示します。ですので、あなたが霊媒師について話していたために「el médium」と言いたかったとしても、Translateはより多く登場した普通のサイズを意味する単語「medio」を提案してしまうかもしれません。「Translateは利用可能なデータに制約されていました。」とアプーは言います。「意味や文脈をよく読み取ることができませんでした。」

今日、Google翻訳は133の言語をサポートしています。2006年に最初にリリースされた当時の数は60に近かったです。サポートする言語の数が増えるにつれて、翻訳の品質も向上していったとGoogleのエンジニアリングディレクターであるマクダフ・ヒューズは述べています。彼は約11年間この役職に従事し、2016年に製品の重大な転換を監督し、純粋にニューラルネットワークをベースとした機械翻訳システムへの移行を実現しました。この移行により、私たちはより正確で文脈を考慮した翻訳を得ることができるようになりました(ベースとベースの例のように)。

Google翻訳のウェブサイトのスクリーンショットで、製品が英語からスペイン語への2つの文章を翻訳しています。最初の文は「私は釣りに行って大きなベースを釣りました。」というものです。2番目の文は「私はギター店に行って大きなベースを買いました。」というものです。その下のボックスには、両方の文がスペイン語で書かれており、「ベース」の異なる単語が表示されています。

しかし、ニューラルネットワークベースのシステムへの移行後でも、まだ改善の余地がありました。マクダフは言います。「Translateは非常に印象的な自然な文を生成することができましたが、ときには間違いも含まれていました。」それは文法的に正しく見える場合でも、その文はまだ間違っている可能性があります。」

そのため、チームはニューラルネットワークをより正確にするために取り組んできました。「今日実行しているモデルは、最初にリリースしたものの3倍から4倍ほど大きく、より高速になっています。」とマクダフは述べます。チームは翻訳された資料の例をモデルに示すことで、言語の表現方法を教える訓練を行っています。これにより、Translateはより微妙な結果を提供することができます。「単語ごとの表現だけでなく、文脈も考慮しています。あなたはレースに出場しましたか?あなたのプログラムは実行されましたか?それを徹底的に実行しましたか?」とアプーは言います。

翻訳システムが正しい意味を選択するための十分な文脈がない場合もあります。先に述べた「ベース」の例のようにです。本日から、Translateはそのような場合を検出し、意図した意味を手動で選択できるようになります。これは私たちの最新の生成型AI実験の成果であり、Search Labsを通じて可能になりました。もしもあなたが米国で私たちのSearch Generative Experience(SGE)にオプトインされており、英語からスペイン語へのフレーズの翻訳をSearchに依頼した場合、特定の単語に複数の意味がある可能性がある場合にそれらの用語がアンダーライン表示されます。アンダーラインの単語をタップするだけで、特定の意味を示すことができます。単語の性別を指定する必要がある場合にもこのオプションが表示されることがあります。

関連記事

関連記事

セ…での生成型AI

生成型AIとは、検索での生成型エクスペリエンス(SGE)の言語は世界中で拡大しており、4つの新しい言語が追加されました。

詳細はこちら

SGE以外でも、例えばWebブラウザのTranslateにコンテキストのない単語を入力したり、Translateアプリを使用して声に出した場合、アルゴリズムは潜在的な結果を評価し、意味を明確にするためのオプションを提供します。例えば、単語「バット」のTranslateオプションには、動物、装置、アクションが含まれます。

同音異義語を含むフレーズ全体を書いたり話した場合、アルゴリズムは文脈に基づいてフレーズを分析し、統計に頼るよりも正確な同音異義語の使用方法を示します。

「私たちはデータのカリエーションにも多くの取り組みを行いました」とマクダフは言います。Googleは辞書プロバイダとサードパーティの翻訳者と提携し、異なる言語での単語やフレーズを集め、チームは公開データベースを研究して新しいTranslateの機能の構築方法をよりよく理解しています。「私たちはまた、高品質な翻訳と低品質な翻訳の違いを認識するための言語モデルのトレーニングも行いました」とマクダフは言います。また、「貢献」オプションでは、Google Translateのユーザーが翻訳の手助けや修正を提供することもできます。

Translateは、時と共に同音異義語や文脈を必要とする他の翻訳の処理能力が向上していくでしょうし、チームはそれを実現するために柔軟性を持続することが重要だと考えています。「AIは進化しており、コンピュータのパワーも進化していますが、言語も進化している」とアプは述べます。単語には常に新しい意味や使用方法が付加されています。例えば、「slay」や「cancel」をご覧ください。この作業はチームを引き続き活気づけますが、彼らの基本的な目標は変わりません。

「私たちの将来のビジョンは、人々に非常に流動的な対話を可能にすることです」とアプは述べています。「私たちは、コミュニケーションにおけるすべての障壁を取り除きたいので、どの言語を話す人にも簡単に会話ができるようにしたいのです。」どのようなベースを話しているかに関係なく。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

将来のイベントの予測:AIとMLの能力と限界

あなたは、占い師、占星術師、または有名なババ・ヴァンガがどのように未来の出来事を予測していたのか、考えたことがありま...

AIニュース

「AI企業は、彼らが引き起こす損害について責任を負わなければならない」と『ゴッドファーザー』が言う

一群の専門家は、人工知能企業は彼らの製品が引き起こす損害に対して責任を負う必要があると述べました

機械学習

「IBM、HuggingFace、そしてNASAがWatsonx․ai Foundation Modelをオープンソース化 NASA初の公開可能なAI基盤モデルであり、HuggingFace上で最大の地理空間モデル」

IBMとオープンソースのAIプラットフォームであるHugging Faceは、watsonx.ai地理空間基盤モデルのリリースを共同で発表しまし...

データサイエンス

「コンパートメント化拡散モデル(CDM) 異なるデータソース上で異なる拡散モデルまたはプロンプトをトレーニングするためのAIアプローチ」

最近の技術の進歩と人工知能の分野における発展により、多くの進展がありました。有名なChatGPTモデルを使用したテキスト生成...

機械学習

『プロンプトブリーダーの内部:Google DeepMindの新しい自己改善プロンプト技術』

「論理的思考と即座の進化・最適化が、大規模言語モデル(LLM)における次の重要なフロンティアとして認識されています私たち...

機械学習

Google AIによるコンテキストの力を解き放つ:プレフィックスLMと因果LMの対決におけるインコンテキスト学習

トロイの戦争は有名であり、アキレスがプリンス・ヘクターを一度にして永遠に歴史に名を刻んだが、現在、人工知能の急速に進...