「LXTのテクノロジーバイスプレジデント、アムル・ヌール・エルディン – インタビューシリーズ」
「LXTのテクノロジーバイスプレジデント、アムル・ヌール・エルディン - インタビューシリーズ」
Amr Nour-Eldin(アムル・ノウール・エルディン)は、LXTの技術副社長です。Amrは、自動音声認識(ASR)の文脈での音声/オーディオ処理および機械学習の分野で16年以上の専門経験を持つ博士号取得の研究科学者であり、特に近年はストリーミングのエンドツーエンド音声認識のためのディープラーニング技術に焦点を当てた実践経験を持っています。
LXTは、世界的な組織向けに知的技術を駆動するAIトレーニングデータを提供する新興企業です。国際的な貢献者ネットワークとの提携により、LXTは迅速なデータ収集と注釈付けを実現できます。彼らのグローバルな専門知識は145カ国以上と1000以上の言語ロケールに及びます。
あなたはマギル大学で信号処理の博士号を取得しましたが、初めにこの分野に興味を持ったきっかけは何でしたか?
私は常にエンジニアリングを学びたかったし、一般的な自然科学も好きでしたが、特に数学と物理に惹かれました。私は常に自然がどのように機能するかを理解し、その理解を応用してテクノロジーを創造する方法を考え続けていました。高校を卒業した後、医学や他の職業に進む機会がありましたが、私は理論と応用の両方を理想的に結合していると思われるエンジニアリングを選びました。これは私の心に近い2つの分野、数学と物理の問題に対していつも挑戦的で楽しんでいたものであり、常に私を駆り立てる近代テクノロジーの基盤でもありました。
電気工学には、一般的には通信と信号処理、および電力と電気工学の2つの大きな領域があります。これらの2つから選ぶ時、私は自然を物理学と方程式を使ってどのように表現するかにより近い通信と信号処理を選びました。音声、画像、ビデオなどの信号について話しており、私たちがどのようにコミュニケーションし、どのように私たちの感覚が知覚するか、およびその情報を数学的に表現してその知識を利用して技術を創造し改善する方法を理解することについてです。
マギル大学で人工帯域拡張(BWE)の情報理論的側面についての研究について話していただけますか?
学士号を取得した後、信号処理の分野を学業として続けたいと思いました。物理学の修士課程でフォトニクスを1年学んだ後、再びエンジニアリングに戻り、音声および音声信号処理の修士号を追求し、特に音声認識に焦点を当てました。博士号を取得する際には、音声認識アプリケーションにだけ焦点を当てるのではなく、一般的なオーディオと音声処理、またそれに密接に関連する機械学習と情報理論の分野にも少し幅を持たせたかったのです。
私の博士号のテーマは、狭帯域音声の帯域拡張でした。狭帯域音声は従来の電話音声を指します。音声の周波数帯域は約20キロヘルツまで広がりますが、情報の大部分は4キロヘルツまで集中しています。帯域拡張とは、従来の電話での上限周波数3.4キロヘルツから、それ以上8キロヘルツ以上に人工的に音声の内容を拡張することを指します。利用可能な狭帯域の情報だけから欠落しているより高周波数の内容をより良く再構築するためには、まず2つの周波数帯域間の音声内容の相互情報量を定量化し、それを学習モデルに利用して共有情報を学習する必要があります。一度学習されたそのモデルは、狭帯域音声とそのモデルが学習した欠落している高帯域音声との関係についての知識を利用して、高帯域の内容を生成するために使用できます。この共有された「相互情報量」を定量化し表現するのが情報理論の役割です。情報理論とは、任意の信号の情報を定量化し表現することを研究するものです。したがって、私の研究は、音声の人工帯域拡張を改善するために情報理論を取り入れることについてでした。そのため、私の博士号は、信号処理と情報理論、および機械学習を組み合わせた学際的な研究活動でした。
Microsoftの一部となったNuance Communicationsで16年以上にわたり主任音声科学者を務めたが、その経験から得た重要なポイントをいくつか教えていただけますか?
私の視点から最も重要な利点は、常に最新の信号処理と機械学習の最先端の技術に取り組み、その技術を実際のアプリケーションに適用することができたことです。私はさまざまなドメインでConversational AI製品にこれらの技術を適用する機会を得ました。これらのドメインには、エンタープライズ、ヘルスケア、自動車、モビリティなどが含まれていました。具体的なアプリケーションには、バーチャルアシスタント、対話型応答、音声メールのテキスト化などがあります。また、ドクター/患者の相互作用など、適切な表現と転写が重要な医療分野でも役割を果たしました。これら16年間を通じて、統計モデリングによる統計モデル作成からディープラーニングの徐々の普及、そしてディープラーニングがほぼすべてのAIの側面、ジェネレーティブAIや従来の予測的または識別的AIを含むAI全体で主導的な存在となるまでの進化を直接目の当たりにし、それに関与する運良く見続けることができました。この経験からのもう一つの重要な教訓は、データがAIモデルの能力とパフォーマンスにおいて数量と品質を通じて果たす重要な役割です。
あなたはIEEEなどの名だたる出版物に掲載された論文を含め、十数本の論文を発表しています。あなたの意見では、あなたが発表した中で最も画期的な論文は何であり、なぜそれが重要だったのですか?
Google Scholarによる引用数に基づけば、最も影響力のある論文は2008年に発表された「Mel-Frequency Cepstral Coefficient-Based Bandwidth Extension of Narrowband Speech」というタイトルの論文です。この論文の焦点は、自動音声認識(ASR)の分野で広く使用される特徴表現であるメル周波数ケプストラム係数を用いて音声コンテンツを再構築する方法についてです。
しかし、私の見解ではもっと革新的な論文は、引用数第二位の2011年に発表された「Memory-Based Approximation of the Gaussian Mixture Model Framework for Bandwidth Extension of Narrowband Speech」という論文です。この研究では、音声に時間的な情報を取り込む新しい統計モデリング技術を提案しました。この技術の利点は、追加の複雑さを最小限に抑えつつ、音声の長期情報をモデリングし、ストリーミングやリアルタイムの状況でもワイドバンド音声の生成が可能になる点です。
2023年6月にはLXTのテクノロジー副社長として採用されましたが、なぜこのポジションに惹かれたのですか?
LXTに入社する以前の学術および職業経験を通じて、私は常にデータと直接関わってきました。実際、音声科学と機械学習の研究からの鍵として、AIモデルのライフサイクルにおけるデータの重要性が明らかになりました。適切な形式の高品質なデータを持つことが、最先端のディープラーニングベースのAIの成功に不可欠でしたし、そのような状況で私のキャリアがスタートアップのような環境にある時期に巡り合えたことは幸運でした。学び、スキルを広げるだけでなく、長年にわたるAIデータサイエンティストの経験を活かして最大のインパクトを与えられる環境に参加する機会を得られたのは完璧な適合でした。LXTはAIデータプロバイダーであり、驚くほど一貫したペースで成長しているだけでなく、AIのノウハウ、クライアントの規模と多様性、そしてAIデータの種類においても絶好の成長段階にあると見なしました。その成長の道程に参加し、データエンドユーザーの視点をもたらして多くの影響力を持つことを楽しみにしていました。
LXTでの平均的な1日はどのようなものですか?
私の平均的な1日は、最新の研究成果を特定のトピックについて調査することから始まります。最近では主に生成AIに焦点を当てて、それをお客様のニーズにどのように適用できるかを考えています。幸いなことに、非常に優れたチームがおり、お客様の特殊なAIデータニーズに対応するソリューションを作成し、カスタマイズすることに非常に熟練しています。そのため、私は彼らと緊密に連携してそのアジェンダを設定しています。
また、戦略的な年次および四半期計画や、戦略的な目標を個々のチームゴールに分解し、その計画に沿った開発の進捗状況に合わせてスピードを維持する必要があります。私たちが行っているフィーチャー開発には、通常2つの技術トラックがあります。1つは、現在のおよび新しいプロジェクトで最良の成果を提供するために必要な要素を適切に整えることです。もう1つのトラックは、機械学習を組み込んだテクノロジーの能力を改善し、拡張することに焦点を当てています。
LXTで取り組んでいる機械学習アルゴリズムの種類について話していただけますか?
人工知能ソリューションはあらゆる産業でビジネスを変革しており、LXTはそれらを動かす機械学習アルゴリズムのための高品質なデータを提供できることを光栄に思っています。お客様は拡張現実や仮想現実、コンピュータビジョン、対話型AI、生成AI、検索の関連性、音声および自然言語処理(NLP)など、幅広いアプリケーションに取り組んでいます。私たちは、言語、文化、モダリティに関わらず、未来の機械学習アルゴリズムと技術をデータの生成と強化を通じて支えることに専念しています。
内部的には、データ品質の検証を自動化することから、すべてのデータモダリティにわたる人間を組み込んだラベリングモデルを実現するため、機械学習も導入しています。
英語と特に白人男性に関して、音声言語処理はほぼ完璧に近づいています。全ての言語、性別、人種に対して均等なフィールドが実現するまで、どのくらいの時間がかかると予測されますか?
これは複雑な問題であり、経済的、政治的、社会的、技術的などの要素に依存します。しかし、明確なことは、英語の普及がAIを現在の位置まで推進したということです。ですから、均等なフィールドに到達するための時間は、異なる人種や人口のデータ表現がオンラインで成長するスピードに依存し、それが決定する要素です。
ただし、LXTや同様の企業は、均等なフィールドに向けて大きな役割を果たすことができます。より少なく代表されている言語、性別、人種のデータがアクセスしにくいか、単に利用できない場合、変化は遅れるでしょう。しかし、私たちは自分たちの役割を果たそうとしています。LXTは、1,000以上の言語ロケールのカバレッジと145の国での経験を持ち、より多くの言語データへのアクセスを可能にするお手伝いをしています。
LXTが異なるクライアントのAIの取り組みを加速するためにどのようなビジョンを持っていますか?
LXTの目標は、効率的で正確かつ迅速なAI開発を可能にするデータソリューションを提供することです。12年にわたるAIデータ領域での経験を通じて、データに関連するすべての側面についてクライアントのニーズについての広範な知識を蓄積するとともに、最高品質のデータを最速かつ最適な価格で提供するためにプロセスを絶えず改善してきました。その結果、AIデータ品質、効率、価格の最適な組み合わせをクライアントに提供するという献身的な取り組みにより、LXTは信頼されるAIデータパートナーとなりました。これは、私たちの成長し続けるAIデータのニーズに対してLXTに戻ってくる定期的なクライアントによって明らかなものです。私のビジョンは、現在取り組んでいるすべてのデータモダリティと、生成AIを含むAI開発のすべてのタイプに対して、LXTの「MO(モード・オブ・オペレーション)」を確固として改善し、拡大することです。この目標を達成するためには、技術およびリソースの両面で自社の機械学習とデータサイエンスの能力を戦略的に拡大することが必要です。
素晴らしいインタビュー、詳細を知りたい読者はLXTを訪れてください。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles