Amazon AlexaのAI研究者がQUADRoを発表:QAシステムの向上に向けた画期的なリソースで、440,000以上のアノテーション付きの例があります

『Amazon AlexaのAI研究者がQUADRoを発表:QAシステム向上の画期的なリソース、440,000以上のアノテーション付き例』

人工知能(AI)と機械学習(ML)の能力は、あらゆる可能な産業に進出することを成功裏に可能にしました。最近では、大規模言語モデル(LLM)と質問応答システムの導入により、AIコミュニティは大きな進歩を遂げています。事前計算されたデータベースから効率的に応答を取得することは、自動質問応答(QA)システムの開発における一般的なステップです。

主なQAパラダイムには、オープンブック型とクローズドブック型の2つがあります。オープンブック型、またはリトリーブアンドリード型は、適切な素材を大量の文書コーパス、頻繁にインターネットから取得する2つの手順を経て、異なるモデルや手法を適用して取得された素材から解決策を取り出す手法です。一方、クローズドブック型は最近の手法であり、外部のコーパスを利用せずにT5などのSeq2Seqモデルを基にしたモデルを訓練することで、結果を生成します。

クローズドブック技術は優れた結果を示しているものの、多くの産業アプリケーションに対してリソースが過剰であり、システムのパフォーマンスに重大なリスクをもたらす可能性があります。質問応答型データベース(DBQA)は、パラメータや大規模なコーパスの情報に頼るのではなく、事前生成された質問応答のデータベースから応答を取得する方法です。

これらのシステムの主要な部分は、質問と回答のデータベース、データベースのクエリに対する検索モデル、および最適な回答を選ぶランキングモデルです。DBQA技術により、迅速な推論と再学習モデルなしで新しいペアを追加できる能力が可能となり、新しい情報を導入することができます。

DBQA技術の課題の一つは、検索およびランキングモデルの開発における充分なトレーニングデータの不足です。既存のリソースはスコープと内容の面で不足しており、注釈プロセスの品質を向上させる必要があるものや、質問と質問の類似性に焦点を当て、回答を無視するものが多数存在しています。

これらの課題に対処するため、研究者チームは質問応答データベースの検索に関するデータセットとモデルであるQUADRoを提案しました。これは訓練と評価のために特別に作成された新しいオープンドメインの注釈リソースです。リポジトリの15,211の入力質問には、各質問に関連する30の質問応答ペアがあります。このコレクションには合計で443,000の注釈付きサンプルが含まれています。入力クエリに対する各ペアの重要性を示すバイナリインジケータがラベル付けされています。

研究チームはまた、このリソースの品質と特性をいくつかの重要なQAシステムコンポーネントに関して評価するための徹底した実験も行いました。これらの要素には、トレーニング方法、入力モデルの構成、および回答の関連性が含まれます。実験は、このデータセットで訓練されたモデルの挙動とパフォーマンスを検討することで、関連する応答を取り出すために提案された方法がどれだけうまく機能するかを示しました。

まとめると、この研究は、自動品質保証システムにおけるトレーニングとテストデータの不足を解決するために、有用なリソースを導入し、リソースの属性を慎重に評価することで、包括的な理解を支援しています。トレーニング戦略と回答の関連性のような重要な要素に重点を置くことで、評価が補完されます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

勾配消失問題:原因、結果、および解決策

このブログ投稿は、消失勾配問題を説明し、シグモイド関数の使用がそれにつながった理由を説明することを目的としています

データサイエンス

特徴量が多すぎる?主成分分析を見てみましょう

次元の呪いは、機械学習における主要な問題の1つです特徴量の数が増えると、モデルの複雑さも増しますさらに、十分なトレーニ...

機械学習

「アマゾンベッドロックを使った商品説明の自動生成」

今日の常に進化するeコマースの世界では、魅力的な製品の説明の影響は過小評価できませんそれは潜在的な訪問者を支払いをする...

AI研究

「UCLとイギリス帝国大学の研究者が、タスク適応型貯水池コンピューティングを通じてエネルギー効率の高い機械学習を発表」

従来のコンピュータは多くのエネルギーを使用します。世界の電力需要の約10%を占めているのです。これは、従来のコンピュータ...

データサイエンス

マシンラーニング手法の鉄道欠陥検索への応用(パート2)

「超音波フローパターンによる鉄道レールの釘穴部の放射状クラックの検出に機械学習手法の応用を探求する」(Chōonpa furō pat...

機械学習

「Amazon SageMakerの最新機能を使用することで、モデルのデプロイコストを平均で50%削減します」

組織がモデルを本番環境に展開するにつれて、彼らは常に最新のアクセラレーター(AWS InferentiaやGPUなど)で実行される基盤...