Google AIは、LLMsへの負担を軽減する新しい手法「ペアワイズランキングプロンプティング」を提案しています

Google AIは新しい手法「ペアワイズランキングプロンプティング」を提案しています

Google AIの研究者たちは、新しいアプローチであるPairwise Ranking Prompting(PRP)を提案する新しい論文を公開しました。この目標は、大規模な言語モデルがテキストのランキング問題を解決する際に直面する課題を軽減することです。GPT-3やPaLMなどのLLMは、自然言語タスクで顕著なパフォーマンスを示しており、ゼロショットの環境でも優れた結果を出しています。

しかし、テキストのランキングに関しては、既存の手法は、GPT-4などのブラックボックスシステムを除いて、訓練済みのベースラインランカーと比較して結果が出ない傾向があります。この論文では、チームはブラックボックスシステムの価値を認めつつ、コストやアクセスの制約など、学術研究者が直面する制約を強調しています。

そのため、彼らの研究では、現在のポイントワイズとリストワイズのアプローチを使用したLLMがランキング問題に苦しむ理由について探求しています。チームによると、LLMにとって、ポイントワイズの技術に対して適切な予測確率を生成することは非常に困難であるということがわかりました。

一方、リストワイズの技術は一貫性のないまたは関連性のない出力をもたらし、現在のLLMの事前学習と微調整の技術におけるランキングの認識の欠如を示しています。そのため、この制約を補うために、研究者たちはPRPパラダイムを提案しました。

この方法は、ランキングタスクのためのクエリと一対のドキュメントをプロンプトとして使用するシンプルなアーキテクチャを利用します。既存の手法とは異なり、PRPはデフォルトで生成とスコアリングのLLM APIの両方を提供し、キャリブレーションの問題に対処します。効率と効果を確保するために、いくつかのPRPのバリエーションが議論されています。

彼らは、従来のベンチマークデータセット上で、中程度のサイズのオープンソースLLMを使用してPRPを評価しました。その結果、大規模なモデルサイズを持つ商用GPT-4に基づいた以前の手法を大幅に上回る成果を収めました。

その一例がTREC-DL2020データセットです。20BパラメータのFLAN-UL2モデルに基づいたPRPは、NDCG@1において先行の最良手法と比較して5%以上の改善を達成しました。TREC-DL2019では、PRPはInstructGPTなどの既存のソリューションを上回り、ランキングの多くの尺度において10%以上の性能向上を示し、NDCG@5とNDCG@10のメトリックではGPT-4と比較してわずかな性能低下がありました。

全体的に、PRPはLLM APIのスコアリングと生成のサポート、および入力順序に対する感度の低さなど、いくつかの利点を持っています。この研究は3つの主要な貢献を示しています。まず第一に、中程度のサイズのオープンソースLLMを使用した効果的なゼロショットランキングの実証。次に、簡単なプロンプティングとスコアリングメカニズムによる最先端のランキングパフォーマンスの達成。

そして最後に、良好な経験的なパフォーマンスを維持しながら効率の向上を探求します。

編集者注:ジェネラティブAIの最新情報を学びたいですか?1日限りのジェネラティブAIサミットに参加しましょう。ハイプを超えて、この最先端技術の詳細について深く掘り下げます。無料で今すぐ登録して、ジェネラティブAIの力を解き放ちましょう。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「人工的な汎用知能(Artificial General Intelligence; AGI)の探求:AIが超人力を達成したとき」

人工知能の分野は過去10年間で大きな進歩を遂げていますが、人間レベルの知能を達成することは多くの研究者の究極の目標です...

機械学習

アイドルアプリの自動シャットダウンを使用して、Amazon SageMaker Canvasのコストを最適化する

『Amazon SageMaker Canvas』は、豊富なノーコードの機械学習(ML)と生成型AIのワークスペースで、視覚的かつノーコードのイ...

機械学習

「多言語AIは本当に安全なのか?低リソース言語における大規模言語モデルの脆弱性を明らかにする」

GPT-4は、方針や倫理的な制約に反する要求に対して、「ごめんなさい、それには対応できません」と答えることをデフォルトにし...

機械学習

大規模言語モデルの評価:包括的かつ客観的なテストのためのタスクベースAIフレームワーク、AgentSimsに会いましょう

LLMは、言語処理(NLP)の考え方を変えましたが、評価の問題は解決されていません。古い基準はやがて無意味になります。なぜ...

AI研究

この中国のAI研究は「Consistent4D」を紹介します:未キャリブレーションの単眼映像から4Dダイナミックオブジェクトを生成するための新しい人工知能手法

コンピュータビジョンの領域は、視覚的な入力から動的な3Dデータを解読するという基礎的で困難な課題に取り組んでいます。こ...