「それに関する長いものと短いもの:ドキュメントの意味論を端から端まで捉えるための比例関係に基づく関連性」

「美容とファッション:関連性を比例関係に基づいて捉えるための短さと長さ」

現在、主要な検索方法は、クエリとドキュメント間の関連性を推定するために、キーワードの一致やベクトル空間の類似性に頼っています。しかし、これらの技術は、ファイル全体、論文、さらには本まで検索クエリとして使用する際には苦労します。

Some fun with Dall-E 3

キーワードに基づく検索

キーワード検索は短い調査には優れていますが、長文のコンテンツに必要な意味を捉えることができません。正確に「クラウドプラットフォーム」について議論している文書は、「AWS」の専門知識を求めるクエリに完全に見落とされる可能性があります。長いテキストでは、正確な用語の一致による語彙の不一致の問題が頻繁に発生します。

ベクトルの類似性検索

BERTなどのモダンなベクトル埋め込みモデルは、意味の類似性を正確に数百の数値次元に凝縮します。しかし、自己注意を持つトランスフォーマーアーキテクチャは、爆発的な計算量のために512〜1024トークンを超えることはできません。

ドキュメントを完全に処理する能力がないため、「単語の集合」という部分的な埋め込みでは、セクション間に散りばめられた意味の微妙なニュアンスが失われます。文脈は抽象化されてしまいます。

計算の複雑さが高いため、実世界のコーパスでの細かい調整が制限され、精度が低下します。教師なし学習は一つの代替手段ですが、信頼性の高い技術が不足しています。

研究者たちは最新の論文で、超長いクエリとドキュメントの関連性を再構築することにより、これらの問題に取り組んでいます。彼らのイノベーションにより、AIドキュメント検索の新たな可能性が開かれます。

長文書の問題点

現在の主要な検索パラダイムは、入力テキストが数千語に及ぶクエリに対して効果的ではありません。直面する主な問題は次のようになります:

  • BERTのようなトランスフォーマーは、自己注意の計算量が二次的であり、512〜1024トークンを超えるシーケンスには適していません。そのスパースな注意の代替手段も正確さに欠けます。
  • 語彙モデルは、正確な用語の重複に基づく一致による長文テキストの意味的類似性を推論することができません。
  • ほとんどのドメインコレクションにはラベル付きのトレーニングデータがないため、…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more