「制限されたデータで言語モデルをトレーニングするのはリスキーですか?SILOに会ってください:推論中のリスクとパフォーマンスのトレードオフを管理する新しい言語モデル」

リスキーですか?SILOに会ってください:言語モデルのトレーニング中のリスクとパフォーマンスの管理

著作権で保護されたコンテンツを頻繁に使用するため、大規模言語モデル(LM)には法的な懸念が提起されています。法的リスクとモデルの性能の間には、このトピックの中心にある本質的なトレードオフがあります。許可のあるライセンスや一般に利用可能なデータのみを使用してトレーニングすると、精度に深刻な悪影響があります。一般的なLMコーパスはさまざまな問題を包括しているため、この制約は許可が必要なデータの希少性と、著作権の期限が切れた書籍、政府の記録、許可されたコードなどのソースに密接に関連しています。

ワシントン大学、UCバークレー、Allen Institute for AIによる新しい研究では、トレーニングデータをパラメトリックなサブセットと非パラメトリックなサブセットに分割することで、リスクと性能のトレードオフを改善することが示されています。チームは、低リスクのデータでLMパラメータをトレーニングし、推論時にのみ使用される非パラメトリックなコンポーネント(データストア)にフィードします。ハイリスクのデータは、トレーニングフェーズの外でノンパラメトリックデータストアから取得してモデルの予測を強化することができます。モデル開発者はデータを個々の例のレベルまで完全にデータストアから削除することができ、データストアはいつでも簡単に更新できます。この方法では、データの寄稿者にクレジットを割り当てることも可能であり、モデルの予測を文のレベルまで追跡することができます。これらの改良された機能により、モデルはさまざまなデータ使用の制限により正確に合わせることができます。一方、パラメトリックモデルでは、トレーニングが完了した後にハイリスクのデータを取り除くことは不可能であり、大規模なデータの割り当ても困難です。

彼らは、彼らの提案を実装するための革新的な非パラメトリック言語モデルであるSILOを開発しました。パラメトリックなSILOのコンポーネントのための新しい事前トレーニングコーパスであるOPEN LICENSE CORPUS(OLC)は、さまざまなドメインに富んでいます。その配布はコードと政府のテキストに重点が置かれており、他の事前トレーニングコーパスとは異なります。そのため、非常に狭いドメインでトレーニングされたモデルを一般化しようとする極端なドメイン一般化の問題に直面しています。3つの13億パラメータのLMがOLCの異なるサブセットでトレーニングされ、ハイリスクデータを組み込むことができるテスト時データストアが構築され、その内容が検索されて推論に使用されます。テキストブロックを検索してパラメトリックLMにコンテキストでフィードするリトリーバルインコンテキストアプローチ(RIC-LM)は、非パラメトリックな次のトークン予測関数を使用する最近傍アプローチ(kNN-LM)と対比されます。

言語モデリングにおける驚異は、インドメインおよびOLC固有のデータを含む14のドメインで測定されます。ここでは、研究者は、高リスクのデータとの使用を主に目的として開発されたパラメトリックなLMであるPythiaとの比較でSILOを評価しています。彼らはまず、パラメトリックオンリーのSILOがOLCでカバーされたドメインでは競争力があり、ドメイン外では不十分であることを示すことによって、非常に一般化されたドメインの困難さを確認します。ただし、推論時のデータストアをSILOに補足することで、kNN-LMとRIC-LMの両方がドメイン外の性能を大幅に向上させることがわかります。研究結果は、kNN-LMの非パラメトリックな次のトークン予測がドメインシフトに対して抵抗力があり、kNN-LMがデータストアを拡大することで大いに恩恵を受けることを示しています。

全体として、この研究はデータストアのサイズを拡大し、非パラメトリックモデルをさらに改善することで、SILOがまだPythiaの性能レベルに達していない一部のドメインでのギャップを縮めることができる可能性があることを示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more