Learn more about Search Results kNN-LM
- You may be interested
- LangChain表現言語とLLMを使用した検証実...
- 「AIの創造性の測定」 AIの創造性を測定する
- データを持っていますか?SMOTEとGANが合...
- 「2023年10月のAIメールジェネレーターの...
- 黄さんの法則に留意する:エンジニアたち...
- 「Google DeepMindの研究者が『プロンプト...
- Huggingface TransformersとRayを使用した...
- 言語学習モデルにおけるOpenAIの関数呼び...
- Pandas 2.0 データサイエンティストにとっ...
- テクノロジー・イノベーション・インステ...
- 思考の木の探索 AIが探索を通じて理由付け...
- 「データサイエンティストのためのAI Chro...
- Allen Institute for AI の研究者が、自然...
- クラウドコンピューティングとウェアラブ...
- 研究者たちは、より優れた熱管理のために...
「組織のためのカスタマイズされたコーディングパートナー」
コーディングの仲間としての生成的AIモデルは、主に公開されているソースコードと自然言語テキストで訓練されています大規模なトレーニングコーパスのため、これらのモデルは一般的に使用される機能のためのコードを生成することができますが、これらのモデルはプライベートリポジトリ内のコードや開発時に強制される関連するコーディングスタイルには無知です
「制限されたデータで言語モデルをトレーニングするのはリスキーですか?SILOに会ってください:推論中のリスクとパフォーマンスのトレードオフを管理する新しい言語モデル」
著作権で保護されたコンテンツを頻繁に使用するため、大規模言語モデル(LM)には法的な懸念が提起されています。法的リスクとモデルの性能の間には、このトピックの中心にある本質的なトレードオフがあります。許可のあるライセンスや一般に利用可能なデータのみを使用してトレーニングすると、精度に深刻な悪影響があります。一般的なLMコーパスはさまざまな問題を包括しているため、この制約は許可が必要なデータの希少性と、著作権の期限が切れた書籍、政府の記録、許可されたコードなどのソースに密接に関連しています。 ワシントン大学、UCバークレー、Allen Institute for AIによる新しい研究では、トレーニングデータをパラメトリックなサブセットと非パラメトリックなサブセットに分割することで、リスクと性能のトレードオフを改善することが示されています。チームは、低リスクのデータでLMパラメータをトレーニングし、推論時にのみ使用される非パラメトリックなコンポーネント(データストア)にフィードします。ハイリスクのデータは、トレーニングフェーズの外でノンパラメトリックデータストアから取得してモデルの予測を強化することができます。モデル開発者はデータを個々の例のレベルまで完全にデータストアから削除することができ、データストアはいつでも簡単に更新できます。この方法では、データの寄稿者にクレジットを割り当てることも可能であり、モデルの予測を文のレベルまで追跡することができます。これらの改良された機能により、モデルはさまざまなデータ使用の制限により正確に合わせることができます。一方、パラメトリックモデルでは、トレーニングが完了した後にハイリスクのデータを取り除くことは不可能であり、大規模なデータの割り当ても困難です。 彼らは、彼らの提案を実装するための革新的な非パラメトリック言語モデルであるSILOを開発しました。パラメトリックなSILOのコンポーネントのための新しい事前トレーニングコーパスであるOPEN LICENSE CORPUS(OLC)は、さまざまなドメインに富んでいます。その配布はコードと政府のテキストに重点が置かれており、他の事前トレーニングコーパスとは異なります。そのため、非常に狭いドメインでトレーニングされたモデルを一般化しようとする極端なドメイン一般化の問題に直面しています。3つの13億パラメータのLMがOLCの異なるサブセットでトレーニングされ、ハイリスクデータを組み込むことができるテスト時データストアが構築され、その内容が検索されて推論に使用されます。テキストブロックを検索してパラメトリックLMにコンテキストでフィードするリトリーバルインコンテキストアプローチ(RIC-LM)は、非パラメトリックな次のトークン予測関数を使用する最近傍アプローチ(kNN-LM)と対比されます。 言語モデリングにおける驚異は、インドメインおよびOLC固有のデータを含む14のドメインで測定されます。ここでは、研究者は、高リスクのデータとの使用を主に目的として開発されたパラメトリックなLMであるPythiaとの比較でSILOを評価しています。彼らはまず、パラメトリックオンリーのSILOがOLCでカバーされたドメインでは競争力があり、ドメイン外では不十分であることを示すことによって、非常に一般化されたドメインの困難さを確認します。ただし、推論時のデータストアをSILOに補足することで、kNN-LMとRIC-LMの両方がドメイン外の性能を大幅に向上させることがわかります。研究結果は、kNN-LMの非パラメトリックな次のトークン予測がドメインシフトに対して抵抗力があり、kNN-LMがデータストアを拡大することで大いに恩恵を受けることを示しています。 全体として、この研究はデータストアのサイズを拡大し、非パラメトリックモデルをさらに改善することで、SILOがまだPythiaの性能レベルに達していない一部のドメインでのギャップを縮めることができる可能性があることを示しています。
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.