「再トレーニングの必要なしでモデルのメモリを再形成する」
「モデルのメモリを再構築するために再トレーニングは必要なし」
| AI | LARGE LANGUAGE MODELS | MACHINE UNLEARNING |
大規模言語モデルが学習した問題のあるコンテンツのエコーを完全に消去する
「許すことは知恵、忘れることは天才の仕事である。」― Joyce Cary
大規模言語モデル(LLM)は世界中で大流行しています。わずか1年足らずで普及し、数百万人のユーザーに利用されるようになりました。これらのモデルはしばしば問題のある素材や機密情報を含む膨大なテキストで訓練されています。モデルを忘れさせるにはどうすればいいのでしょうか?それは人類の知識を全て保存できるであろうものと同じです。
忘れる方法を学ぶために
大規模言語モデルは、私たちの成果と今後の課題の両方を示しています。― 出典
LLMは、巨大なテキスト量から学習し、言語パターンや文化的ニュアンスを特定する能力で、ユーザーや研究者を驚かせました。それらは新しいアプリケーションや科学的革命の基礎となるかもしれませんが、裏返しには暗い側面も存在します。
これらのパターンを訓練するには膨大なコーパスが必要です。データ量が増えるほどLLMのパフォーマンスは向上しますが、このデータ収集にはコストがかかります。そのため、インターネットからの無差別なデータスクレイピングが頻繁に使用されます。これらのコーパスには、著作権のあるテキスト、有害なデータ、不正確またはフェイクのコンテンツ、個人データなど、極めて問題のあるデータも含まれます。
マシンの忘却:忘れる義務
AIモデルからデータポイントの情報を消去する方法とその重要性
towardsdatascience.com
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「PythonデータサイエンスのJupyterノートブックの6つの魔法的なコマンド」
- 「データビジュアル化のためのWebスクレイピングとGPT-4:入門チュートリアル」
- 高度なPython ドット演算子
- RLHF:人間のフィードバックからの強化学習
- リコグニションカスタムモデレーションの発表:データを使用して事前訓練されたリコグニションモデレーションモデルの精度を向上させます
- 「SwimXYZとの出会い:水泳モーションとビデオのための合成データセット、3.4Mフレームにグラウンドトゥルースの2Dおよび3Dジョイントの注釈が付いています」
- 「WHOが医療分野におけるAI規制の考慮事項の概要を発表」