「再トレーニングの必要なしでモデルのメモリを再形成する」

「モデルのメモリを再構築するために再トレーニングは必要なし」

| AI | LARGE LANGUAGE MODELS | MACHINE UNLEARNING |

大規模言語モデルが学習した問題のあるコンテンツのエコーを完全に消去する

写真：Drew Saurus氏によるUnsplash — 写真：Drew Saurus氏（Drew Saurus）撮影、Unsplashより引用

「許すことは知恵、忘れることは天才の仕事である。」― Joyce Cary

大規模言語モデル（LLM）は世界中で大流行しています。わずか1年足らずで普及し、数百万人のユーザーに利用されるようになりました。これらのモデルはしばしば問題のある素材や機密情報を含む膨大なテキストで訓練されています。モデルを忘れさせるにはどうすればいいのでしょうか？それは人類の知識を全て保存できるであろうものと同じです。

忘れる方法を学ぶために

写真：Paul Pastourmatzis氏によるUnsplash — 写真：Paul Pastourmatzis氏（Paul Pastourmatzis）撮影、Unsplashより引用

大規模言語モデルは、私たちの成果と今後の課題の両方を示しています。― 出典

LLMは、巨大なテキスト量から学習し、言語パターンや文化的ニュアンスを特定する能力で、ユーザーや研究者を驚かせました。それらは新しいアプリケーションや科学的革命の基礎となるかもしれませんが、裏返しには暗い側面も存在します。

これらのパターンを訓練するには膨大なコーパスが必要です。データ量が増えるほどLLMのパフォーマンスは向上しますが、このデータ収集にはコストがかかります。そのため、インターネットからの無差別なデータスクレイピングが頻繁に使用されます。これらのコーパスには、著作権のあるテキスト、有害なデータ、不正確またはフェイクのコンテンツ、個人データなど、極めて問題のあるデータも含まれます。

マシンの忘却：忘れる義務

AIモデルからデータポイントの情報を消去する方法とその重要性

towardsdatascience.com

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful