「ほとんどのオンラインコンテンツがAIによって生成される場合、何が起こるのか?」

「AIによって生成されるオンラインコンテンツの影響とは?」

「生成モデルが自身が生成するデータで訓練されることによってどのように劣化するのか、そしてそれに対処する方法を学びましょう」

Spiral — Photo by Ludde Lorentz on Unsplash

はじめに

最近の生成AIの突破により、高度にリアルで複雑なテキスト、画像、音声を生成できるAIモデルが一般に利用可能になり、コンテンツ作成に革命をもたらしました。

これらのモデルは、インターネットからスクレイピングされた大規模なデータセットで訓練されました。例えば、テキストデータの場合、ChatGPTのような大規模言語モデル(LLM)は主にオンラインで見つかる人間が生成したテキストで訓練されました。

生成モデルは広く注目を集め、社会で急速に採用されています。AIによって生成されたコンテンツがインターネット上に増え続けるということが主な訓練データの源です。

ここでループが形成されます:生成AIによって生成された合成データで生成モデルが訓練されることは避けられず、それを人間が生成していないことになります。その場合、モデルの振る舞いはどうなるのでしょうか?

生成モデルと退化

GPT-{n}はLLMがオンラインで見つかる言語の大部分に寄与するようになった場合、どうなるのでしょうか?

この質問をした研究チームが公表した論文である「The Curse of Recursion: Training on Generated Data Makes Models Forget」(I. Shumailov et al., 2023)によれば、次のようなことが起きます。

彼らはGaussian Mixture Models(GMM)、Variational Autoencoders(VAE)、およびLarge Language models(LLM)を学習させるために複数の反復でデータから学習させる実験を行っています。これにより、3種類のモデルに対して「モデルの崩壊」と呼ばれる現象が生じます。

この現象では、モデルは時間の経過とともに真の基になるデータ分布を忘れてしまう退化プロセスが起こりますが、分布の変化がない場合でもです。

モデルの崩壊は、モデルが実際の分布のテール(つまり、起こりにくく、頻度の低いが重要なイベント)を忘れ、分布の中心部を過剰に表現する振る舞いを特徴とします。このプロセスが繰り返されると、モデルは…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more