「生成AIの10年からの教訓」
Lessons from 10 Years of Generative AI
最近のジェネレーティブAIに関する話題を受けて、ChatGPTやBardなどを先頭に、企業はテクノロジーの利用ケースを理解しようとする傾向が増しています。AIの力についての議論を始める絶好の機会ですが、ジェネレーティブAIは新しいものではありません。ジェネレーティブモデリング(つまり、ジェネレーティブAI)は、10年以上にわたって急速に進化してきました。この進化には、2015年のTensorFlowや2016年のPyTorchなどのオープンソースのソフトウェアライブラリの開発、ニューラルネットワークのアーキテクチャとトレーニングの革新、およびグラフィックスプロセッシングユニット(GPU)やテンソルプロセッシングユニット(TPU)などのハードウェアの改良が推進要因となっています。
この記事では、ジェネレーティブモデルとは何か、現在の状況に至るまでの経緯、そしてどのように使用すべきかを説明し、制約についても探っていきます。
ジェネレーティブモデルとは何か、そしてどこから来たのか
ジェネレーティブモデルは、訓練データの分布を学習し、元のデータと統計的に類似した合成データをサンプリングまたは生成することを目的としています。これには2つのステップが必要です。まず、モデルは大規模な静的データセットでトレーニングされ、次にモデルから新しいデータポイントをサンプリングして取得します。この2つのステップの利点は、モデルがトレーニングされると、新しいデータを安価に大量生成できることです。
初期のジェネレーティブモデルは比較的単純で、隠れマルコフモデル、ナイーブベイズ、またはガウス混合などでしたが、2010年頃に主流の機械学習にGPUが導入されたことで、ディープニューラルネットワークを基にした柔軟なジェネレーティブモデルが可能となりました。また、この時期にはDeepmind(2010年)、Google Brain(2011年)、Facebook AI Research(2013年)などの新たな研究所も開設され、2015年末にはOpenAIも参入し、ディープラーニングとそれに伴うジェネレーティブモデリングの発展を更に促しました。この時期には、変分オートエンコーダ(VAE、2013年)や敵対的生成ネットワーク(GAN、2014年)など、画像生成において最先端の結果を生み出す新しいアーキテクチャが多数登場しました。
- AIイメージフュージョンとDGX GH200
- 効率的なプロンプトエンジニアになるための簡単なガイド
- 金融におけるデジタルトランスフォーメーション:機械学習が金融サービスを再定義し、技術的負債を克服する方法
これらより複雑なモデルの開発と展開を容易にするために、Googleは2015年にオープンソースライブラリTensorFlowをリリースし、それに続いてFacebookからは2016年にPyTorchがリリースされました。これらのライブラリにより、様々な実践者や研究者がディープラーニングにアクセスできるようになり、新しいモデルや新しいアプリケーションの急速な開発が進みました。
これらのブレークスルーモデルの1つがTransformerです。このディープラーニングモデルは2017年に登場し、現在の最先端の言語モデルであるGPT-4などの基盤となっています。2018年に登場した2つの具体的なTransformerベースのモデルは、GoogleのBERT(Bidirectional Encoder Representations from Transformers)とOpenAIのGPT(Generative Pretrained Transformer)です。どちらも、テキスト分類や感情分析から言語翻訳まで様々なタスクを実行するために設計された汎用の言語モデルです。また、2019年に登場した、熱力学に触発された拡散モデルは画像生成に使用されています。
現在、拡散モデルとTransformerモデルは、それぞれテキストからイメージ、言語モデルにおいて最先端の結果を達成しています。たとえば、ChatGPTは2022年にリリースされ、より高度なGPT-4は今年(2023年)にリリースされ、Transformerアーキテクチャを使用しています。一方、Stable DiffusionやMidjourneyなどのモデルは、いずれも拡散ベースのモデルです。過去数年間のジェネレーティブAIのトレンドは、より多くのパラメータを持つ大規模なモデルを訓練し、より良い結果を得るためです。これらのエンジニアリングの快挙(GPT-4やMidjourney v5など)は、改良されたハードウェア、充実したソフトウェアライブラリ、効率的なディープニューラルネットワークアーキテクチャ(つまり、Transformer)の組み合わせに依存しており、一般の人々に利用しやすくアクセス可能なため、多くの人気を集めています。
ジェネレーティブモデルの応用
ジェネレーティブモデルがより魅力的な結果を生み出し、APIを通じて一般の人々に利用しやすくなるにつれて、さまざまな応用に適しています。画像に関しては、これらの応用のほとんどがコンテンツの作成とデザインに関連しています。ジェネレーティブモデルの応用例として有名なのは、ディープフェイクの台頭です。これは映画や広告業界での良い使い方がある一方で、ディープフェイクは誤情報の拡散に悪用される可能性もあります。ChatGPT、Bard、GPT-4などの言語モデルに関しては、テキストの要約、翻訳、補完などがあります。これらは特にマーケティングコンテンツや内部コミュニケーションに役立ちます。
より技術的な面では、CodexやGitHub Copilotなどの言語モデルは、開発を加速しプログラマを支援するために成功裏に使用されてきました。ただし、モデルへの効果的な指示はプロンプトエンジニアリングの芸術であると言えます。
考慮すべき課題とリスク
現在の生成モデルの基本的なリスクは、それらが制御できない出力を持つブラックボックスモデルであることです。この問題は、次のようなさまざまな方法で現れる可能性があります:
- これらのモデルが不適切なテキストや画像を生成するのを明示的に防ぐ方法はありません。不適切な素材をフィルタリングするためには、人間が介在する必要があります。
- 生成モデルは、訓練データの大部分を返すことがあり、プライバシーと著作権の懸念を引き起こす可能性があります。最近のGetty ImagesによるStability AIへの訴訟でこの問題が浮き彫りにされました。
- 言語モデルから返される情報は不正確であるか誤解を招く可能性があり、モデル自体が出力の事実確認を行う方法を持っていないため、医療、金融、法的な問題などの重要な状況でコンテンツの生成に依存すべきではありません。また、GitHub Copilotなどのコード生成ツールについても、コードを本番環境に導入する前に注意が必要です。生産パイプラインを破壊する可能性がある見落とされたエッジケースやバグが存在するかもしれません。
これらは生成モデルを扱う際のリスクの一部です。これらを緩和するために、効果的な生成モデルはヒトとの協力のもとで使用され、出力を監視し、必要に応じて結果を修正する必要があります。
生成AIの未来
生成AIの未来は、これまでこれを進めてきた同じ力によって引き続き推進されると言えます。ハードウェアとソフトウェアの改善により、トレーニングできるモデルの容量が増加します。アーキテクチャやトレーニングの新しいイノベーションが必然的に現れ、新しい最先端のモデルによる性能向上が実現します。さらに、新たな機会には新たな課題も伴います。著作権や知的財産法は適応される必要があり、AIおよびデータの規制が進むにつれて、これらのモデルをトレーニングするために使用されるデータに関するプライバシーの懸念がさらに生じるでしょう。ディープフェイク技術も進化を続け、誤情報やフェイクコンテンツのより高度な拡散手法が可能になるでしょう。これらの課題にもかかわらず、生成AIの未来は明るく、医療から映画、金融までの産業を革新する潜在能力を持っています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 自己対戦を通じて単純なゲームをマスターするエージェントのトレーニング
- メタAIは、122の言語に対応した初の並列読解評価ベンチマーク「BELEBELE」をリリースしました
- 機械学習:中央化とスケーリングの目的を理解する
- 「AIは本当に低品質な画像から顔の詳細を復元できるのでしょうか? DAEFRとは何か:品質向上のためのデュアルブランチフレームワークに出会う」
- 「マイクロソフトが、自社の新しい人工知能搭載スマートバックパックに関する特許を申請」
- このAI論文は、大規模な言語モデルにおける長期的な会話の一貫性を向上させるための再帰的なメモリ生成手法を提案しています
- 「フラミンゴとDALL-Eはお互いを理解しているのか?イメージキャプションとテキストから画像生成モデルの相互共生を探る」