魅力的な生成型AIの進化

魅力的なAIの進化

イントロダクション

人工知能の広がり続ける領域において、研究者、技術者、愛好家の想像力を捉えているのは、ジェネラティブAIという魅力的な分野です。これらの巧妙なアルゴリズムは、ロボットが日々できることや理解できる範囲の限界を em>押し広げ、新たな発明と創造性の時代を迎えています。このエッセイでは、ジェネラティブAIの進化の航海に乗り出し、その謙虚な起源、重要な転換点、そしてその進路に影響を与えた画期的な展開について探求します。

ジェネラティブAIが芸術や音楽、医療や金融などさまざまな分野を革新した方法について調べ、単純なパターンを作成しようとする初期の試みから、現在の息をのむような傑作まで進化してきたことを見ていきます。ジェネラティブAIの将来の可能性について深い洞察を得るためには、その誕生につながった歴史的な背景と革新を理解する必要があります。機械が創造、発明、想像力の能力を持つようになった経緯を探求しながら、人工知能と人間の創造性の分野を永遠に変えた過程をご一緒に見ていきましょう。

ジェネラティブAIの進化のタイムライン

人工知能の絶え間なく進化する景色の中で、ジェネラティブAIという分野は、他のどの分野よりも多くの魅力と好奇心を引き起こしました。初期の概念から最近の驚異的な業績まで、ジェネラティブAIの旅は非常に特異なものでした。

このセクションでは、時間をかけて魅力的な旅に乗り出し、ジェネラティブAIの発展を形作ったマイルストーンを解明していきます。我々は、重要なブレイクスルー、研究論文、進歩を探求し、その成長と進化を包括的に描写します。

革新的な概念の誕生、影響力のある人物の出現、ジェネラティブAIの産業への浸透を見ながら、我々と一緒に歴史の旅に出かけ、生活を豊かにし、私たちが知っているAIを革新するジェネラティブAIの誕生を目撃しましょう。

1805年：最初のニューラルネットワーク（NN）/ 線形回帰

1805年、アドリアン＝マリー・ルジャンドルは、入力層と単一の出力ユニットを持つ線形ニューラルネットワーク（NN）を導入しました。ネットワークは、重み付け入力の合計として出力を計算します。これは、現代の線形NNの基礎となる最小二乗法を用いた重みの調整を行い、浅い学習とその後の複雑なアーキテクチャの基礎となりました。

1925年：最初のRNNアーキテクチャ

1920年代、物理学者のエルンスト・イージングとヴィルヘルム・レンツによって、最初の非学習RNNアーキテクチャ（イージングまたはレンツ・イージングモデル）が導入され、分析されました。これは、入力条件に応じて平衡状態に収束し、最初の学習RNNの基盤となりました。

1943年：ニューラルネットワークの導入

1943年、ウォーレン・マクカロックとウォルター・ピッツによって、ニューラルネットワークの概念が初めて紹介されました。生物のニューロンの働きがそのインスピレーションとなっています。ニューラルネットワークは、電気回路を用いてモデル化されました。

1958年：MLP（ディープラーニングなし）

1958年、フランク・ローゼンブラットが最初のMLPを導入しました。最初の層は学習しない非学習層であり、重みはランダムに設定され、適応的な出力層がありました。これはまだディープラーニングではありませんでしたが、最後の層のみが学習されるため、ローゼンブラットは正当な帰属なしに後にエクストリームラーニングマシン（ELM）として再ブランドされるものを基本的に持っていました。

1965年：最初のディープラーニング

1965年、アレクセイ・イヴァハネンコとヴァレンティン・ラパによって、複数の隠れ層を持つディープMLPのための最初の成功した学習アルゴリズムが紹介されました。

1967年：SGDによるディープラーニング

1967年、甘利俊一は、スクラッチから確率的勾配降下法（SGD）を用いて複数の層を持つマルチレイヤーパーセプトロン（MLP）を訓練する方法を提案しました。彼らは、高い計算コストにもかかわらず、非線形パターンを分類するために2つの変更可能な層を持つ5層のMLPを訓練しました。

1972年：人工RNNの発表

1972年、阿弥俊一はレンツ・イジング再帰型アーキテクチャを適応的に変更し、接続重みを変えることで入力パターンと出力パターンを関連付ける学習を可能にしました。10年後、阿弥ネットワークはホプフィールドネットワークとして再発表されました。

1979年：ディープコンボリューショナルNN

1979年、福島邦彦は最初のCNNアーキテクチャを提案しました。これは畳み込み層とダウンサンプリング層を特徴としており、ネオコグニトロンと呼ばれていました。1987年、アレックス・ワイベルは畳み込み、重み共有、バックプロパゲーションを組み合わせたTDNN（時系列ディープニューラルネットワーク）を提案し、音声認識に適用し、CNNの先駆けとなりました。

1980年：オートエンコーダーのリリース

オートエンコーダーは1980年代にヒントンとPDPグループ（Rumelhart,1986）によって最初に紹介されました。これは「先生のないバックプロパゲーション」という問題に対処するために、入力データを教師として使用する方法です。オートエンコーダーの基本的なアイデアは非常に簡単です。エンコーダーとデコーダーをニューラルネットワークとして設定し、反復的な最適化プロセスを使用して最適なエンコーディング・デコーディングスキームを学習することです。

1986年：バックプロパゲーションの発明

1970年、Seppo Linnainmaaは入れ子になった微分可能な関数のネットワークに対してバックプロパゲーションと呼ばれる自動微分法を導入しました。1986年、Hintonと他の研究者は、フィードフォワード型ニューラルネットワークのトレーニングに改良されたバックプロパゲーションアルゴリズムを提案し、「エラー逆伝播による表現学習」という論文で概説しました。

1988年：画像認識（CNN）

1988年、Wei Zhangはバックプロパゲーションを使用してアルファベット認識のためにCNNをトレーニングしました。当初はShift-Invariant Artificial Neural Network（SIANN）として知られていました。彼らはさらに、最後の完全接続層なしでCNNを使用して医療画像のオブジェクトセグメンテーションやマンモグラムの乳がん検出に適用しました。このアプローチは現代のコンピュータビジョンの基礎を築きました。

1990年：GAN / 好奇心の導入

1990年に人工的な好奇心として最初に公開された以来、生成的対立ネットワーク（GAN）は人気を集めています。GANには、生成器（コントローラ）と予測器（ワールドモデル）の2つの対立するニューラルネットワークが関与し、最小最大ゲームを行います。生成器は確率的な出力を生成し、予測器は環境の反応を予測します。予測器は勾配降下法を通じてエラーを最小化し、生成器はそれを最大化しようとします。

1991年：最初のトランスフォーマー

「線形化された自己注意」を持つトランスフォーマーは、1991年3月に最初に公開されました。これは「高速重みプログラマー」または「高速重みコントローラー」と呼ばれていました。これは従来のコンピュータと同様にストレージと制御を分離しましたが、エンドツーエンドで異なる可能性のある完全なニューラルな方法で行いました。現在の標準的なトランスフォーマーの「自己注意」は、1993年に導入された射影とソフトマックスと組み合わされています。

1991年：勾配消失問題

1991年にSepp Hochreiterによって発見された基本的なディープラーニングの問題は、ディープニューラルネットワークでの勾配の消失または爆発です。つまり、バックプロパゲーションされるエラーシグナルが典型的なディープおよび再帰ネットワークで急速に減少するか、制御不能にエスカレートします。

1995年 – LeNet-5のリリース

いくつかの銀行は、1995年にLeCunによって開発された画期的な7レベルの畳み込みネットワークであるLeNet-5を適用し、手書き数字を認識して小切手上の数字を識別していました。

1997年 – LSTMの導入

1995年、Long Short-Term Memory（LSTM）がSepp HochreiterとJürgen Schmidhuberによって技術報告書で発表されました。その後、1997年に主要なLSTMの論文が勾配消失問題に取り組みました。最初のバージョンのLSTMブロックには、セル、入力ゲート、出力ゲートが含まれていました。1999年、Felix Gersと彼の指導教官であるJürgen SchmidhuberとFred Cumminsは、LSTMアーキテクチャに忘却ゲートを導入し、LSTMが状態をリセットできるようにしました。

ミレニアムの進展

2001年 – NPLMの導入

1995年には、基本的な概念を再利用した優れたニューラル確率的テキストモデルが既に存在していました。具体的には、1995年にポラックの単語や他の構造の埋め込み、および中村と鹿野の1989年の単語カテゴリ予測モデルの先行研究が再利用されました。2001年には、LSTMがHMMなどの従来のモデルでは学習できない言語を学習できることが研究者によって示されました。つまり、ニューラルの「部分的な」モデルが「象徴的な」タスクの学習に突如として優れた結果を出すようになりました。

2014年 – 変分オートエンコーダ

変分オートエンコーダは、過学習を避け、潜在空間が適切な特性を持つように正則化されたオートエンコーダです。VAEのアーキテクチャはオートエンコーダに似ていますが、エンコーディング-デコーディングのプロセスにわずかな修正が加えられています。入力を単一の点としてエンコードする代わりに、研究者はそれを潜在空間上の分布としてエンコードしました。

2014年 – GANのリリース

研究者たちは、並行して2つのモデルを訓練する敵対的なプロセスを用いて生成モデルの推定を行う新しいフレームワークを提案しました。生成モデルGはデータ分布を捉え、判別モデルDはサンプルが訓練データから来た確率を推定します。Gの訓練手順は、Dが間違いを cometerる確率を最大化することです。

2014年 – GRUのリリース

ゲート付きリカレントユニット（GRU）は、Cho [2014]によって提案され、異なる時間スケールの依存関係を適応的に捉えるように各リカレントユニットを作りました。LSTMユニットと同様に、GRUには情報の流れを調節するゲートユニットがありますが、独立したメモリセルはありません。

2015年 – 拡散モデルのリリース

拡散モデルは、現在の画像生成タスクの基盤です。画像形成プロセスをノイズ除去オートエンコーダの順次適用に分解することで、拡散モデル（DM）は画像データやそれ以上の領域で最先端の合成結果を実現しています。さらに、その定式化により再学習なしで画像生成プロセスを制御するためのガイドメカニズムが可能となります。

2016年 – WaveNetのリリース

WaveNetは、音声データのための言語モデルです。これは、生のオーディオ波形を生成するための深層ニューラルネットワークです。モデルは完全に確率的で自己回帰的であり、各オーディオサンプルの予測分布はそれまでのすべてのサンプルに依存します。

2017年 – Transformersのリリース

Googleは2017年に革新的な論文「Attention Is All You Need」を発表しました。LSTMは終わりでした！この論文は、完全に注意メカニズムに依存する新しいアーキテクチャを紹介しました。Transformersの基本要素は、セルフアテンション、エンコーダデコーダアテンション、位置エンコーディング、およびフィードフォワードニューラルネットワークです。Transformersの基本原則は、現在のLLMsでも同様に維持されています。

2018年 – GPTのリリース

GPT（Generative Pretraining Transformer）は、OpenAIによって導入されました。これは、ラベルのないテキストの多様なコーパスでモデルを事前学習させることで、新しい単語のシーケンスをテキスト内で予測するために訓練された大規模な言語モデルです。このモデルは、元のトランスフォーマーアーキテクチャに従うが、デコーダのみを含む12層のモデルです。将来の年には、モデルのサイズが大きくなりました：GPT-2（1.5B）、GPT-3（175B）

2018年 – BERTのリリース

BERT（Bidirectional Encoder Representations from Transformers）は、Googleによって2018年に導入されました。研究者たちは、モデルを2つのステップで訓練しました：事前学習と次の文予測。モデルは、GPTとは異なり、事前学習中にテキスト内のどこにでも存在する欠落したトークンを予測します。ここでのアイデアは、両方の方向からの文脈を捉えることでテキストの言語理解を向上させることです。

2019年：StyleGANのリリース

研究者たちは、スタイルトランスファーの文献から借用し、生成的対立ネットワークのための代替の生成器アーキテクチャを提案しました。新しいアーキテクチャにより、生成された画像の中で高レベルの属性（例えば、人の顔のポーズやアイデンティティ）と確率的な変動（例えば、そばかす、髪の毛）を自動的に学習することができます。また、合成のスケールごとの制御が容易に行えます。

2020年：wav2vec 2.0のリリース

2019年に、Meta AIはwav2vecというフレームワークをリリースし、生の音声の表現を学習することによる教師なしの音声認識のための事前トレーニングを実現しました。その後、2020年には、Self-Supervised Learning of Speech Representationsのためにwav2vec 2.0が導入されました。これにより、音声の最も強力な表現を学習することができます。モデルはコネクショニスト時系列分類（CTC）を使用してトレーニングされているため、モデルの出力はWav2Vec2CTCTokenizerを使用してデコードする必要があります。

2021年：DALL.Eのリリース

DALL·Eは、テキストと画像のペアのデータセットを使用して、テキストの記述から画像を生成するために訓練された、GPT-3の120億パラメータ版です。それは、動物や物体の人間のようなバージョンを作成したり、関連のない概念を組み合わせたり、テキストをレンダリングしたり、既存の画像を変換するなど、多様な機能を持っています。

2022年：Latent Diffusionのリリース

Latent Diffusionモデルは、画像のインペインティングにおいて最新の状態を達成し、画像生成において非常に競争力のあるパフォーマンスを発揮しています。研究者たちは、強力な事前学習済みのオートエンコーダを使用して、潜在空間とクロスアテンションレイヤーで拡散モデルをトレーニングしています。これにより、複雑さの削減と詳細な保存の間でほぼ最適なポイントを達成し、視覚的な忠実度を大幅に向上させることができます。

2022年：DALL.E 2のリリース

2021年に、研究者たちはGPT-3の120億パラメータ版であるDALL.Eを訓練し、テキストの記述から画像を生成することができるようにしました。2022年には、自然言語の記述から現実的な画像やアートを作成するためにDALL·E 2が開発されました。DALL·E 2は、テキストの記述からオリジナルでリアルな画像やアートを作成することができます。概念や属性、スタイルを組み合わせることができます。

2022年：Midjourneyのリリース

Midjourneyは、潜在的な拡散モデルによって動作する非常に人気のあるテキストから画像への変換モデルです。サンフランシスコに拠点を置く独立系の研究所が作成し、ホストしています。それは、プロンプトとして知られる自然言語の記述を通じて、高品質の定義画像を作成することができます。

2022年：Stable Diffusionのリリース

Stable Diffusionは、任意のテキスト入力に基づいて写真のようなリアルな画像を生成することができる潜在的なテキストから画像への拡散モデルです。これにより、信じられないほどのイメージを生み出すための自律的な自由が育まれ、数十億人の人々が数秒で素晴らしいアートを創造する力を持つようになります。

2022年：ChatGPTのリリース

ChatGPTは、AIの歴史において革命的なモデルです。InstructGPTの姉妹モデルであり、指示に迅速に従い詳細な応答を提供するために訓練されています。会話形式で対話することができるため、ChatGPTは追加の質問に答えたり、間違いを認めたり、不正確な前提を問い詰めたり、不適切な要求を拒否したりすることが可能です。

2022年：AudioLMのリリース

AudioLMは、Googleによる高品質な音声生成のためのフレームワークです。AudioLMは、入力音声を離散トークンのシーケンスにマッピングし、この表現空間で言語モデリングのタスクとして音声生成を行います。プロンプト（音声/音楽）が与えられると、それを完成させることができます。

2023年解禁：最新のホットなリリースの探求

2023年：GPT-4のリリース

GPT-4はOpenAIの最も先進的なシステムであり、より安全で有用な応答を生成します。GPT-4は、より広範な一般知識と問題解決能力により、複雑な問題をより正確に解決できます。創造性、視覚的な入力、長い文脈の面でもGPT-3.5を超えています。

2023年：Falconのリリース

Falcon LLMは、1兆トークンでトレーニングされた400億パラメータを持つ基礎的な大規模言語モデル（LLM）です。FalconはHugging Face Open LLM Leaderboardのトップにランクインしています。チームは、スケールでのデータ品質に特に焦点を当てました。広範なフィルタリングと重複排除を使用して高品質なウェブコンテンツを抽出するためのデータパイプラインの構築に大きな注意を払いました。

2023年：Bardのリリース

GoogleはChatGPTに対抗するためにBardをリリースしました。BardはGoogleの対話型生成型人工知能チャットボットであり、PaLM基礎モデルをベースにしています。Bardは会話的に対話し、追加の質問に答えたり、間違いを認めたり、間違った前提を挑戦したり、不適切な要求を拒否したりします。

2023年：MusicGenのリリース

MusicGenは、テキストの記述またはオーディオのプロンプトに基づいて高品質な音楽サンプルを生成することができる単一段階の自己回帰Transformerモデルです。凍結されたテキストエンコーダーモデルは、テキストの記述を渡して隠れ状態のシーケンスを取得します。

2023年：AutoGPTのリリース

Auto-GPTは、GPT-4言語モデルの能力を示す実験的なオープンソースアプリケーションです。このプログラムは、GPT-4によって駆動され、LLMの「思考」を連鎖させて設定した目標を自律的に達成します。GPT-4が完全に自律的に実行される最初の例の1つとして、Auto-GPTはAIで可能なことの限界を押し広げます。

2023年：LongNetのリリース

大規模言語モデルの時代において、シーケンスの長さのスケーリングは重要な要求となりました。しかし、既存の方法は計算の複雑さやモデルの表現力に苦しみ、最大シーケンスの長さを制限しています。LongNetは、Transformerの変種であり、短いシーケンスに対する性能を損なうことなく、シーケンスの長さを10億トークン以上にスケーリングできます。

2023年：Voiceboxのリリース

Meta AIは、音声のための生成型AIの画期的な進展であるVoiceboxを発表しました。研究者たちは、特定のトレーニングなしでも、コンテキストに基づいた学習を通じて編集、サンプリング、スタイリングなどの音声生成タスクを実行できる最先端のAIモデルであるVoiceboxを開発しました。

2023年：LLaMAのリリース

Meta AIは、7Bから65Bのパラメータを持つ基礎的な言語モデルのコレクションであるLLaMAを紹介しました。彼らは、公開されているデータセットのみを使用して最先端のモデルを訓練することが可能であり、独占的でアクセスできないデータセットに頼る必要がないことを示しました。特に、LLaMA-13BはほとんどのベンチマークでGPT-3（175B）を上回ります。

結論

生成型AIのタイムラインを振り返ると、それが挑戦と制約を乗り越え、かつて不可能と思われていたものを常に再定義してきたことを目撃しました。画期的な研究、先駆的なモデル、協力の努力が、この分野を最先端のイノベーションの推進力に形作ってきました。

アート、音楽、デザインにおける応用に加えて、生成型AIは医療、金融、NLPなどのさまざまな分野に重要な影響を与え、私たちの日常生活を向上させています。この進歩により、技術と人間の調和した共存の可能性が高まり、無数の機会が生まれます。この優れた分野の発展に専念し、今後の数年間での協力と探求を奨励しましょう。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI evolutionChatGPTDiffusion ModelsGANsGenerative AIgenerative AI evolutiontimeline

Was this article helpful?

93 out of 132 found this helpful