「テキストから言葉以上へ」 翻訳結果です
Text to Words+
大規模言語モデル(LLMs)の簡単な歴史
機械思考方法が始まると、私たちの弱い能力をすぐに超えることは、おそらくあり得ると思われます… 彼らはお互いと会話し、知恵を研ぎ澄ませることができるでしょう。したがって、ある段階で、私たちは機械が制御を取ることを予想しなければなりません。
— アラン・チューリング(1912年-1954年)
こんにちは、読者の皆さん。今日、私たちは大規模言語モデル(LLMs)の時代に生きています。これらのモデルはGPT4、ChatGPT、DALL·Eなどのソフトウェアを強化し、多くの他のAI技術を可能にします。これらの技術は、人類の歴史上で最も重要なブレークスルーのいくつかに責任を持ち、したがって私たちは重要な社会的変革の瀬戸際にいます。おそらく私たちの生涯のうちに、私たちが開発し広く使用するAIシステムは、すべての人間の結集した知性よりもはるかに優れた知性を持つようになるかもしれません。これは一方では人類にとっての祝福となりうる一方で、もう一方では呪いとなるかもしれません。
これは祝福と呼ばれることができます。なぜなら、人類を力づけ、広範な貧困と苦しみから解放し、永遠の人間の願望である「幸福」をもたらす可能性を秘めた、数え切れない可能性が発見されているからです。
- 「Azure Machine Learningによる機械学習オペレーション(MLOps)」
- 「Spring Bootを使用して自分自身のChatGPTアプリケーションを作成する」
- 「Spring Bootを使用して独自のChatGPTアプリケーションを作成する」
これを呪いと呼ぶのは、超知能AGI(人工一般知能)が持つ力です。この超知能は意図的にまたは意図せずに人類の文明を完全に消滅させる可能性を持っています。この脅威は、オーウェルの小説「1984年」で描かれたオーウェリアンな全体主義の形で現れるかもしれません。または、「思考の能力を無くす技術を崇拝するようになる」と述べたハクスリーの小説「新しき世界」のディストピアの形で現れるかもしれません。
私たちは現在、一つの存在の段階から別の存在の段階に急速かつ深刻な移行を経験しています。私たちは、変化する世界に適応できない種が直面する運命をよく知っています。それは絶滅です。したがって、私たちはこれらのテーマを心から研究することが重要です。これらの探求に没頭することで、私たちは私たちの前に広がる非凡な道を進むために必要な知識と洞察を得ることができます。この記事「テキストから言葉を超えて:大規模言語モデルの簡単な歴史」を通じて、探求の旅を始めましょう。
イントロダクション
言語モデルは、あなたの言っていることを理解し、意味のある返答をする賢い友達のような存在です。これらはコンピュータープログラムの形で存在し、高度な技術を使用してテキストから学び、言語の理解と生成において非常に優れた能力を発揮します。文の補完、言語の翻訳、質問への回答、テキストの感情や感情の分析など、さまざまなことができます。
起源:大規模言語モデルの台頭
初期の言語モデルの研究は重要でした。なぜなら、これらは後の進歩の基礎を築いたからです。これらにより、言語の仕組みやコンピュータがそれから学ぶ方法についてより多くの知識を得ることができました。しかし、これらのモデルは人間の言語の複雑さを完全に理解することはできませんでした。単語や文章の意味を理解するために、さまざまなアプローチが使用されました。
1つのアプローチは、ルールを使用することでした。これらのルールは、言語をどのように処理するかの指示のようなものでした。これらのルールは専門家によって作成され、コンピュータに言語の分析や生成方法を教えるものでした。しかし、これらのルールベースのシステムは人間の言語の複雑さには苦労し、完全な意味を理解することができませんでした。
別のアプローチは統計を使用することでした。これは、多くの言語の例からパターンを見つけることを意味します。コンピュータはこれらのパターンから学び、次にどの単語が来るかについて推測を行うことができました。このアプローチは一部の言語の複雑さに対処する能力が向上していましたが、文脈を理解し意味のある文章を生成するという点でまだ限界がありました。
後に、より高度なモデルであるTransformerが登場しました。この新しいモデルは、単語間の関連性を捉え、文脈をより効果的に理解することができました。
Transformer:言語モデルの突破口
もちろん、ここではバンブルビーではなく、シーケンス・トゥ・シーケンスの問題であるニューラル機械翻訳の深層学習モデルについて話していますが、初期の提案ではエンコーダ・デコーダのアーキテクチャでRNN(再帰型ニューラルネットワーク)が使用されていました。しかし、これらのアーキテクチャは、新しい要素が追加されるときに長いシーケンスの最初の要素からの情報を保持するのに苦労しました。エンコーダの隠れ状態は通常、入力文の最新の単語と関連付けられていました。そのため、デコーダが最後の隠れ状態に依存するだけだと、初期の要素に関する重要な情報が失われてしまいます。この制限に対処するために、アテンションメカニズムが導入されました。
エンコーダの最後の状態だけに頼るのではなく、アテンションメカニズムによってデコーダはエンコーダのすべての状態にアクセスし、入力シーケンス全体から情報をキャプチャすることが可能になります。これには、過去のエンコーダの状態の重み付き和を抽出し、デコーダが次の出力要素を予測する際に各要素に重要度を割り当てることが含まれます。ただし、このアプローチには制約があります。各シーケンスは1つの要素ずつ処理する必要があります。エンコーダとデコーダはt-1ステップが完了するのを待ってからt番目のステップを処理する必要があります。そのため、大規模なデータセットを扱う場合、このアプローチは時間がかかり、計算効率が低下します。
Transformerモデルは、それぞれの単語の特徴を抽出するために自己注意メカニズムを利用し、文中の他の単語との関連性を決定します。再帰ユニットとは異なり、この特徴抽出では重み付き和と活性化が行われるため、並列処理が可能で効率的です。
このアテンションメカニズムの利用は、「Attention is all you need」(Vaswani, Ashish & Shazeer, Noam & Parmar, Niki & Uszkoreit, Jakob & Jones, Llion & Gomez, Aidan & Kaiser, Lukasz & Polosukhin, Illia. (2017))[1] という論文で紹介されました。この論文は、アテンションメカニズムを使用したモデルであるTransformerの重要な進化を達成しました。
NLPタスクで登場した現在でもっとも有名なモデルは、数十のトランスフォーマーとその派生の1つであるGPT-2です。
大規模言語モデルの前身
ここでは、言語処理の分野で単語の表現を革新したWord2VecとGloVeという2つの影響力のあるモデルについて探究します。さらに、シーケンシャルデータを処理する再帰ニューラルネットワーク(RNN)とその能力についても掘り下げていきます。これらのモデルのキーアスペクトと言語処理への貢献を明らかにしましょう。
- Word2Vec:2013年に導入された人気のあるモデルです。単語を高次元空間の密なベクトルとして表現し、単語の意味を捉えます。大規模なテキストデータでトレーニングすることによって、ターゲットの単語が与えられたときに周囲の単語を予測することを学びます。Word2Vecは、単語の意味をより良く理解することを可能にする、自然言語処理における単語表現の革新です。
- GloVe:2014年に導入されたもう一つの影響力のあるモデルです。単語を連続した空間内のベクトルとして表現し、単語の共起に関するグローバルな統計情報を使用します。単語の文脈を考慮することで、GloVeは意味的および構文的な関係の両方を捉え、言語理解を向上させます。
- 再帰型ニューラルネットワーク(RNN):RNNは文などのシーケンシャルデータを処理するニューラルネットワークです。以前の情報を捉えるための内部メモリを保持します。RNNは入力シーケンスに基づいて関連する出力を生成することに優れていますが、長期的な依存関係や広範な文脈の把握には苦労します。
これらのモデルは、単語の分散表現の学習の重要性、意味的な関係の捉え方、およびシーケンシャルデータのモデリングを示しました。これは、GPT-3などの高度な大規模言語モデルの基盤となり、言語処理の限界を押し広げることになりました。
大規模モデルの進化
GPT-1からGPT-3以上までの大規模言語モデルの進化のタイムラインをたどります。
- GPT-1(Generative Pre-Trained Transformer 1):2018年、OpenAIがGPT-1を導入しました。これはトランスフォーマーに基づく先駆的な大規模言語モデルで、大量のインターネットテキストデータでトレーニングされ、さまざまなタスクで卓越した言語能力を示しました。
- GPT-2(Generative Pre-Trained Transformer 2):2019年にリリースされたGPT-2は、大規模言語モデルを新たなレベルに引き上げました。GPT-1よりも大規模なデータセットと15億のパラメータを持ち、優れたテキスト生成能力を披露しました。初めは懸念があったため制限されていましたが、OpenAIは後に完全なモデルを一般に公開しました。
- GPT-3(Generative Pre-Trained Transformer 3):2020年に公開されたGPT-3は、大規模言語モデリングの画期的な進歩を表しました。1750億のパラメータを持つ、これまでに作成された最大のモデルの一つとなりました。GPT-3は、質問に答えることからコード生成や生き生きとした対話まで、多様なタスクで卓越したパフォーマンスを発揮しました。ChatGPTはGPT-3アーキテクチャに基づいています。”ChatGPT”という用語は、対話型の会話システムに特化したGPT-3モデルの具体的な実装を指す場合によく使われます。
さらに、OpenAIのCEOであるサム・オルトマンは、彼のインタビューの1つで、GPT-4が約100兆のパラメータを持つことを確認しました。そのため、スーパーAGIの進歩においてもう1つの大きな飛躍となるでしょう。
仕事は影響を受けるのか?
まあ、人工知能の領域におけるこの大きな飛躍が新しい仕事を生み出すことは疑いの余地がありません。しかし、それはまた、今日私たちが世界中で見ている一部の仕事が明日存在しない可能性もあることを意味するのでしょうか?
サム・オルトマンが彼のインタビューの1つで似たような質問に答えた内容を見てみましょう。
「大きな影響を受ける可能性がある大きなカテゴリは、おそらく、顧客サービスカテゴリです。将来的には、仕事が大幅に減ることが予想されます。確信はありませんが、それは可能性があると私は思っています。はっきり言いたいと思いますが、これらのシステムは多くの仕事をなくすでしょう。どの技術革命もそうです。これらのシステムは多くの仕事を向上させ、より良く、より楽しく、より高給にします。そして、私たちが最初の手掛かりを見始めても、想像しにくい新しい仕事を生み出すでしょう。
社会として、私たちはより多く働きたいのか、少なく働きたいのか、混乱しています。そして、多くの人々が自分の仕事を好きであり、それから価値を得ているのかどうかについても確信がありません。一部の人々は好きです。私は私の仕事が大好きですし、おそらくあなたもそうでしょう。それは本当に特権です。誰もが言えるわけではありません。もし私たちがより良い仕事に世界中を移動させ、食べるためにしなければならないものではなく、創造的な表現と達成感と幸福感を見つけるための方法としての仕事になるようなものに移行できれば、それは広い概念になるかもしれません。たとえそれらの仕事が今日の仕事とは非常に異なるように見えたとしても、それは素晴らしいことだと思います。」
― サム・オルトマン、OpenAIのCEO
以上が私の記事の要約です。長くなりすぎて申し訳ありませんが、お気に入りいただければ幸いです。私たちはLLMの台頭について話し、その旅「テキストから言葉を超えて」を目撃しました。確かなことは、これらのモデルが日々より速いペースで改善し続けるということです。しかし、それは私たちの生活にネガティブな影響を与えないという保証ではありません。新しい仕事が生まれる一方で、現在の仕事も消えていくでしょう。私たちは10倍以上のことができるようになりますが、同時に10倍以上のことがあるでしょう。ただ一つの真実は、世界はもう同じではなくなるということです。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles