ChatGPTの初めての記念日:AIインタラクションの未来を変える
ChatGPTの初めての記念日:AIとの対話が未来を変える
ChatGPTの1年を振り返ると、このツールがAIの世界に大きな変化をもたらしたことが明らかです。2022年末にローンチされたChatGPTは、ユーザーフレンドリーで会話形式のスタイルが特徴で、AIとの対話が機械ではなく、人との会話のように感じられることで注目を集めました。この新しいアプローチはすぐに一般の目に留まりました。リリースからわずか5日後には、ChatGPTは既に100万人のユーザーを集めていました。2023年初頭には月間1億人以上のユーザーに急増し、10月には世界中で約17億回の訪問を記録しました。これらの数字は、その人気と有用性を物語っています。
過去の1年間にわたり、ユーザーたちはChatGPTを使って創造的な方法で活用してきました。メールの作成や履歴書の更新などの簡単なタスクから、成功したビジネスを立ち上げるまで、さまざまな方法で活用されています。しかし、使われ方だけでなく、技術自体も成長し改善されています。当初、ChatGPTは詳細なテキスト応答を提供する無料のサービスでした。現在はChatGPT Plusがあり、ChatGPT-4が含まれています。この更新版はより多くのデータで訓練され、間違った回答を少なくし、複雑な指示を理解する能力も向上しています。
最大のアップデートの一つは、ChatGPTが複数の方法で対話できるようになったことです。聞くことも話すことも、さらに画像を処理することもできます。つまり、モバイルアプリを通じて話しかけたり、画像を示して回答を得ることができます。これらの変化により、AIへの新たな可能性が開かれ、人々がAIの役割を見る方法や考え方も変わりました。
テックデモからテックワールドでの重要な役割を果たすまで、ChatGPTの旅は非常に印象的です。最初はテクノロジーをテストし改善する手段として、一般の人々からフィードバックを得るために利用されていました。しかし、すぐにAIの風景における不可欠な部分となりました。この成功は、監督された学習と人間からのフィードバックの両方を活用して大規模な言語モデル(LLM)を微調整する効果的な方法を示しています。その結果、ChatGPTは幅広い質問やタスクを処理することができます。
- 「あなたは専門家です」というAIのプロンプトはあなたが思っているほど魔法のようなものではありません
- デヴオプスにおけるジェネレーティブAI:ピークなデヴオプスパフォーマンスを実現するスマートな(そして効果的な)方法
- 「27/11から03/12までの週のトップ重要なLLM論文」
最も能力がある多目的AIシステムを開発する競争は、ChatGPTのようなオープンソースやプロプライエタリなモデルの増加をもたらしました。それらの一般的な能力を理解するには、さまざまなタスクの包括的なベンチマークが必要です。このセクションでは、ChatGPTを含む異なるモデルがどのように比較されているかについて説明します。
言語モデルの評価:ベンチマーク
- MT-Bench:このベンチマークは、8つのドメイン(執筆、ロールプレイ、情報抽出、推論、数学、コーディング、STEM知識、人文/社会科学)でのマルチターンの対話と指示に従う能力をテストします。より優れたLLM(GPT-4など)が評価者として使用されます。
- AlpacaEval:AlpacaFarmの評価セットに基づいた、LLMベースの自動評価ツールで、候補モデルの勝率をGPT-4やClaudeとの応答と比較して計算します。
- Open LLM Leaderboard:言語モデル評価ハーネスを利用したこのランキングでは、理論的な挑戦や一般的な知識テストを、ゼロショットおよびフューショットの設定でLLMが評価されます。
- BIG-bench:200を超える新しい言語タスクを網羅し、さまざまなトピックと言語を対象としています。LLMの解釈と将来の能力を予測することを目指しています。
- ChatEval:複数エージェントの討論フレームワークで、チームが自律して開放型の質問や従来の自然言語生成タスクにおける異なるモデルの応答品質を議論し評価することができます。
比較的な性能
一般的なベンチマークにおいて、オープンソースのLLMは驚異的な進歩を遂げています。例えば、Llama-2-70Bは、特に指示データを用いて微調整された後、印象的な結果を達成しました。そのバリエーションであるLlama-2-chat-70BはAlpacaEvalで92.66%の勝率を達成し、GPT-3.5-turboを上回りました。ただし、GPT-4は95.28%の勝率を誇っています。
Zephyr-7Bは、より小さなモデルでありながら、大きな70B LLMと同等の能力を発揮し、特にAlpacaEvalとMT-Benchで優れた結果を収めました。一方、多様な指示データで微調整されたWizardLM-70Bは、MT-BenchにおいてオープンソースのLLMの中で最高のスコアを記録しました。ただし、それでもGPT-3.5-turboとGPT-4には及ばない結果でした。
興味深いエントリー、GodziLLa2-70BはOpenLLMリーダーボードで競争力のあるスコアを達成し、異なるデータセットを組み合わせた実験的モデルの潜在能力を示しました。同様に、スクラッチから開発されたYi-34Bは、GPT-3.5-turboとほぼ同等のスコアを誇り、わずかにGPT-4に遅れています。
UltraLlamaは、多様で高品質なデータの微調整により、提案されたベンチマークでGPT-3.5-turboと匹敵し、世界的な専門知識の領域ではそれを上回る成果を収めました。
スケーリングアップ:巨大LLMの台頭
2020年以降のトップLLMモデル
LLMの開発において注目すべきトレンドの一つは、モデルパラメータのスケーリングアップです。Gopher、GLaM、LaMDA、MT-NLG、PaLMなどのモデルは、最大で5400億のパラメータを持つモデルに至るまで、限界を emい、卓越した能力を示していますが、クローズドソースの性質により、広範な適用は制限されています。この制限から、オープンソースのLLMの開発に対する関心が高まっているトレンドがあります。
モデルサイズのスケーリングアップと並行して、研究者は代替策を探究しています。モデルを大きくするだけでなく、より小さなモデルの事前学習の改善に焦点を当てています。ChinchillaやUL2などの例が示すように、常に「より多い方が良い」とは限らず、より賢い戦略でも効率的な結果が得られます。さらに、言語モデルのインストラクションチューニングにも considerable な関心が寄せられており、FLAN、T0、Flan-T5などのプロジェクトがこの領域への重要な貢献をしています。
ChatGPTの起爆剤
OpenAIのChatGPTの登場は、NLP研究の転換点となりました。GoogleやAnthropicなどの企業も同様のモデルであるBardやClaudeを発表しましたが、これらのモデルは多くのタスクでChatGPTと類似の性能を示しているものの、OpenAIの最新モデルであるGPT-4には及びません。これらのモデルの成功は、人間のフィードバックからの強化学習(RLHF)という技術がさらなる改善を目指して増加していることによるものとされています。
OpenAIのQ*(Qスター)に関する噂と憶測
最近の報道によると、OpenAIの研究者たちは、Q*(Qスターと発音される)という新しいモデルの開発により、AIの重要な進歩を達成した可能性があるとされています。Q*は、小学校レベルの数学の演算が可能な能力を持っていると言われており、これは人工知能一般(AGI)へのマイルストーンの可能性に関する専門家の議論を引き起こしています。OpenAIはこれらの報告にコメントしていませんが、Q*の噂される能力は、ソーシャルメディアやAI愛好家の間で非常に興奮と憶測を呼んでいます。
Q*の開発は注目されるのは、ChatGPTやGPT-4のような既存の言語モデルは、数学のタスクを確実に処理することはできますが、特にそれに長けているわけではないという点です。課題は、AIモデルが現在のようにディープラーニングとトランスフォーマーを通じてパターンを認識するだけでなく、推論と抽象的な概念を理解する能力です。数学は推論の基準とされており、AIは複数のステップを計画し実行することで、抽象的な概念を深く理解しつつ、数学の課題に取り組む能力を示す必要があります。この能力は、AIの能力において重要な飛躍となり、数学だけでなく他の複雑なタスクにも拡張されるかもしれません。
ただし、専門家はこの開発を過大評価しないように警告しています。数学の問題を解くことができる確実なAIシステムは、印象的な成果ですが、それは必ずしも超知能AIまたはAGIの到来を示すものではありません。OpenAIを含む現在のAI研究は、より複雑なタスクにおいてさまざまな程度の成功を収める elementaryな問題に焦点を当てています。
Q*のような進歩の潜在的な応用範囲は広範囲であり、個別のチュータリングから科学的研究やエンジニアリングへの支援までさまざまです。ただし、これらの進歩に関連する制約と安全性についても期待を管理し、認識することも重要です。OpenAIの基本的な懸念であるAIが存在的リスクを抱える可能性については、AIシステムがより現実世界との接触を増すにつれて、依然として関連があります。
オープンソースLLMムーブメント
MetaはLlamaシリーズのモデルをリリースして、オープンソースのLLM研究を推進し、Llamaを基にした新たな開発の波を引き起こしました。これにはAlpaca、Vicuna、Lima、WizardLMなどの指示データで微調整されたモデルも含まれます。さらに、エージェントの能力向上、論理的な推論、Llamaベースのフレームワーク内での長い文脈モデリングについての研究も行われています。
さらに、MPT、ファルコン、XGen、Phi、Baichuan、ミストラル、グロック、そしてYiなどのプロジェクトによる、ゼロから強力なLLMsを開発するというトレンドが広がっています。これらの取り組みは、クローズドソースのLLMsの機能を民主化し、先進的なAIツールをより利用しやすく効率的にするという意欲を反映しています。
ChatGPTとオープンソースモデルが医療に与える影響
我々は、LLMsが臨床メモの作成、報酬請求のためのフォーム入力、医師の診断や治療計画のサポートなど、医療のさまざまな領域で活躍する未来を展望しています。これには、テックジャイアントや医療機関の関心が集まっています。
マイクロソフトと電子健康記録ソフトウェアプロバイダーであるEpicの協議は、LLMsの医療への統合を示唆しています。UCサンディエゴヘルスやスタンフォード大学医療センターでも既に取り組みが進んでいます。同様に、GoogleのメイヨークリニックとAmazon Web Servicesとのパートナーシップや、HealthScribeというAI臨床ドキュメンテーションサービスの展開も、この方向性への重要な進展を示しています。
しかしながら、これらの急速な導入により、医療を企業の利益に委ねることに対する懸念が生じています。これらのLLMsのプロプライエタリな性質が、評価を困難にします。利益目的での変更や廃止が患者のケア、プライバシー、安全性に影響を与える可能性もあります。
医療においては、LLMの開発においてオープンで包括的なアプローチが求められています。医療機関、研究者、臨床医、患者は、グローバルに協力して医療向けのオープンソースのLLMsを構築する必要があります。このアプローチは、トリリオンパラメーターコンソーシアムに類似しており、計算リソース、財務リソース、専門知識を共有することを可能にします。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles