「注目すべき8つのトレンディングで新しい大規模言語モデル」

New large-scale language model with 8 notable trends

最近、ニュースでよく大規模な言語モデル、またはLLM(Large Language Models)について話題になっています。LLMとは、大量のテキストデータで訓練された人工知能の一種です。これにより、ChatGPTなどの人間が書いたテキストと区別がつかないようなテキストを生成することができます。そのため、LLMは自然言語処理、機械翻訳、テキスト生成など、さまざまな応用分野で活用される可能性があります。

それでは、注目に値するいくつかの新しいトレンドのLLMを紹介します。

RWKV

高性能なトランスフォーマーと効率的なRNNの長所を組み合わせることを目指したRWKVは、両者の最良の特徴を組み合わせることを期待しています。成功すれば、これにより将来的により効率的なNLPモデルが実現する可能性があります。

Palm 2

PaLMの後継機であり、より多言語対応で効率的でありながら、より優れた推論能力を持つ言語モデルです。UL2に似た目的の混合でトレーニングされたTransformerベースのモデルです。PaLM 2は、さまざまなモデルサイズにわたる下流のタスクで大幅に品質が向上し、同時にPaLMに比べてより高速かつ効率的な推論を示しています。PaLM 2は頑健な推論能力と責任あるAI評価の一連の安定したパフォーマンスも示しています。

Pythia

公開データを使ってトレーニングされた16のLLMからなるスイートであり、LLMの開発と進化を研究するために使用することができます。また、短いパフォーマンスにおける記憶、用語の頻度効果、ジェンダーバイアスの低減なども研究するために使用されています。モデルのサイズは70Mから12Bのパラメータに及びます。Pythiaは一般に利用可能であり、トレーニングデータローダーをダウンロードして再構築するためのツールも含まれています。

GPT – 4

GPT-4は、画像とテキストの入力を受け付け、テキストの出力を生成する大規模なマルチモーダルモデルです。それは、文書内の次のトークンを予測するために事前訓練されたTransformerベースのモデルです。事後訓練のアライメントプロセスにより、事実性や所望の動作への適合性の向上が見られます。GPT-4は、このリストの中でもよく知られたLLMの一つであり、クリエイティブなプロンプトエンジニアによってすでに驚くべき業績を示しています。

Kosmos

Kosmos-1は、一般的なモダリティを感知し、文脈で学習し、指示に従うことができるマルチモーダルな大規模言語モデルです。テキストと画像を含むWebスケールのマルチモーダルコーパスでトレーニングされています。Kosmos-1は言語理解、生成、パーセプション言語タスクなど、さまざまなタスクで印象的なパフォーマンスを発揮します。また、言語からマルチモーダルへ、およびマルチモーダルから言語への知識の転送も可能です。

LLaMA

MetaのLLaMA(Large Language Model from scratch with Annotated Massive Text)は、パラメータ数が7Bから65Bまでの範囲に及ぶ言語モデルです。LLaMAは公開されているデータセットでトレーニングされました。LLaMAは公開データのみを使用して最先端の言語モデルをトレーニングすることが可能であり、LLaMA-13BはほとんどのベンチマークでGPT-3(175B)を上回る性能を発揮します。LLaMA-65Bは、Chinchilla70BやPaLM-540Bといった最高のモデルと競争力がありますが、これらのモデルは現在、研究コミュニティに個別に提供されています。

Vicuna

Vicuna-13Bは、ユーザー共有の会話をLLaMAでファインチューニングすることでトレーニングされたオープンソースのチャットボットです。これはShareGPTから収集された会話を基にしています。Meta LLaMAとStanford Alpacaプロジェクトに触発されたVicuna-13Bは、強化されたデータセットと使いやすいスケーラブルなインフラストラクチャによって支えられています。このLLMの目標は、この分野での到達とオープンソースのイノベーションを妨げる障壁を取り除くことです。

Dolly

Dolly 2.0は、商業目的に使用することができるこのリストの中で数少ないLLMの一つです。Dolly 2.0は、15,000の人間によって生成された指示に従うペアのデータセットでトレーニングされました。このデータセットはDatabricksの従業員によって作成され、オープンQ&A、クローズドQ&A、Wikipediaからの情報抽出、Wikipediaからの情報の要約、ブレインストーミング、分類、クリエイティブライティングなど、さまざまなタスクを含んでいます。

結論

かなり素晴らしいですね。大規模な言語モデルについてはまだ学ぶことがたくさんありますが、Webからスクレイピングする必要はありません。ODSCが提供するGenerative AI Summitでは、7月20日に無料のオンラインカンファレンスを開催しており、先駆者たちが生成AIを前進させていく最新の情報を提供します。今すぐ参加券を取得して、LLMsや生成AIの最新情報、そして産業への影響を自分自身で確認してください。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

著者たちはAI企業に対して団結し、著作権保護された作品に対する尊重と報酬を求めます

著名な作家、マーガレット・アトウッド、ヴィエット・タン・グエン、フィリップ・プルマンなどの文学の巨匠たちが、人工知能...

AI研究

イェール大学とGoogle DeepMindの研究者は、大規模な言語モデルに対する高度な微調整技術を使用して数学の問題解決の成功を解き明かしました

“`html 最も先進的な大型言語モデル(LLMs)であるGPT-4やPaLM 2でも、数学の問題を解くのは困難です。なぜなら、それ...

機械学習

「医療AIの基礎モデル」

「私たちはPLIPという医療AIの基盤モデルを説明しますPLIPは病理学のAIタスクをサポートするために構築されたビジョン言語モ...

AI研究

このAI論文は、MITが化学研究のために深層学習モデルのスケーリングを探究しています

MITの研究者は、化学のための生成的事前トレーニングモデル(ChemGPT)とグラフニューラルネットワークフォースフィールド(G...

機械学習

「JavaとGradleを使用したAIアプリケーションの開発」

実際のコード例を通じて、Deeplearning4j、Weka、そしてEncogなどの人気のあるライブラリを使用して、JavaとGradleを使ったAI...

AIテクノロジー

「ヌガーで科学文書処理を高める」

イントロダクション 自然言語処理および人工知能の分野では、科学的なPDFなどの非構造化データソースから価値ある情報を抽出...