Falcon LLM：オープンソースLLMの新しい王者

Falcon LLM The new champion of open-source LLM.

毎週、より多くのチャットボットがリリースされる中、大規模言語モデル（LLMs）が登場していますが、どれが最も優れており、各モデルの進捗状況や最も役立つモデルかを見つけることは困難です。

HuggingFaceはOpen LLM Leaderboardを備えており、リリースされたLLMsを追跡、評価、ランク付けをしています。彼らは、異なる評価タスクで生成言語モデルをテストするために使用される独自のフレームワークを使用しています。

最近、LLaMA（Large Language Model Meta AI）がリーダーボードのトップに立っていましたが、新しい事前学習済みLLMであるFalcon 40Bによって退位しました。

Technology Innovation Instituteについて

Falcon LLMは、アブダビ政府の先進技術研究評議会の一部である企業であるTechnology Innovation Institute（TII）によって設立され、構築されました。政府は、科学における革新的な技術や発見を提供するために、アラブ首長国連邦全体の技術研究を監督しており、科学者、研究者、エンジニアのチームが集中して取り組んでいます。

Falcon 40Bとは何ですか？

Falcon-40Bは、40Bのパラメーターを持つ基礎的なLLMであり、1兆トークンでトレーニングされています。 Falcon 40Bは、自己回帰デコーダのみのモデルです。自己回帰デコーダのみのモデルとは、前のトークンが与えられた場合に次のトークンを予測するためにモデルがトレーニングされることを意味します。 GPTモデルがこれの良い例です。

Falconのアーキテクチャは、トレーニングコンピューティング予算の75％に対してGPT-3を大幅に上回ることが示されており、推論時にはコンピュートの1/3しか必要としません。

LLMsはトレーニングデータの品質に非常に敏感であることが知られているため、Technology Innovation Instituteのチームは大規模なCPUコアのデータパイプラインを構築し、広範囲なフィルタリングと重複除去を使用してWebから高品質のコンテンツを抽出することに重点を置きました。

また、Falcon-7Bというより小さなバージョンがあり、1,500Bトークンでトレーニングされています。 Falcon-40B-Instruct、Falcon-7B-Instructモデルも使用可能です。

Falcon 40Bは何ができますか？

他のLLMsと同様に、Falcon 40Bは以下のことができます：

クリエイティブなコンテンツを生成する
複雑な問題を解決する
カスタマーサービスオペレーション
バーチャルアシスタント
言語翻訳
感情分析。
「繰り返し」作業を削減して自動化する
エミレーツ企業の効率性を向上させるのに役立つ

Falcon 40Bはどのようにトレーニングされましたか？

1兆トークンでトレーニングされるため、2か月以上、AWS上の384個のGPUが必要でした。トレーニングには、TIIによって構築されたRefinedWebという巨大な英語Webデータセットの1,000Bトークンが使用されました。

事前学習データは、CommonCrawlを使用してWebから収集されたパブリックデータのコレクションを含んでいます。チームは、機械生成されたテキスト、アダルトコンテンツ、重複を削除するために徹底的なフィルタリングフェーズを行い、5兆トークン近くの事前学習データセットを作成しました。

RefinedWebは、CommonCrawlの上に構築されたデータセットであり、手動でキュレーションされたデータセットでトレーニングされたモデルよりも優れたパフォーマンスを発揮することが示されています。 RefinedWebは、マルチモーダルに対応しています。

準備ができたら、FalconはEAI Harness、HELM、BigBenchなどのオープンソースのベンチマークに対して検証されました。

Falcon LLMはオープンソースです

Falcon LLMは一度は研究および商用利用のためのものでしたが、現在はApache License Version 2.0リリースに基づいているため、研究者や開発者によりアクセスしやすくなりました。

UAEは、AIの課題や境界を変え、将来的にどのような役割を果たすかに重要な役割を果たすAIへの包括的なアクセスの需要に対応するために、商用利用制限のロイヤルティフリーになり、オープンソース化されました。

人工知能の世界で協力、革新、知識共有のエコシステムを育成することを目的として、Apache 2.0は安全で安全なオープンソースソフトウェアを保証します。

Falcon-7B Instruct LLMの使い方

チャットボットのような一般的な指示により適した、Falcon-40Bのよりシンプルなバージョンを試したい場合は、Falcon-7Bを使用する必要があります。

それでは始めましょう…

まだインストールしていない場合は、次のパッケージをインストールしてください：

!pip install transformers
!pip install einops
!pip install accelerate
!pip install xformers

これらのパッケージをインストールしたら、提供されたコードを実行することができます。

from transformers import AutoTokenizer, AutoModelForCausalLM
import transformers
import torch

model = "tiiuae/falcon-7b-instruct"

tokenizer = AutoTokenizer.from_pretrained(model)
pipeline = transformers.pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
    device_map="auto",
)
sequences = pipeline(
   "Girafatron is obsessed with giraffes, the most glorious animal on the face of this Earth. Giraftron believes all other animals are irrelevant when compared to the glorious majesty of the giraffe.\nDaniel: Hello, Girafatron!\nGirafatron:",
    max_length=200,
    do_sample=True,
    top_k=10,
    num_return_sequences=1,
    eos_token_id=tokenizer.eos_token_id,
)
for seq in sequences:
    print(f"Result: {seq['generated_text']}")

まとめ

最高のオープンソースモデルとして構築されたFalconは、LLaMAsの王冠を手に入れ、その強力に最適化されたアーキテクチャ、ユニークなライセンスのオープンソース、そして2つのサイズ（40Bと7Bパラメータ）で利用可能であることに人々は感嘆しています。

試してみましたか？もしそうであれば、コメントでご意見をお聞かせください。

Nisha Aryaは、VoAGIのデータサイエンティスト、フリーランスの技術ライター、およびコミュニティマネージャーです。彼女は特に、データサイエンスのキャリアアドバイスやチュートリアル、理論に基づくデータサイエンスの知識を提供することに興味があります。また、人工知能が/人間の寿命の長さにどのように役立つかを探究することを望んでいます。彼女は熱心な学習者であり、他の人々を導くことを助けながら、自分のテック知識と執筆スキルを広げることを望んでいます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Natural language processing

Was this article helpful?

93 out of 132 found this helpful

Falcon LLM：オープンソースLLMの新しい王者

Technology Innovation Instituteについて

Falcon 40Bとは何ですか？

Falcon 40Bは何ができますか？

Falcon 40Bはどのようにトレーニングされましたか？

Falcon LLMはオープンソースです

Falcon-7B Instruct LLMの使い方

まとめ

Was this article helpful?

VoAGIニュース、6月7日：データサイエンス面接チートシートのためのChatGPT • 特定のデータロール向けのプログラミング言語

プロンプトエンジニアリングの芸術：ChatGPTのデコード

機械学習

「Apple M1とM2のパフォーマンス- SSLモデルのトレーニングにおいて」

新たなGoogle.orgの助成金により、30万人の学生がロボット技術とAIに触れることができます

「Amazon Qをご紹介します：ビジネスの卓越性のためのチャットボットをご紹介します！」

Google Pixel Watchが落下を検知する方法

「2023年の最高の声クローニングソフトウェア10選」

TensorFlowを使用して責任あるAIを構築する方法は？