Falcon LLM:オープンソースLLMの新しい王者

Falcon LLM The new champion of open-source LLM.

毎週、より多くのチャットボットがリリースされる中、大規模言語モデル(LLMs)が登場していますが、どれが最も優れており、各モデルの進捗状況や最も役立つモデルかを見つけることは困難です。

HuggingFaceはOpen LLM Leaderboardを備えており、リリースされたLLMsを追跡、評価、ランク付けをしています。彼らは、異なる評価タスクで生成言語モデルをテストするために使用される独自のフレームワークを使用しています。

最近、LLaMA(Large Language Model Meta AI)がリーダーボードのトップに立っていましたが、新しい事前学習済みLLMであるFalcon 40Bによって退位しました。

Technology Innovation Instituteについて

Falcon LLMは、アブダビ政府の先進技術研究評議会の一部である企業であるTechnology Innovation Institute(TII)によって設立され、構築されました。政府は、科学における革新的な技術や発見を提供するために、アラブ首長国連邦全体の技術研究を監督しており、科学者、研究者、エンジニアのチームが集中して取り組んでいます。

Falcon 40Bとは何ですか?

Falcon-40Bは、40Bのパラメーターを持つ基礎的なLLMであり、1兆トークンでトレーニングされています。 Falcon 40Bは、自己回帰デコーダのみのモデルです。自己回帰デコーダのみのモデルとは、前のトークンが与えられた場合に次のトークンを予測するためにモデルがトレーニングされることを意味します。 GPTモデルがこれの良い例です。

Falconのアーキテクチャは、トレーニングコンピューティング予算の75%に対してGPT-3を大幅に上回ることが示されており、推論時にはコンピュートの1/3しか必要としません。

LLMsはトレーニングデータの品質に非常に敏感であることが知られているため、Technology Innovation Instituteのチームは大規模なCPUコアのデータパイプラインを構築し、広範囲なフィルタリングと重複除去を使用してWebから高品質のコンテンツを抽出することに重点を置きました。

また、Falcon-7Bというより小さなバージョンがあり、1,500Bトークンでトレーニングされています。 Falcon-40B-Instruct、Falcon-7B-Instructモデルも使用可能です。

Falcon 40Bは何ができますか?

他のLLMsと同様に、Falcon 40Bは以下のことができます:

  • クリエイティブなコンテンツを生成する
  • 複雑な問題を解決する
  • カスタマーサービスオペレーション
  • バーチャルアシスタント
  • 言語翻訳
  • 感情分析。
  • 「繰り返し」作業を削減して自動化する
  • エミレーツ企業の効率性を向上させるのに役立つ

Falcon 40Bはどのようにトレーニングされましたか?

1兆トークンでトレーニングされるため、2か月以上、AWS上の384個のGPUが必要でした。トレーニングには、TIIによって構築されたRefinedWebという巨大な英語Webデータセットの1,000Bトークンが使用されました。

事前学習データは、CommonCrawlを使用してWebから収集されたパブリックデータのコレクションを含んでいます。チームは、機械生成されたテキスト、アダルトコンテンツ、重複を削除するために徹底的なフィルタリングフェーズを行い、5兆トークン近くの事前学習データセットを作成しました。

RefinedWebは、CommonCrawlの上に構築されたデータセットであり、手動でキュレーションされたデータセットでトレーニングされたモデルよりも優れたパフォーマンスを発揮することが示されています。 RefinedWebは、マルチモーダルに対応しています。

準備ができたら、FalconはEAI Harness、HELM、BigBenchなどのオープンソースのベンチマークに対して検証されました。

Falcon LLMはオープンソースです

Falcon LLMは一度は研究および商用利用のためのものでしたが、現在はApache License Version 2.0リリースに基づいているため、研究者や開発者によりアクセスしやすくなりました。

UAEは、AIの課題や境界を変え、将来的にどのような役割を果たすかに重要な役割を果たすAIへの包括的なアクセスの需要に対応するために、商用利用制限のロイヤルティフリーになり、オープンソース化されました。

人工知能の世界で協力、革新、知識共有のエコシステムを育成することを目的として、Apache 2.0は安全で安全なオープンソースソフトウェアを保証します。

Falcon-7B Instruct LLMの使い方

チャットボットのような一般的な指示により適した、Falcon-40Bのよりシンプルなバージョンを試したい場合は、Falcon-7Bを使用する必要があります。

それでは始めましょう…

まだインストールしていない場合は、次のパッケージをインストールしてください:

!pip install transformers
!pip install einops
!pip install accelerate
!pip install xformers

これらのパッケージをインストールしたら、提供されたコードを実行することができます。

from transformers import AutoTokenizer, AutoModelForCausalLM
import transformers
import torch

model = "tiiuae/falcon-7b-instruct"

tokenizer = AutoTokenizer.from_pretrained(model)
pipeline = transformers.pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
    device_map="auto",
)
sequences = pipeline(
   "Girafatron is obsessed with giraffes, the most glorious animal on the face of this Earth. Giraftron believes all other animals are irrelevant when compared to the glorious majesty of the giraffe.\nDaniel: Hello, Girafatron!\nGirafatron:",
    max_length=200,
    do_sample=True,
    top_k=10,
    num_return_sequences=1,
    eos_token_id=tokenizer.eos_token_id,
)
for seq in sequences:
    print(f"Result: {seq['generated_text']}")

まとめ

最高のオープンソースモデルとして構築されたFalconは、LLaMAsの王冠を手に入れ、その強力に最適化されたアーキテクチャ、ユニークなライセンスのオープンソース、そして2つのサイズ(40Bと7Bパラメータ)で利用可能であることに人々は感嘆しています。

試してみましたか?もしそうであれば、コメントでご意見をお聞かせください。

Nisha Aryaは、VoAGIのデータサイエンティスト、フリーランスの技術ライター、およびコミュニティマネージャーです。彼女は特に、データサイエンスのキャリアアドバイスやチュートリアル、理論に基づくデータサイエンスの知識を提供することに興味があります。また、人工知能が/人間の寿命の長さにどのように役立つかを探究することを望んでいます。彼女は熱心な学習者であり、他の人々を導くことを助けながら、自分のテック知識と執筆スキルを広げることを望んでいます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

日本からの新しいAI研究は、人間の表情の機械的特性を調査し、アンドロイドが感情をより効果的に認識する方法を理解することを目指しています

人工知能が人間の感情を再現するにつれて、本物の人間の表情の機械的な複雑さを徹底的に調査することが浮かび上がりました。...

機械学習

詳細に説明されたLlama 2:Metaの大型言語モデル!

MetaのLlama 2についてもっと知りたいですか?ここには基礎から高度な仕様まで、すべてを網羅した初心者向けガイドがあります

人工知能

「エンタープライズ環境におけるゼロトラストの実装」

「ゼロトラストアーキテクチャは、マイクロセグメンテーション、継続的な認証、およびアイデンティティ管理などの要素を統合...

AIニュース

ジェミニと共に、バードはこれまで最大のアップグレードを実現しました

「私たちは、Geminiの先進機能をBardに導入し始めています」

AIニュース

「OpenAIがDall E-3を発売!次世代AIイメージ生成器!」

AI画像生成の世界では、OpenAIは最新作のDall E-3で華々しい登場を準備しています。テキストから画像を生成するモデルであるD...

機械学習

「オーディオソース分離のマスターキー:AudioSepを紹介して、あなたが説明するものを分離します」

Computational Auditory Scene Analysis(CASA)は、複雑な聴覚環境で個別の音源を分離し理解することに焦点を当てた音声信号...