Falcon LLM:オープンソースLLMの新しい王者

Falcon LLM The new champion of open-source LLM.

毎週、より多くのチャットボットがリリースされる中、大規模言語モデル(LLMs)が登場していますが、どれが最も優れており、各モデルの進捗状況や最も役立つモデルかを見つけることは困難です。

HuggingFaceはOpen LLM Leaderboardを備えており、リリースされたLLMsを追跡、評価、ランク付けをしています。彼らは、異なる評価タスクで生成言語モデルをテストするために使用される独自のフレームワークを使用しています。

最近、LLaMA(Large Language Model Meta AI)がリーダーボードのトップに立っていましたが、新しい事前学習済みLLMであるFalcon 40Bによって退位しました。

Technology Innovation Instituteについて

Falcon LLMは、アブダビ政府の先進技術研究評議会の一部である企業であるTechnology Innovation Institute(TII)によって設立され、構築されました。政府は、科学における革新的な技術や発見を提供するために、アラブ首長国連邦全体の技術研究を監督しており、科学者、研究者、エンジニアのチームが集中して取り組んでいます。

Falcon 40Bとは何ですか?

Falcon-40Bは、40Bのパラメーターを持つ基礎的なLLMであり、1兆トークンでトレーニングされています。 Falcon 40Bは、自己回帰デコーダのみのモデルです。自己回帰デコーダのみのモデルとは、前のトークンが与えられた場合に次のトークンを予測するためにモデルがトレーニングされることを意味します。 GPTモデルがこれの良い例です。

Falconのアーキテクチャは、トレーニングコンピューティング予算の75%に対してGPT-3を大幅に上回ることが示されており、推論時にはコンピュートの1/3しか必要としません。

LLMsはトレーニングデータの品質に非常に敏感であることが知られているため、Technology Innovation Instituteのチームは大規模なCPUコアのデータパイプラインを構築し、広範囲なフィルタリングと重複除去を使用してWebから高品質のコンテンツを抽出することに重点を置きました。

また、Falcon-7Bというより小さなバージョンがあり、1,500Bトークンでトレーニングされています。 Falcon-40B-Instruct、Falcon-7B-Instructモデルも使用可能です。

Falcon 40Bは何ができますか?

他のLLMsと同様に、Falcon 40Bは以下のことができます:

  • クリエイティブなコンテンツを生成する
  • 複雑な問題を解決する
  • カスタマーサービスオペレーション
  • バーチャルアシスタント
  • 言語翻訳
  • 感情分析。
  • 「繰り返し」作業を削減して自動化する
  • エミレーツ企業の効率性を向上させるのに役立つ

Falcon 40Bはどのようにトレーニングされましたか?

1兆トークンでトレーニングされるため、2か月以上、AWS上の384個のGPUが必要でした。トレーニングには、TIIによって構築されたRefinedWebという巨大な英語Webデータセットの1,000Bトークンが使用されました。

事前学習データは、CommonCrawlを使用してWebから収集されたパブリックデータのコレクションを含んでいます。チームは、機械生成されたテキスト、アダルトコンテンツ、重複を削除するために徹底的なフィルタリングフェーズを行い、5兆トークン近くの事前学習データセットを作成しました。

RefinedWebは、CommonCrawlの上に構築されたデータセットであり、手動でキュレーションされたデータセットでトレーニングされたモデルよりも優れたパフォーマンスを発揮することが示されています。 RefinedWebは、マルチモーダルに対応しています。

準備ができたら、FalconはEAI Harness、HELM、BigBenchなどのオープンソースのベンチマークに対して検証されました。

Falcon LLMはオープンソースです

Falcon LLMは一度は研究および商用利用のためのものでしたが、現在はApache License Version 2.0リリースに基づいているため、研究者や開発者によりアクセスしやすくなりました。

UAEは、AIの課題や境界を変え、将来的にどのような役割を果たすかに重要な役割を果たすAIへの包括的なアクセスの需要に対応するために、商用利用制限のロイヤルティフリーになり、オープンソース化されました。

人工知能の世界で協力、革新、知識共有のエコシステムを育成することを目的として、Apache 2.0は安全で安全なオープンソースソフトウェアを保証します。

Falcon-7B Instruct LLMの使い方

チャットボットのような一般的な指示により適した、Falcon-40Bのよりシンプルなバージョンを試したい場合は、Falcon-7Bを使用する必要があります。

それでは始めましょう…

まだインストールしていない場合は、次のパッケージをインストールしてください:

!pip install transformers
!pip install einops
!pip install accelerate
!pip install xformers

これらのパッケージをインストールしたら、提供されたコードを実行することができます。

from transformers import AutoTokenizer, AutoModelForCausalLM
import transformers
import torch

model = "tiiuae/falcon-7b-instruct"

tokenizer = AutoTokenizer.from_pretrained(model)
pipeline = transformers.pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
    device_map="auto",
)
sequences = pipeline(
   "Girafatron is obsessed with giraffes, the most glorious animal on the face of this Earth. Giraftron believes all other animals are irrelevant when compared to the glorious majesty of the giraffe.\nDaniel: Hello, Girafatron!\nGirafatron:",
    max_length=200,
    do_sample=True,
    top_k=10,
    num_return_sequences=1,
    eos_token_id=tokenizer.eos_token_id,
)
for seq in sequences:
    print(f"Result: {seq['generated_text']}")

まとめ

最高のオープンソースモデルとして構築されたFalconは、LLaMAsの王冠を手に入れ、その強力に最適化されたアーキテクチャ、ユニークなライセンスのオープンソース、そして2つのサイズ(40Bと7Bパラメータ)で利用可能であることに人々は感嘆しています。

試してみましたか?もしそうであれば、コメントでご意見をお聞かせください。

Nisha Aryaは、VoAGIのデータサイエンティスト、フリーランスの技術ライター、およびコミュニティマネージャーです。彼女は特に、データサイエンスのキャリアアドバイスやチュートリアル、理論に基づくデータサイエンスの知識を提供することに興味があります。また、人工知能が/人間の寿命の長さにどのように役立つかを探究することを望んでいます。彼女は熱心な学習者であり、他の人々を導くことを助けながら、自分のテック知識と執筆スキルを広げることを望んでいます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「転移学習を探求しましょう...」(Ten'i gakushū o tankyū shimashou...)

転移学習については、多くの定義があります基本的には、事前学習済みモデルの知識を活用して新しい問題を解決することを指し...

人工知能

「デジタル時代のユーザーセントリックデザイン:ウェブデザインとUI/UX体験に影響を与えるトレンド」

ユーザー体験に重点を置くウェブデザインの最新トレンドを紹介しましょうダークモードの普及から3D要素の統合まで、魅力的な...

AI研究

中国の研究者がiTransformerを提案:時間系列予測のためのTransformerアーキテクチャの見直し

トランスフォーマーは、自然言語処理とコンピュータビジョンで大成功を収めた後、スケーリングのルールに従う基本モデルとな...

機械学習

Explainable AI(説明可能なAI)とInterpretable AI(解釈可能なAI)の理解

最近の機械学習(ML)の技術革新の結果、MLモデルは人間の労働を不要にするために、さまざまな分野で使用されています。これ...

機械学習

再帰型ニューラルネットワークの基礎からの説明と視覚化

再帰型ニューラルネットワーク(RNN)は、順次操作が可能なニューラルネットワークです数年前ほど人気はありませんが、重要な発...

データサイエンス

Ludwig - より「フレンドリーな」ディープラーニングフレームワーク

産業用途の深層学習については、私は避ける傾向があります興味がないわけではなく、むしろ人気のある深層学習フレームワーク...