Search Results ML

RWKVとは、トランスフォーマーの利点を持つRNNの紹介です

ChatGPTとチャットボットを活用したアプリケーションは、自然言語処理（NLP）の領域で注目を集めています。コミュニティは、アプリケーションやユースケースに強力で信頼性の高いオープンソースモデルを常に求めています。これらの強力なモデルの台頭は、Vaswaniらによって2017年に最初に紹介されたトランスフォーマーベースのモデルの民主化と広範な採用によるものです。これらのモデルは、それ以降のSoTA NLPモデルである再帰型ニューラルネットワーク（RNN）ベースのモデルを大幅に上回りました。このブログ投稿では、RNNとトランスフォーマーの両方の利点を組み合わせた新しいアーキテクチャであるRWKVの統合を紹介します。このアーキテクチャは最近、Hugging Face transformersライブラリに統合されました。 RWKVプロジェクトの概要 RWKVプロジェクトは、Bo Peng氏が立ち上げ、リードしています。Bo Peng氏は積極的にプロジェクトに貢献し、メンテナンスを行っています。コミュニティは、公式のdiscordチャンネルで組織されており、パフォーマンス（RWKV.cpp、量子化など）、スケーラビリティ（データセットの処理とスクレイピング）、および研究（チャットの微調整、マルチモーダルの微調整など）など、さまざまなトピックでプロジェクトの成果物を常に拡張しています。RWKVモデルのトレーニングに使用されるGPUは、Stability AIによって寄付されています。公式のdiscordチャンネルに参加し、RWKVの基本的なアイデアについて詳しく学ぶことで、参加することができます。以下の2つのブログ投稿で詳細を確認できます：https://johanwind.github.io/2023/03/23/rwkv_overview.html / https://johanwind.github.io/2023/03/23/rwkv_details.html トランスフォーマーアーキテクチャとRNN RNNアーキテクチャは、データのシーケンスを処理するための最初の広く使用されているニューラルネットワークアーキテクチャの1つであり、固定サイズの入力を取る従来のアーキテクチャとは異なります。RNNは、現在の「トークン」（つまり、データストリームの現在のデータポイント）、前の「状態」を入力として受け取り、次のトークンと次の状態を予測します。新しい状態は、次のトークンの予測を計算するために使用され、以降も同様に続きます。RNNは異なる「モード」でも使用できるため、Andrej Karpathy氏のブログ投稿で示されているように、1対1（画像分類）、1対多（画像キャプション）、多対1（シーケンス分類）、多対多（シーケンス生成）など、さまざまなシナリオでRNNを適用することが可能です。 RNNは、各ステップで予測を計算するために同じ重みを使用するため、勾配消失の問題により長距離のシーケンスに対する情報の記憶に苦労します。この制限に対処するために、LSTMやGRUなどの新しいアーキテクチャが導入されましたが、トランスフォーマーアーキテクチャはこの問題を解決するためにこれまでで最も効果的なものとなりました。トランスフォーマーアーキテクチャでは、入力トークンは自己注意モジュールで同時に処理されます。トークンは、クエリ、キー、値の重みを使用して異なる空間に線形にプロジェクションされます。結果の行列は、アテンションスコアを計算するために直接使用され、その後値の隠れ状態と乗算されて最終的な隠れ状態が得られます。この設計により、アーキテクチャは長距離のシーケンスの問題を効果的に緩和し、RNNモデルと比較して推論とトレーニングの速度も高速化します。トランスフォーマーアーキテクチャは、トレーニング中に従来のRNNおよびCNNに比べていくつかの利点があります。最も重要な利点の1つは、文脈的な表現を学習できる能力です。RNNやCNNとは異なり、トランスフォーマーアーキテクチャは単語ごとではなく、入力シーケンス全体を処理します。これにより、シーケンス内の単語間の長距離の依存関係を捉えることができます。これは、言語翻訳や質問応答などのタスクに特に有用です。推論中、RNNは速度とメモリ効率の面でいくつかの利点があります。これらの利点には、単純さ（行列-ベクトル演算のみが必要）とメモリ効率（推論中にメモリ要件が増えない）が含まれます。さらに、現在のトークンと状態にのみ作用するため、コンテキストウィンドウの長さに関係なく計算速度が同じままです。 RWKVアーキテクチャ RWKVは、AppleのAttention Free Transformerに触発されています。アーキテクチャは注意深く簡素化され、最適化されており、RNNに変換することができます。さらに、TokenShiftやSmallInitEmbなどのトリックが追加されています（公式のGitHubリポジトリのREADMEにトリックのリストが記載されています）。これにより、モデルのパフォーマンスがGPTに匹敵するように向上しています。現在、トレーニングを14Bパラメータまでスケーリングするためのインフラストラクチャがあり、RWKV-4（本日の最新バージョン）では数値の不安定性など、いくつかの問題が反復的に修正されました。 RNNとトランスフォーマーの組み合わせとしてのRWKV…

単一のGPUでChatgptのようなチャットボットをROCmで実行する

はじめに ChatGPTは、OpenAIの画期的な言語モデルであり、人工知能の領域で影響力のある存在となり、様々なセクターでAIアプリケーションの多様な活用を可能にしています。その驚異的な人間のようなテキストの理解力と生成力により、ChatGPTは顧客サポートから創造的な文章作成まで、さまざまな産業を変革し、貴重な研究ツールとしても使われています。 OPT、LLAMA、Alpaca、Vicunaなど、大規模な言語モデルのオープンソース化にはさまざまな取り組みが行われていますが、その中でもVicunaはAMD GPU上でROCmを使用してVicuna 13Bモデルを実行する方法を説明します。 Vicunaとは何ですか？ Vicunaは、UCバークレー、CMU、スタンフォード、UCサンディエゴのチームによって開発された13兆パラメータを持つオープンソースのチャットボットです。Vicunaは、LLAMAベースモデルを使用して、ShareGPT.comからの約70,000件のユーザー共有会話を収集し、公開APIを介してファインチューニングしました。GPT-4を参照とした初期の評価では、Vicuna-13BはOpenAI ChatGPTと比較して90%以上の品質を実現しています。それはわずか数週間前の4月11日にGithubでリリースされました。Vicunaのデータセット、トレーニングコード、評価メトリック、トレーニングコストはすべて公開されており、一般のユーザーにとって費用対効果の高いソリューションとなっています。 Vicunaの詳細については、https://vicuna.lmsys.org をご覧ください。なぜ量子化されたGPTモデルが必要なのですか？ Vicuna-13Bモデルをfp16で実行するには、約28GBのGPU RAMが必要です。メモリの使用量をさらに減らすためには、最適化技術が必要です。最近発表された研究論文「GPTQ」では、低ビット精度を持つGPTモデルの正確な事後トレーニング量子化が提案されています。以下の図に示すように、パラメータが10Bを超えるモデルの場合、4ビットまたは3ビットのGPTQはfp16と同等の精度を実現することができます。さらに、これらのモデルの大きなパラメータは、GPTトークン生成が計算（TFLOPsまたはTOPs）そのものよりもメモリ帯域幅（GB/s）によって制約されるため、GPTのレイテンシに深刻な影響を与えます。そのため、メモリに制約のある状況下では、量子化モデルはトークン生成のレイテンシを低下させません。GPTQの量子化の論文とGitHubリポジトリを参照してください。この技術を活用することで、Hugging Faceからいくつかの4ビット量子化されたVicunaモデルが利用可能です。 ROCmを使用してAMD GPUでVicuna 13Bモデルを実行する AMD GPUでVicuna 13Bモデルを実行するには、AMD GPUの高速化のためのオープンソースソフトウェアプラットフォームであるROCm（Radeon…

🐶セーフテンソルは、本当に安全であり、デフォルトの選択肢として採用されました

Hugging Faceは、EleutherAIとStability AIとの緊密な協力のもと、safetensorsライブラリの外部セキュリティ監査を依頼しました。その結果、これらの組織はすべてライブラリを保存モデルのデフォルト形式にするために進むことができます。 Trail of Bitsによって実施されたセキュリティ監査の詳細な結果は、こちらでご覧いただけます: レポート。以下のブログ投稿では、このライブラリの起源、この監査結果の重要性、および次のステップについて説明します。 safetensorsとは何ですか？ 🐶 safetensorsは、最も一般的なフレームワーク（PyTorch、TensorFlow、JAX、PaddlePaddle、NumPyなど）でテンソルを保存およびロードするためのライブラリです。具体的な説明のために、PyTorchを使用します。 import torch from safetensors.torch import load_file, save_file weights = {"embeddings": torch.zeros((10, 100))}…

Hugging FaceとIBMは、AIビルダー向けの次世代エンタープライズスタジオであるwatsonx.aiにおいてパートナーシップを結成しました

すべてのハイプを置いておくと、AIが社会とビジネスに与える深い影響を否定するのは難しいです。スタートアップから企業まで、公共部門まで、私たちが話すすべての顧客は、大規模な言語モデルと生成的AIを実験し、最も有望なユースケースを特定し、徐々に本番環境に導入することに忙しいと言っています。顧客から最もよくいただくコメントは、1つのモデルがすべてを支配するわけではないということです。彼らは、各ユースケースに最適なモデルを構築し、企業データに最大の関連性を持たせながら、計算予算を最適化する価値を理解しています。もちろん、プライバシーと知的財産も最優先の関心事であり、顧客は完全な制御を確保したいと考えています。 AIがすべての部門やビジネスユニットに浸透するにつれて、顧客は多くの異なるモデルのトレーニングと展開の必要性も認識しています。大規模な多国籍組織では、いつでも何百、何千ものモデルを実行することがあります。AIの革新のペースに応じて、より新しいパフォーマンスの高いモデルアーキテクチャは、顧客が予想よりも早くモデルを置き換えることになります。そのため、新しいモデルを迅速かつシームレスに本番環境にトレーニングおよび展開する必要性が強まります。これは、標準化と自動化のみで実現できます。組織は、新規プロジェクトのためにモデル、ツール、およびインフラをゼロから構築する余裕はありません。幸いなことに、ここ数年間ではいくつかの非常にポジティブな進展がありました：モデルの標準化：Transformerアーキテクチャは、自然言語処理、コンピュータビジョン、音声、音響などのDeep Learningアプリケーションにおいて事実上の標準となりました。今では、多くのユースケースで優れたパフォーマンスを発揮するツールやワークフローを構築することが容易になりました。事前学習済みモデル：何十万もの事前学習済みモデルがすぐに利用可能です。Hugging Face上で直接発見し、テストでき、プロジェクトに向けてすぐに有望なモデルを選定することができます。オープンソースライブラリ：Hugging Faceのライブラリを使用すると、1行のコードで事前学習済みモデルをダウンロードし、数分でデータを試すことができます。トレーニングから展開、ハードウェアの最適化まで、顧客はコミュニティ主導の一貫したツールセットに頼ることができます。これらのツールは、彼らのノートパソコンから本番環境まで、どこでも同じように動作します。さらに、私たちのクラウドパートナーシップにより、顧客はHugging Faceのモデルとライブラリをインフラストラクチャのプロビジョニングや技術環境の構築に心配することなく、任意のスケールで使用することができます。これにより、高品質なモデルを迅速に提供することが容易になり、車輪の再発明をする必要がありません。 AWSとのAmazon SageMaker、およびMicrosoftとのAzure Machine Learningとのコラボレーションに続いて、私たちはIBMとも協力して、彼らの新しいAIスタジオ、watsonx.aiでの作業に興奮しています。watsonx.aiは、従来のMLと新しい生成的AIの能力の両方をトレーニング、検証、チューニング、および展開するための次世代のエンタープライズスタジオです。これらの能力は、ファウンデーションモデルによって強化されます。 IBMは、watsonx.aiのコアにオープンソースを採用することを決定しました。私たちも同じ意見です！watsonx.aiは、RedHat OpenShift上に構築され、クラウドとオンプレミスの両方で利用できます。これは、厳格なコンプライアンスルールによりクラウドを使用できない顧客や、機密データをインフラストラクチャ上で扱うことにより快適な顧客にとって、素晴らしいニュースです。これまで、これらの顧客はしばしば社内で独自のMLプラットフォームを構築する必要がありました。しかし、彼らは今や、標準のDevOpsツールを使用して展開および管理されるオープンソースの代替品を手に入れることができます。 watsonx.aiの内部では、transformers（10万以上のGitHubスター！）、accelerate、peft、およびText Generation Inferenceサーバーなど、Hugging Faceのオープンソースライブラリが多数統合されています。私たちはIBMと協力し、watsonx AIおよびデータプラットフォームに取り組んでいます。これにより、Hugging Faceの顧客は、Hugging…

Hugging Faceは、Microsoftとの協力により、Azure上でHugging Faceモデルカタログを開始します

本日、Hugging FaceはMicrosoftとの協力を拡大し、Hugging Face HubからオープンソースモデルをAzure Machine Learningにもたらすことを発表しました。私たちが共同で新しいHugging Face Hubモデルカタログを作成し、Azure Machine Learning Studio内で直接利用できるようにしました。このカタログには、Hugging Face Hubからの最も人気のあるTransformersモデルが数千点含まれています。この新しい統合により、数クリックでHugging Faceモデルを管理されたエンドポイントにデプロイし、安全かつスケーラブルなAzureインフラ上で実行することができます。この新しいエクスペリエンスは、昨年Azure Marketplaceで新しい管理アプリとしてAzure Machine Learning Endpointsを立ち上げた際に発表した戦略的パートナーシップを拡大しています。以前のマーケットプレースのソリューションは有望な初期段階でしたが、Azure Machine Learning内でのネイティブな統合を通じてのみ克服できる制約がありました。これらの課題に対処し、お客様のエクスペリエンスを向上させるために、私たちはMicrosoftと協力して、Azure Machine Learning Studio内のHugging…

Amazon SageMakerのHugging Face LLM推論コンテナをご紹介します

これは、オープンソースのLLM（Large Language Model）であるBLOOMをAmazon SageMakerに展開し、新しいHugging Face LLM Inference Containerを使用して推論を行う方法の例です。Open Assistantデータセットで訓練されたオープンソースのチャットLLMである12B Pythia Open Assistant Modelを展開します。この例では以下の内容をカバーしています：開発環境のセットアップ新しいHugging Face LLM DLCの取得 Open Assistant 12BのAmazon SageMakerへの展開モデルを使用して推論およびチャットを行う…

AI音声認識をUnityで

はじめにこのチュートリアルでは、Hugging Face Unity APIを使用してUnityゲームに最先端の音声認識を実装する方法を案内します。この機能は、コマンドの実行、NPCへの話しかけ、アクセシビリティの向上、音声をテキストに変換する必要がある他の機能など、さまざまな用途で使用することができます。自分自身でUnityで音声認識を試してみるには、itch.ioでライブデモをチェックしてください。前提条件このチュートリアルでは、Unityの基本的な知識があることを前提としています。また、Hugging Face Unity APIをインストールしている必要があります。APIの設定手順については、以前のブログ記事を参照してください。手順 1. シーンの設定このチュートリアルでは、プレイヤーが録音を開始および停止でき、その結果がテキストに変換される非常にシンプルなシーンを設定します。まず、Unityプロジェクトを作成し、次の4つのUI要素を持つキャンバスを作成します。開始ボタン：録音を開始します。停止ボタン：録音を停止します。テキスト（TextMeshPro）：音声認識の結果が表示される場所です。 2. スクリプトの設定 SpeechRecognitionTestという名前のスクリプトを作成し、空のGameObjectにアタッチします。スクリプト内で、UIコンポーネントへの参照を定義します。 [SerializeField]…

ファルコンはHugging Faceのエコシステムに着陸しました

イントロダクションファルコンは、アブダビのテクノロジーイノベーション研究所が作成し、Apache 2.0ライセンスの下で公開された最新の言語モデルの新しいファミリーです。特筆すべきは、Falcon-40Bが多くの現在のクローズドソースモデルと同等の機能を持つ、初めての「真にオープンな」モデルであることです。これは、開発者、愛好家、産業界にとって素晴らしいニュースであり、多くのエキサイティングなユースケースの扉を開くものです。このブログでは、ファルコンモデルについて詳しく調査し、まずそれらがどのようにユニークであるかを説明し、その後、Hugging Faceのエコシステムのツールを使ってそれらの上に構築することがどれほど簡単かを紹介します。目次ファルコンモデルデモ推論評価 PEFTによるファインチューニング結論ファルコンモデルファルコンファミリーは、2つのベースモデルで構成されています：Falcon-40Bとその弟であるFalcon-7Bです。 40Bパラメータモデルは現在、Open LLM Leaderboardのトップを占めており、7Bモデルはそのクラスで最高のモデルです。 Falcon-40BはGPUメモリを約90GB必要としますが、それでもLLaMA-65Bよりは少なく、Falconはそれを上回します。一方、Falcon-7Bは約15GBしか必要とせず、推論やファインチューニングは一般的なハードウェアでも利用可能です。 (このブログの後半では、より安価なGPUでもFalcon-40Bを利用できるように、量子化を活用する方法について説明します！) TIIはまた、モデルのInstructバージョンであるFalcon-7B-InstructとFalcon-40B-Instructを提供しています。これらの実験的なバリアントは、命令と会話データに適応された調整が行われているため、人気のあるアシスタントスタイルのタスクに適しています。モデルを素早く試してみたい場合は、これらが最適な選択肢です。…

ギャラリー、図書館、アーカイブ、博物館向けのHugging Face Hub

ギャラリー、図書館、アーカイブ、博物館のためのハギングフェイスハブハギングフェイスハブとは何ですか？ Hugging Faceは、高品質な機械学習を誰にでもアクセス可能にすることを目指しています。この目標は、広く使われているTransformersライブラリなどのオープンソースのコードライブラリを開発すること、無料のコースを提供すること、そしてHugging Faceハブを提供することなど、さまざまな方法で追求されています。 Hugging Faceハブは、人々が機械学習モデル、データセット、デモを共有しアクセスできる中央リポジトリです。ハブには19万以上の機械学習モデル、3万3000以上のデータセット、10万以上の機械学習アプリケーションとデモがホストされています。これらのモデルは、事前学習済みの言語モデル、テキスト、画像、音声分類モデル、物体検出モデル、さまざまな生成モデルなど、さまざまなタスクをカバーしています。ハブにホストされているモデル、データセット、デモは、さまざまなドメインと言語をカバーしており、ハブを通じて利用できる範囲を拡大するための定期的なコミュニティの取り組みが行われています。このブログ記事は、ギャラリー、図書館、アーカイブ、博物館（GLAM）セクターで働く人々がハギングフェイスハブをどのように利用して貢献できるかを理解することを目的としています。記事全体を読むか、最も関連のあるセクションにジャンプすることができます！ハブが何か分からない場合は、「ハギングフェイスハブとは何ですか？」から始めてください。ハブで機械学習モデルを見つける方法を知りたい場合は、「ハギングフェイスハブの使用方法：ハブで関連するモデルを見つける方法」から始めてください。ハブでGLAMデータセットを共有する方法を知りたい場合は、「ウォークスルー：GLAMデータセットをハブに追加する方法」から始めてください。いくつかの例を見たい場合は、「ハギングフェイスハブの使用例」をチェックしてください。ハギングフェイスハブで何を見つけることができますか？モデル Hugging Faceハブは、さまざまなタスクとドメインをカバーする機械学習モデルへのアクセスを提供しています。多くの機械学習ライブラリがHugging Faceハブとの統合を持っており、これらのライブラリを介して直接モデルを使用したりハブに共有したりすることができます。データセット Hugging Faceハブには3万以上のデータセットがあります。これらのデータセットには、テキスト、画像、音声、マルチモーダルなど、さまざまなドメインとモダリティがカバーされています。これらのデータセットは、機械学習モデルのトレーニングや評価に価値があります。スペース Hugging Face…

はい、トランスフォーマーは時系列予測に効果的です（+オートフォーマー）

イントロダクション数ヶ月前、AAAI 2021のベストペーパーアワードを受賞したTime Series TransformerであるInformerモデル（Zhou, Haoyiら、2021）を紹介しました。また、Informerを使用した多変量確率予測の例も提供しました。この記事では、「Transformerは時系列予測に効果的か？」（AAAI 2023）という疑問について議論します。見ていくとわかりますが、それらは効果的です。まず、Transformerは確かに時系列予測に効果的であることを経験的に証明します。私たちの比較では、線形モデルであるDLinearが主張されるほど優れていないことが示されています。線形モデルと同じ設定の同等の大きさのモデルと比較した場合、Transformerベースのモデルは私たちが考慮するテストセットのメトリックでより優れた性能を発揮します。その後、Informerモデルの後にNeurIPS 2021で発表されたAutoformerモデル（Wu, Haixuら、2021）を紹介します。Autoformerモデルは現在🤗 Transformersで利用できます。最後に、Autoformerの分解層を使用するシンプルなフィードフォワードネットワークであるDLinearモデルについて説明します。DLinearモデルは、「Transformerは時系列予測に効果的か？」という論文で初めて紹介され、Transformerベースのモデルを時系列予測で上回ると主張されています。さあ、始めましょう！ベンチマーキング – Transformers vs. DLinear 最近AAAI 2023で発表された「Transformerは時系列予測に効果的か？」という論文では、著者らはTransformerが時系列予測に効果的ではないと主張しています。彼らは、DLinearと呼ばれるシンプルな線形モデルとTransformerベースのモデルを比較しています。DLinearモデルはAutoformerモデルの分解層を使用しており、後ほどこの記事で紹介します。著者らは、DLinearモデルがTransformerベースのモデルを時系列予測で上回ると主張しています。本当にそうなのでしょうか？さあ、確かめましょう。上記の表は、論文で使用された3つのデータセットにおけるAutoformerモデルとDLinearモデルの比較結果を示しています。結果からわかるように、Autoformerモデルは3つのデータセットすべてでDLinearモデルを上回っています。次に、上記の表のTrafficデータセットを使用してAutoformerモデルとDLinearモデルを比較し、得られた結果の説明を提供します。要約: 簡単な線形モデルは一部の場合において有利ですが、ユニバリエートの設定では変数を組み込む能力がTransformerのようなより複雑なモデルに比べてありません。 Autoformer…

Learn more about Search Results ML - Page 357