Learn more about Search Results ALiBi
- You may be interested
- 5分で作成するLow-Code GPT AIアプリを作...
- 「FACTOOLにご紹介いたします:大規模言語...
- 「InstaFlowをご紹介します:オープンソー...
- すべての開発者が知るべき6つの生成AIフレ...
- (CodeGPT AIコミュニティで話題となってい...
- 『リンゴールド・ティルフォードアルゴリ...
- Imagen EditorとEditBench:テキストによ...
- 線形プログラミングを使用して最適化問題...
- 🤗 Transformersでn-gramを使ってWav2Vec2...
- 「AIは善良な存在です:その理由」
- 「Hill Climbing Algorithm in AIとは何で...
- 「MATLABとは何ですか?動作、関数、そし...
- 「LangChainとは何ですか?利用事例と利点」
- 「LangChainのチェーンとGPTモデルを使用...
- 「IIT卒業生のAIによるカバーレターが皆を...
「2023年、オープンLLMの年」
2023年には、大型言語モデル(Large Language Models、LLMs)への公衆の関心が急増しました。これにより、多くの人々がLLMsの定義と可能性を理解し始めたため、オープンソースとクローズドソースの議論も広範な聴衆に届くようになりました。Hugging Faceでは、オープンモデルに大いに興味を持っており、オープンモデルは研究の再現性を可能にし、コミュニティがAIモデルの開発に参加できるようにし、モデルのバイアスや制約をより簡単に評価できるようにし、チェックポイントの再利用によってフィールド全体の炭素排出量を低減するなど、多くの利点があります(その他の利点もあります)。 では、オープンLLMsの今年を振り返ってみましょう! 文章が長くなりすぎないようにするために、コードモデルには触れません。 Pretrained Large Language Modelの作り方 まず、大型言語モデルはどのようにして作られるのでしょうか?(もし既に知っている場合は、このセクションをスキップしてもかまいません) モデルのアーキテクチャ(コード)は、特定の実装と数学的な形状を示しています。モデルのすべてのパラメータと、それらが入力とどのように相互作用するかがリストとして表されます。現時点では、大部分の高性能なLLMsは「デコーダーのみ」トランスフォーマーアーキテクチャのバリエーションです(詳細は元のトランスフォーマーペーパーをご覧ください)。訓練データセットには、モデルが訓練された(つまり、パラメータが学習された)すべての例と文書が含まれています。したがって、具体的には学習されたパターンが含まれます。ほとんどの場合、これらの文書にはテキストが含まれており、自然言語(例:フランス語、英語、中国語)、プログラミング言語(例:Python、C)またはテキストとして表現できる構造化データ(例:MarkdownやLaTeXの表、方程式など)のいずれかです。トークナイザは、訓練データセットからテキストを数値に変換する方法を定義します(モデルは数学的な関数であり、したがって入力として数値が必要です)。トークン化は、テキストを「トークン」と呼ばれるサブユニットに変換することによって行われます(トークン化方法によっては単語、サブワード、または文字になる場合があります)。トークナイザの語彙サイズは、トークナイザが知っている異なるトークンの数を示しますが、一般的には32kから200kの間です。データセットのサイズは、これらの個々の「原子論的」単位のシーケンスに分割された後のトークンの数としてよく測定されます。最近のデータセットのサイズは、数千億から数兆のトークンに及ぶことがあります!訓練ハイパーパラメータは、モデルの訓練方法を定義します。新しい例ごとにパラメータをどれだけ変更すべきですか?モデルの更新速度はどのくらいですか? これらのパラメータが選択されたら、モデルを訓練するためには1)大量の計算パワーが必要であり、2)有能な(そして優しい)人々が訓練を実行し監視する必要があります。訓練自体は、アーキテクチャのインスタンス化(訓練用のハードウェア上での行列の作成)および上記のハイパーパラメータを使用して訓練データセット上の訓練アルゴリズムの実行からなります。その結果、モデルの重みが得られます。これらは学習後のモデルパラメータであり、オープンな事前学習モデルへのアクセスに関して多くの人々が話す内容です。これらの重みは、推論(つまり、新しい入力の予測やテキストの生成など)に使用することができます。 事前学習済みLLMsは、重みが公開されると特定のタスクに特化または適応することもあります。それらは、「ファインチューニング」と呼ばれるプロセスを介して、ユースケースやアプリケーションの出発点として使用されます。ファインチューニングでは、異なる(通常はより専門化された小規模な)データセット上でモデルに追加の訓練ステップを適用して、特定のアプリケーションに最適化します。このステップには、計算パワーのコストがかかりますが、モデルをゼロから訓練するよりも財政的および環境的にはるかにコストがかかりません。これは、高品質のオープンソースの事前学習モデルが非常に興味深い理由の一つです。コミュニティが限られたコンピューティング予算しか利用できない場合でも、自由に使用し、拡張することができます。 2022年 – サイズの競争からデータの競争へ 2023年以前、コミュニティで利用可能だったオープンモデルはありましたか? 2022年初頭まで、機械学習のトレンドは、モデルが大きければ(つまり、パラメータが多ければ)、性能が良くなるというものでした。特に、特定のサイズの閾値を超えるモデルは能力が向上するという考えがあり、これらの概念はemergent abilitiesとscaling lawsと呼ばれました。2022年に公開されたオープンソースの事前学習モデルは、主にこのパラダイムに従っていました。 BLOOM(BigScience Large Open-science…
このフィンランド拠点のAIスタートアップがポロを発表:革命的なオープンソース言語モデルは、ヨーロッパの多言語AI能力を向上させます
ヨーロッパの言語に対して、英語よりもデータが少ない場合に大規模な言語モデルを作成することは、人工知能の世界では困難です。テックワールドの企業たちはこの問題に取り組んでおり、最近、フィンランドのヘルシンキに拠点を置くスタートアップ企業がこの問題に対する新しい解決策を提案しました。 この前までは、いくつかの言語モデルが利用可能でしたが、それらは通常特定の言語に固有で、データが少ない言語に対しては性能が向上できる可能性がありました。問題は、これらのモデルがヨーロッパの各言語の固有の特性、文化、価値基盤を捉える必要があったということです。既存の解決策は限定的であり、より包括的なものが必要でした。 今では、フィンランドのAIスタートアップがPoroというオープンソースのソリューションを開発しました。これは、欧州連合の公用語である24の言語をカバーすることを目指した大規模な言語モデルです。そのアイデアは、ヨーロッパの言語の多様性を理解し表現するモデルの系列を作ることです。このスタートアップは、これがデジタル主権にとって重要であり、これらのモデルによって生み出される価値がヨーロッパにとどまるようにする必要があると考えています。 Poroは、フィンランド語などのデータが少ない言語のための言語モデルのトレーニングの課題に取り組むために設計されています。クロスリンガルトレーニングの手法を使っており、よりデータが豊富な言語(例: 英語)のデータから学び、データが少ない言語におけるパフォーマンスを向上させるのです。 Poro 34Bモデルは、342億のパラメータを持ち、ALiBiエンベッディングと呼ばれるユニークなアーキテクチャであるBLOOM変換子を使用しています。これは、PythonやJavaなどの言語やプログラミング言語をカバーする大規模なマルチリンガルデータセットでトレーニングされます。そのトレーニングは、ヨーロッパで最速のスーパーコンピュータの1つで行われ、膨大な計算能力を提供します。 スタートアップは、モデルのトレーニングプロセス中にチェックポイントをリリースし、進捗状況を示しています。Poroは30%の進捗でも最先端の結果を示しており、テストではフィンランド語において既存のモデルを上回り、英語のパフォーマンスに追いつくかそれを超える見込みです。 まとめると、Poroはヨーロッパの言語にとって、AIにおける一歩前進を意味します。パワフルな言語モデルを作成するだけでなく、オープンで透明性のある方法でこれを行い、ヨーロッパの言語と文化の多様性を尊重することが重要です。成功すれば、Poroは主要なテック企業からの言語モデルに代わる国産の選択肢となり得る可能性があります。 記事「This Finland-Based AI Startup Unveils Poro: A Revolutionary Open Source Language Model Boosting European Multilingual…
『トランスフォーマーの位置符号化の解説』
元のトランスフォーマーアーキテクチャでは、位置エンコーディングが入力と出力の埋め込みに追加されました位置エンコーディングは、トランスフォーマーにおいて重要な役割を果たし、それらが…
「非営利研究者による人工知能(AI)の進展リスト」
去年遅くから今年にかけて、2023年はAIの人々がAIアプリケーションを作成するのに最適な時期であり、これは非営利の研究者によるAIの進歩リストのおかげです。以下にそのリストを示します。 ALiBi ALiBiはTransformersにおけるテキストの推測問題に効率的に取り組む方法であり、学習に使用されたものよりも長いテキストシーケンスを推測する際に適用されます。ALiBiは実行時間に影響を与えず、追加のパラメータも必要とせず、既存のTransformerコードの数行を変更するだけで推測を行うことができる実装が容易なメソッドです。 Scaling Laws of RoPE-based Extrapolation この方法は、Transformerの推測能力を向上させるためのフレームワークです。研究者は、Rotary Position Embedding(RoPe)ベースのLLMを事前学習の文脈長でより小さなまたは大きなベースで微調整すると、より良いパフォーマンスが得られることを発見しました。 FlashAttention Transformersは、テキスト情報を処理できる強力なモデルですが、大規模なテキストシーケンスで作業する場合には大量のメモリが必要とされます。FlashAttentionは、既存の基準よりも高速でTransformerをトレーニングする、入出力(IO)を考慮したアルゴリズムです。 Branchformer Conformers(Transformerの一種)は音声処理に非常に効果的です。それらは畳み込み層とセルフアテンション層を順次使用するため、そのアーキテクチャは解釈しづらいものとなっています。Branchformerは、エンコーダの代替手法であり、柔軟で解釈可能であり、エンドツーエンドの音声処理タスクにおいて依存関係をモデル化するための並列ブランチを持っています。 Latent Diffusion Diffusion Modelsは、多くの画像処理タスクで最先端のパフォーマンスを達成するものの、計算が非常に負荷がかかります。Latent Diffusion Modelsは、Diffusion Modelsのバリエーションであり、より少ないリソースを必要としながら、さまざまな画像ベースのタスクで高いパフォーマンスを実現することができます。 CLIP-Guidance CLIP-Guidanceは、大規模なラベル付きデータセットを必要としないテキストから3D生成の新しい方法です。CLIPなどの事前学習されたビジョン言語モデルを活用し、テキストの説明と画像を関連付けることを学ぶことができるため、研究者はそれを使用して3Dオブジェクトのテキストの説明から画像を生成します。…
「AIの民主化:MosaicMLがオープンソースLLM運動に与える影響」
最近、私たちはオープンソースの大規模言語モデル(LLM)の作成に関する多くの最新の研究を概観しましたこのすべての研究の中で、共通のフレームワークを使用してモデルが作成されますが、そのうちのいくつかは…
「トランスフォーマーは長い入力をどのように扱うのか?CMUとGoogleの研究者が新しいアプローチを発表(FIRE):相対位置エンコーディングのための機能的補間」
Transformerベースの言語モデルは、近年、自然言語処理(NLP)の領域を引き上げてきました。人間らしいテキストを理解し生成する能力により、さまざまなNLPタスクで画期的な改善がもたらされました。しかし、これらのモデルには重大な欠点があります。訓練中に遭遇したものよりも長い入力シーケンスにさらされると、パフォーマンスが明らかに低下する傾向があります。現実のアプリケーションにおいてより長い文脈を管理する能力を向上させる方法を見つける必要性が、この制限によって刺激されています。 Transformerアーキテクチャ自体は潜在的に異なる入力期間を処理する能力を持っていますが、トレーニング中に使用される位置エンコーディングによって長い入力の取り扱い能力が制限されることがあります。そこで、カーネギーメロン大学、Google Research、Google DeepMindの研究者チームは、Functional Interpolation for Relative Positional Encoding(FIRE)と呼ばれる独自のアプローチを導入しました。FIREの目的は、Transformerの長い文脈の一般化能力を向上させることです。これは、新たな進行的な補間と機能的な相対位置エンコーディングの組み合わせによって実現されています。 FIREの基本的なアイデアは、シーケンス内のトークンの配置を理解するためのTransformerモデルに柔軟性のある手段を提供することです。FIREは、事前定義された位置エンコーディングスキームの代わりに、位置情報をエンコードするための動的で学習可能なメカニズムを提供します。この戦略は重要です。なぜなら、モデルが遭遇する特定の文脈とシーケンスの長さに対して、位置の理解を修正および変更することができるからです。 FIREは、Kerple、Alibi、T5のRelative Positional Encoding(RPE)など、よく使用される相対位置エンコーディング技術の一部を概念的に説明する能力も持っています。これは、FIREが現行の手法とモデルとの互換性を保持しながら、パフォーマンスを向上させるということを示しています。 長い文脈の理解が重要な状況において、FIREを装備したモデルのパフォーマンスを評価するために、さまざまなベンチマークで実験が行われました。この評価では、ゼロショットの言語モデリングや長文入力の問題などがカバーされています。この新しい手法を使用した改良モデルは、長い文脈を扱う際の汎化性能においてより優れたパフォーマンスを示しました。これは、長いシーケンスが与えられた場合、個人はより意味のあるテキストを理解し生成する能力が高まることを意味し、実用的な状況で非常に有用なスキルです。 研究者たちは、主な貢献を次のようにまとめました。 Alibi、Kerple、T5のRPEなど、一部の人気のある位置エンコーディング手法を含む、新しい機能的な相対位置エンコーディング手法であるFIREが導入されました。 FIREは、さまざまなデータセットやベンチマークにおいて、ゼロショットとファインチューニングのシナリオで現行の技術を上回るパフォーマンスを示し、高い長さの汎化性能を発揮します。C4言語モデリングの問題において、最高のベースラインを2.28パープレキシティポイント上回り、その有用性を示しました。SCROLLSの長いテキストテストでも、他の手法を平均1ポイント以上上回ります。 FIREの柔軟性により、ローカルおよび逆ローカルの位置バイアスの両方を捉える能力が向上し、学習された位置の埋め込みの視覚化によって示されます。 まとめると、FIREはTransformerモデルにおける持続的な問題に対する優れた解決策を提供します。相対位置エンコーディングは柔軟で学習可能な方法で取り組まれるため、これらのモデルは以前に経験したことのない長さの入力シーケンスに直面しても高いパフォーマンスで動作を続けることができます。
「プロダクションでのあなたのLLMの最適化」
注意: このブログ投稿は、Transformersのドキュメンテーションページとしても利用可能です。 GPT3/4、Falcon、LLamaなどの大規模言語モデル(LLM)は、人間中心のタスクに取り組む能力を急速に向上させており、現代の知識ベース産業で不可欠なツールとして確立しています。しかし、これらのモデルを実世界のタスクに展開することは依然として課題が残っています: ほぼ人間のテキスト理解と生成能力を持つために、LLMは現在数十億のパラメータから構成される必要があります(Kaplanら、Weiら参照)。これにより、推論時のメモリ要件が増大します。 多くの実世界のタスクでは、LLMには豊富な文脈情報が必要です。これにより、推論中に非常に長い入力シーケンスを処理する能力が求められます。 これらの課題の核心は、特に広範な入力シーケンスを扱う場合に、LLMの計算およびメモリ能力を拡張することにあります。 このブログ投稿では、効率的なLLMの展開のために、現時点で最も効果的な技術について説明します: 低精度: 研究により、8ビットおよび4ビットの数値精度で動作することが、モデルのパフォーマンスに大幅な低下を伴わずに計算上の利点をもたらすことが示されています。 Flash Attention: Flash Attentionは、よりメモリ効率の高いアテンションアルゴリズムのバリエーションであり、最適化されたGPUメモリの利用により、高い効率を実現します。 アーキテクチャのイノベーション: LLMは常に同じ方法で展開されるため、つまり長い入力コンテキストを持つ自己回帰的なテキスト生成として、より効率的な推論を可能にする専用のモデルアーキテクチャが提案されています。モデルアーキテクチャの中で最も重要な進歩は、Alibi、Rotary embeddings、Multi-Query Attention(MQA)、Grouped-Query-Attention(GQA)です。 このノートブックでは、テンソルの視点から自己回帰的な生成の分析を提供し、低精度の採用の利点と欠点について包括的な探索を行い、最新のアテンションアルゴリズムの詳細な調査を行い、改良されたLLMアーキテクチャについて議論します。これを行う過程で、各機能の改善を示す実用的な例を実行します。 1. 低精度の活用 LLMのメモリ要件は、LLMを重み行列とベクトルのセット、およびテキスト入力をベクトルのシーケンスとして見ることで最も理解できます。以下では、重みの定義はすべてのモデルの重み行列とベクトルを意味するために使用されます。 この投稿の執筆時点では、LLMは少なくとも数十億のパラメータから構成されています。各パラメータは通常、float32、bfloat16、またはfloat16形式で保存される10進数の数値で構成されています。これにより、LLMをメモリにロードするためのメモリ要件を簡単に計算できます: X十億のパラメータを持つモデルの重みをロードするには、おおよそ4 *…
大規模言語モデルのコード解読:Databricksが教えてくれたこと
「ファインチューニング、フラッシュアテンション、LoRa、AliBi、PEFTなどの技術を使用して、カスタムモデルを開発することにより、自分自身のエンドツーエンドのプロダクションレディなLLMワークフローの構築を学びましょう」
学生と機関のためのChatGPTプラグインで学習を向上させる
イントロダクション ChatGPTは、最も高度な会話型AIモデルの一つとして急速に注目を集めており、多様なトピックにわたって人間らしいテキストを生成する能力でユーザーを魅了しています。無料版のChatGPTは人気がありますが、学生や機関向けのChatGPTプラグインを利用することで、ユーザーは自分の体験をカスタマイズし、ウェブを閲覧し、特定の産業や興味に合わせた専門知識モジュールにアクセスすることができます。 ChatGPTプラグインは、大学や機関で学生の教育体験を向上させるためのプラットフォームを提供します。これらのプラグインは、専門ツールやリソースを取り入れることで、チャットボットの応答を特定の学術的要求に合わせることができます。プラグインによって、メインモデルの機能が拡張され、言語翻訳サービス、特定の科目に関する洞察、または難解な数学の問題の解決などが可能となります。さらに、学習の好みも異なるため、新しい改良された学習方法を促進することができます。 学習目標 ChatGPTプラグインの基本的な利用例を理解する。 学生や教育機関向けの人気で影響力のあるChatGPTプラグインのキュレートされたリストに深入りする。 学生が新しい概念を学び、問題を理解し、分析し、解決するためにこれらのプラグインを使用できる現実世界の利用例を分析する。 ChatGPTプラグインを使用したデータ分析のためのコードベースの入力と出力生成に深入りする。 この記事は、データサイエンスブログマラソンの一環として公開されました。 生成型AIとChatGPTプラグイン 生成型AIは、与えられた入力から新しい出力を生成することで、デジタルでの作成、分析、および対話を革新しました。ChatGPTは、一貫した文脈に基づいた応答を生成する能力で人気のあるプラットフォームとなっていますが、プラグインの統合により、より専門的な機能、他のソフトウェアとのシームレスな統合、そして教育機関や学生を含むさまざまな産業に対応したユーザーエクスペリエンスを提供することができます。 学生向け人気のあるChatGPTプラグイン 学生向けの人気のあるChatGPTプラグインの一部は以下の通りです: ダイアグラム:ChatGPT-4のダイアグラムプラグインは、ダイアグラムを使った視覚的な説明を容易にします。Mermaid、GraphViz、PlantUMLなどの異なる構文をサポートしています。ユーザーは説明や既存のダイアグラムへの変更を処理することができます。 ScholarAI:ScholarAIは、査読付きの学術論文や研究論文にアクセスするために使用できるプラグインです。このプラグインを使用することで、学生は関連する査読付きの研究を迅速にクエリでき、科学的な研究の改善や洞察を得るための信頼性のあるデータを確保することができます。 PDFでチャット:チャットウィズPDFは、ChatGPTを通じてインターネットからPDFファイルにアクセスし、クエリを行うことができるユーティリティです。この堅牢なユーティリティを使用すると、リンクを指定するだけでPDFから洞察を得るプロセスが簡素化されます。学生は文書の内容から質問をしたり、特定の詳細を求めることができます。 ウルフラム:ウルフラムプラグインは、ChatGPTの機能を強化し、計算ツール、数学関数、整理された情報、最新のデータ、視覚化機能に接続することで、数学の処理やデータの計算を含むさまざまな操作を行うことができます。これは、ダイアグラムなどの入力ダイアグラムから取得したデータを使用して数学を読み取り、処理、計算するといった操作と組み合わせることも可能です。 ビデオインサイト:ビデオインサイトプラグインは、リアルタイムでビデオコンテンツを分析し、価値ある洞察を得るのに役立ちます。学生は、長い講義ビデオからキーポイントの復習や要約を迅速に行い、メモを作成するためにこのプラグインを使用することができます。 オープンレクチャー:オープンレクチャープラグインは、大学レベルのコンテンツや講義にアクセスするために使用することができます。ポケットに大学の講義、書籍、学習ノートのデジタルアーカイブを所有することを目的としています。 コードインタプリタ:コードインタプリタは、AIチャットボットのデータのアップロード、コードの記述と編集、さまざまな操作と分析を行う能力を向上させるマルチ機能プラグインです。ChatGPTにデータの分析、チャートの作成、ファイルの編集、数学の計算を依頼することができます。データ分析などに使用することもできます。 ダイアグラムプラグイン Diagram Pluginとその使用方法について詳しく見てみましょう。Diagram Pluginは、複雑なアイデアやプロセスを表現するための可視化を作成するために使用できます。その機能を活用することで、学生はそれらを説明してデジタルダイアグラムを描くことができます。…
「Baichuan-13Bに会いましょう:中国のオープンソースの大規模言語モデル、OpenAIに対抗する」
中国の検索エンジンSogouの創設者、王小川氏は、彼の企業である百川インテリジェンスを通じて、新しい巨大な言語モデル「Baichuan-13B」をリリースしました。プログラマーや研究者による商業利用は現在制限されています。Sogouの創設者である王小川氏は最近、ウェイボーで「中国には独自のOpenAIが必要だ」と投稿しました。中国のビジネスマンは、彼の新興企業である百川インテリジェンスが次世代の大規模言語モデル「Baichuan-13B」をリリースしたことで、そのビジョンの実現に一歩近づいています。百川は3か月前に立ち上げられ、5,000万ドルを出資する意志を持った投資家たちを迅速に引き付けました。創設者の卓越したコンピューターサイエンスのスキルの結果、彼の組織は現在、中国で最も有望な巨大な言語モデルの創造者の一人と見なされています。 Baichuan-13Bは、GPTやほとんどの国産中国語バリアントと同じトランスフォーマーデザインに従います。中国語と英語の両方のデータでトレーニングされた13兆のパラメータ(テキスト生成と分析に使用される変数)がバイリンガルです。このモデルはオープンソースであり、営利目的で使用することができます。また、GitHubのデータを使用して構築されました。 Baichuan-7Bの成功に続き、百川インテリジェントテクノロジーは13兆のパラメータを持つ商業利用可能なオープンソースの大規模言語モデル「Baichuan-13B」を作成しました。中国語と英語の基準において、同様のサイズの競合他社を上回っています。この展開には、ベースライン(Baichuan-13B-Base)とアライメント(Baichuan-13B-Chat)のバージョンの両方が含まれています。 特徴 Baichuan-13Bは、パラメータの数を13兆に増やし、高品質のコーパスで14兆トークンをトレーニングしています。これはLLaMA-13Bよりも40%多いです。現在、オープンソースの13Bサイズでは、最もトレーニングデータのあるモデルです。ALiBi位置エンコーディングと4096バイトのコンテキストウィンドウを使用し、中国語と英語で動作します。 プレトレーニングモデルは開発者向けの「ベース」として機能し、対話機能を備えたアライメントモデルは一般ユーザーの間でより需要があります。そのため、アライメントモデル(Baichuan-13B-Chat)がこのオープンソース版に含まれており、強力な対話機能を備え、使用準備ができており、数行のコードで展開するだけで済みます。 研究者は、推論にさらに効率的なint8およびint4の量子化バージョンも提供しており、広範なユーザーの使用を促しています。これらはNvidia 3090などの消費者向けのグラフィックスカードで実装することができますが、非量子化バージョンはよりパワフルなハードウェアが必要です。 再販売や修正に制限のない一般の利用者は無料で利用できます。開発者が公式の商業ライセンスをメールで申請すると、商業目的でBaichuan-13Bを利用することができます。 Baichuan-13は約140億トークンを教えるために使用されています。OpenAIによれば、ChatGPT-3は3000億トークンでトレーニングされたとされています。百川のチームは3か月でメンバーが50人に倍増し、先月は7兆パラメータを持つモデルであるBaichuan-7Bを公開しました。2日前にリリースされたBaichuan-13Bバージョンは、ベアボーンのリリースです。研究者やプログラマーは、商業利用を認められた合法的な認可を持つ者に対して、無料で提供されています。このモデルの公式リリースの将来はまだ分かっていません。 基本モデルのBaichuan-13Bは、商業利用をするために必要な法的な許可を取得した研究者やプログラマーに対して無料で利用できます。中国の人工知能(AI)チップの製造業者に対する最近の米国の制限を考慮すると、このモデルのバリアントがNvidiaの3090グラフィックスカードなどの消費者向けハードウェアで実行される可能性があるという事実が特に注目されます。 百川インテリジェントテクノロジーの研究者は、彼らのグループがiOS、Android、Webなど、いかなるプラットフォームにもBaichuan-13Bをベースにしたアプリを作成していないことを確認しています。ユーザーには、国家や社会のセキュリティを危険にさらすなど、違法または有害な目的でBaichuan-13Bモデルを使用しないよう呼びかけています。また、必要なセキュリティ監査と申請手続きなしでBaichuan-13Bモデルをインターネットサービスに使用しないようにすることを推奨しています。彼らは、技術進歩を法の範囲内に保つために、皆さんがこのルールに従うことを期待しています。
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.