Learn more about Search Results Quan et al., 2023

「2023年、オープンLLMの年」

2023年には、大型言語モデル(Large Language Models、LLMs)への公衆の関心が急増しました。これにより、多くの人々がLLMsの定義と可能性を理解し始めたため、オープンソースとクローズドソースの議論も広範な聴衆に届くようになりました。Hugging Faceでは、オープンモデルに大いに興味を持っており、オープンモデルは研究の再現性を可能にし、コミュニティがAIモデルの開発に参加できるようにし、モデルのバイアスや制約をより簡単に評価できるようにし、チェックポイントの再利用によってフィールド全体の炭素排出量を低減するなど、多くの利点があります(その他の利点もあります)。 では、オープンLLMsの今年を振り返ってみましょう! 文章が長くなりすぎないようにするために、コードモデルには触れません。 Pretrained Large Language Modelの作り方 まず、大型言語モデルはどのようにして作られるのでしょうか?(もし既に知っている場合は、このセクションをスキップしてもかまいません) モデルのアーキテクチャ(コード)は、特定の実装と数学的な形状を示しています。モデルのすべてのパラメータと、それらが入力とどのように相互作用するかがリストとして表されます。現時点では、大部分の高性能なLLMsは「デコーダーのみ」トランスフォーマーアーキテクチャのバリエーションです(詳細は元のトランスフォーマーペーパーをご覧ください)。訓練データセットには、モデルが訓練された(つまり、パラメータが学習された)すべての例と文書が含まれています。したがって、具体的には学習されたパターンが含まれます。ほとんどの場合、これらの文書にはテキストが含まれており、自然言語(例:フランス語、英語、中国語)、プログラミング言語(例:Python、C)またはテキストとして表現できる構造化データ(例:MarkdownやLaTeXの表、方程式など)のいずれかです。トークナイザは、訓練データセットからテキストを数値に変換する方法を定義します(モデルは数学的な関数であり、したがって入力として数値が必要です)。トークン化は、テキストを「トークン」と呼ばれるサブユニットに変換することによって行われます(トークン化方法によっては単語、サブワード、または文字になる場合があります)。トークナイザの語彙サイズは、トークナイザが知っている異なるトークンの数を示しますが、一般的には32kから200kの間です。データセットのサイズは、これらの個々の「原子論的」単位のシーケンスに分割された後のトークンの数としてよく測定されます。最近のデータセットのサイズは、数千億から数兆のトークンに及ぶことがあります!訓練ハイパーパラメータは、モデルの訓練方法を定義します。新しい例ごとにパラメータをどれだけ変更すべきですか?モデルの更新速度はどのくらいですか? これらのパラメータが選択されたら、モデルを訓練するためには1)大量の計算パワーが必要であり、2)有能な(そして優しい)人々が訓練を実行し監視する必要があります。訓練自体は、アーキテクチャのインスタンス化(訓練用のハードウェア上での行列の作成)および上記のハイパーパラメータを使用して訓練データセット上の訓練アルゴリズムの実行からなります。その結果、モデルの重みが得られます。これらは学習後のモデルパラメータであり、オープンな事前学習モデルへのアクセスに関して多くの人々が話す内容です。これらの重みは、推論(つまり、新しい入力の予測やテキストの生成など)に使用することができます。 事前学習済みLLMsは、重みが公開されると特定のタスクに特化または適応することもあります。それらは、「ファインチューニング」と呼ばれるプロセスを介して、ユースケースやアプリケーションの出発点として使用されます。ファインチューニングでは、異なる(通常はより専門化された小規模な)データセット上でモデルに追加の訓練ステップを適用して、特定のアプリケーションに最適化します。このステップには、計算パワーのコストがかかりますが、モデルをゼロから訓練するよりも財政的および環境的にはるかにコストがかかりません。これは、高品質のオープンソースの事前学習モデルが非常に興味深い理由の一つです。コミュニティが限られたコンピューティング予算しか利用できない場合でも、自由に使用し、拡張することができます。 2022年 – サイズの競争からデータの競争へ 2023年以前、コミュニティで利用可能だったオープンモデルはありましたか? 2022年初頭まで、機械学習のトレンドは、モデルが大きければ(つまり、パラメータが多ければ)、性能が良くなるというものでした。特に、特定のサイズの閾値を超えるモデルは能力が向上するという考えがあり、これらの概念はemergent abilitiesとscaling lawsと呼ばれました。2022年に公開されたオープンソースの事前学習モデルは、主にこのパラダイムに従っていました。 BLOOM(BigScience Large Open-science…

「読むべき創造的エージェント研究論文」

見逃せないエキサイティングな分野に関する研究論文

AIアドバイザーと計画ツール:金融、物流、それ以上を変革する

「AIアドバイザーやプランニングツールが金融、物流、医療、教育の根本的な変革を遂げる方法を探索してくださいこれらのAIシステムがどのようにデータ駆動の洞察を提供し、複雑なプロセスを最適化し、未来を形作っているのか学んでください」

「アウトライア検出手法の比較」

外れ値検出は、与えられたデータセット内の異常値(珍しい観測値)を特定するための教師なしの機械学習タスクですこのタスクは、私たちの利用可能なデータが多い現実世界のケースで役立ちます…

「エキスパートのミックスについて解説」

ミクストラル8x7Bのリリース(発表、モデルカード)により、トランスフォーマのクラスがオープンAIコミュニティで最も話題となっています。それがエキスパートの混合(Mixture of Experts、略してMoEs)です。このブログ記事では、MoEsの構成要素、トレーニング方法、および推論時の考慮事項について見ていきます。 さあ、深く掘り下げてみましょう! 目次 ミクストラルとは何ですか? MoEsの簡潔な歴史 スパース性とは何ですか? MoEsのトークンのロードバランシング MoEsとトランスフォーマ スイッチトランスフォーマ ルータZ損失によるトレーニングの安定化 エキスパートは何を学ぶのですか? エキスパートの数をスケーリングすると事前トレーニングにどのような影響を与えるのですか? MoEsの微調整 スパースMoEsと密なモデルの使用時期はいつですか? MoEsを効果的に活用するために エキスパート並列処理 能力係数と通信コスト サービングテクニック 効率的なトレーニング オープンソースのMoEs ワークのエキサイティングな方向性 いくつかのリソース…

次元性の祝福?!(パート1)

「これらの問題の1つまたは複数について、慎重に選ばれた科学者のグループが夏に一緒に取り組めば、重要な進展が期待できると私たちは考えています」と提案は述べましたジョンはまだ知りませんでしたが...

「大規模言語モデルの微調整方法:ステップバイステップガイド」

2023年、アルパカ、ファルコン、ラマ2、およびGPT-4のような大規模言語モデル(LLM)の台頭は、人工知能の民主化の傾向を示しています

「トポロジカルキュービットの物語」

エキゾチックな量子状態の振る舞いを模倣することで、量子コンピューティングは厄介なノイズやエラーを効果的に取り除く手段を得るかもしれません

デジタル図書館とインターネットアーカイブの保存

「デジタル時代における「真実とそれへのアクセス権」に関する闘い」

自律運転アプリケーションのための基本的なビジョンモデルと視覚的なプロンプトエンジニアリング

迅速なエンジニアリングは、高品質で関連性のあるテキストを生成するために大規模な言語モデル(LLM)を使用する人々にとって必須のスキルになっていますテキストのプロンプトエンジニアリングは広く議論されてきましたが、視覚的なプロンプトエンジニアリングは注目される必要がある新興の分野です視覚的なプロンプトには、バウンディングボックスやマスクなどが含まれ、ビジョンモデルが関連性のある生成をするためにガイドを提供します

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us