Learn more about Search Results このリンク

「2023年、オープンLLMの年」

2023年には、大型言語モデル(Large Language Models、LLMs)への公衆の関心が急増しました。これにより、多くの人々がLLMsの定義と可能性を理解し始めたため、オープンソースとクローズドソースの議論も広範な聴衆に届くようになりました。Hugging Faceでは、オープンモデルに大いに興味を持っており、オープンモデルは研究の再現性を可能にし、コミュニティがAIモデルの開発に参加できるようにし、モデルのバイアスや制約をより簡単に評価できるようにし、チェックポイントの再利用によってフィールド全体の炭素排出量を低減するなど、多くの利点があります(その他の利点もあります)。 では、オープンLLMsの今年を振り返ってみましょう! 文章が長くなりすぎないようにするために、コードモデルには触れません。 Pretrained Large Language Modelの作り方 まず、大型言語モデルはどのようにして作られるのでしょうか?(もし既に知っている場合は、このセクションをスキップしてもかまいません) モデルのアーキテクチャ(コード)は、特定の実装と数学的な形状を示しています。モデルのすべてのパラメータと、それらが入力とどのように相互作用するかがリストとして表されます。現時点では、大部分の高性能なLLMsは「デコーダーのみ」トランスフォーマーアーキテクチャのバリエーションです(詳細は元のトランスフォーマーペーパーをご覧ください)。訓練データセットには、モデルが訓練された(つまり、パラメータが学習された)すべての例と文書が含まれています。したがって、具体的には学習されたパターンが含まれます。ほとんどの場合、これらの文書にはテキストが含まれており、自然言語(例:フランス語、英語、中国語)、プログラミング言語(例:Python、C)またはテキストとして表現できる構造化データ(例:MarkdownやLaTeXの表、方程式など)のいずれかです。トークナイザは、訓練データセットからテキストを数値に変換する方法を定義します(モデルは数学的な関数であり、したがって入力として数値が必要です)。トークン化は、テキストを「トークン」と呼ばれるサブユニットに変換することによって行われます(トークン化方法によっては単語、サブワード、または文字になる場合があります)。トークナイザの語彙サイズは、トークナイザが知っている異なるトークンの数を示しますが、一般的には32kから200kの間です。データセットのサイズは、これらの個々の「原子論的」単位のシーケンスに分割された後のトークンの数としてよく測定されます。最近のデータセットのサイズは、数千億から数兆のトークンに及ぶことがあります!訓練ハイパーパラメータは、モデルの訓練方法を定義します。新しい例ごとにパラメータをどれだけ変更すべきですか?モデルの更新速度はどのくらいですか? これらのパラメータが選択されたら、モデルを訓練するためには1)大量の計算パワーが必要であり、2)有能な(そして優しい)人々が訓練を実行し監視する必要があります。訓練自体は、アーキテクチャのインスタンス化(訓練用のハードウェア上での行列の作成)および上記のハイパーパラメータを使用して訓練データセット上の訓練アルゴリズムの実行からなります。その結果、モデルの重みが得られます。これらは学習後のモデルパラメータであり、オープンな事前学習モデルへのアクセスに関して多くの人々が話す内容です。これらの重みは、推論(つまり、新しい入力の予測やテキストの生成など)に使用することができます。 事前学習済みLLMsは、重みが公開されると特定のタスクに特化または適応することもあります。それらは、「ファインチューニング」と呼ばれるプロセスを介して、ユースケースやアプリケーションの出発点として使用されます。ファインチューニングでは、異なる(通常はより専門化された小規模な)データセット上でモデルに追加の訓練ステップを適用して、特定のアプリケーションに最適化します。このステップには、計算パワーのコストがかかりますが、モデルをゼロから訓練するよりも財政的および環境的にはるかにコストがかかりません。これは、高品質のオープンソースの事前学習モデルが非常に興味深い理由の一つです。コミュニティが限られたコンピューティング予算しか利用できない場合でも、自由に使用し、拡張することができます。 2022年 – サイズの競争からデータの競争へ 2023年以前、コミュニティで利用可能だったオープンモデルはありましたか? 2022年初頭まで、機械学習のトレンドは、モデルが大きければ(つまり、パラメータが多ければ)、性能が良くなるというものでした。特に、特定のサイズの閾値を超えるモデルは能力が向上するという考えがあり、これらの概念はemergent abilitiesとscaling lawsと呼ばれました。2022年に公開されたオープンソースの事前学習モデルは、主にこのパラダイムに従っていました。 BLOOM(BigScience Large Open-science…

「ハグフェース上のトップ10大きな言語モデル」

イントロダクション Hugging Faceは、自然言語処理の愛好家や開発者にとって宝庫となり、さまざまなアプリケーションに簡単に統合できる事前学習済み言語モデルの幅広いコレクションを提供しています。Large Language Models(LLM)の世界で、Hugging Faceは頼りになるプラットフォームとして際立っています。この記事では、Hugging Faceで利用可能なトップ10のLLMモデルを紹介し、言語理解と生成の進化する景色に貢献します。 さあ、始めましょう! Mistral-7B-v0.1 Mistral-7B-v0.1は、70億のパラメータを誇る大規模言語モデル(LLM)です。これは事前学習済みの生成テキストモデルとして設計されており、Llama 2 13Bが検証されたドメインで設定したベンチマークを上回ることで知られています。このモデルは、グループ化されたクエリアテンションやスライディングウィンドウアテンションなどの注意機構に特定の選択を行ったトランスフォーマーアーキテクチャに基づいています。Mistral-7B-v0.1は、Byte-fallback BPEトークナイザーも組み込んでいます。 ユースケースとアプリケーション テキスト生成:Mistral-7B-v0.1は、コンテンツ作成、創造的な文章作成、または自動ストーリーテリングなど、高品質のテキスト生成を必要とするアプリケーションに適しています。 自然言語理解:高度なトランスフォーマーアーキテクチャと注意機構を備えたこのモデルは、感情分析やテキスト分類などの自然言語理解を必要とするタスクに適用することができます。 言語翻訳:生成能力と大規模なパラメータサイズを考慮すると、このモデルはニュアンスのある文脈に即した正確な翻訳が重要な言語翻訳タスクで優れたパフォーマンスを発揮するかもしれません。 研究開発:研究者や開発者は、さまざまな自然言語処理プロジェクトでのさらなる実験や微調整のためにMistral-7B-v0.1をベースモデルとして活用することができます。 このLLMにはこちらでアクセスできます。 Starling-LM-11B-alpha この大規模言語モデル(LLM)は、110億のパラメータを持ち、NurtureAIから生まれました。このモデルは、その基盤としてOpenChat 3.5モデルを利用し、AIのフィードバックからの強化学習(RLAIF)によるfine-tuningを経ています。このアプローチでは、ヒトによってラベル付けされたランキングのデータセットを利用してトレーニングプロセスを誘導します。 ユースケースとアプリケーション Starling-LM-11B-alphaは、マシンとの対話方法を革新する潜在的な大規模言語モデルであり、オープンソースの性質、優れたパフォーマンス、多様な機能を備えており、研究者、開発者、クリエイティブプロフェッショナルにとって貴重なツールです。…

「RetinaNetとKerasCVを使用した物体検出」

画像セグメンテーションをベースにしたミニプロジェクトを終えた後(こちらをご覧ください)、コンピュータビジョンの一環として、別の一般的なタスクに取り掛かる準備ができました:オブジェクト検出ですオブジェクト検出とは...

「Streamlitを使用してナンバープレート認識アプリを作成する」

この記事は、事前学習済みのモデルを使用して可変行のナンバープレートからテキストを抽出する解決策を簡単に説明し、Streamlitを使用してウェブアプリを構築する手順を段階的に説明します

予測保全の理解-波データ 特徴エンジニアリング(パート2)

この記事はWave Data Feature Engineeringに関する第2部です今回はスペクトル特徴に焦点を当てます追加で考えがあれば、どんどん共有してください!全体をチェックしてください...

簡単なアプリの統合に最適な安定した拡散APIのトップ5

イントロダクション APIは人工知能の時代における解決策であり、AIモデルをソフトウェアやアプリケーションに統合する際の高い計算要件を管理する企業にとって重要な課題です。その解決策として、Application Programming Interfaces(API)が存在します。APIはメンテナンスの手間を省き、ビジネスロジックとユーザーエクスペリエンスに集中できるようにしてくれます。つまり、誰でもこれらのAPIを活用してアプリを構築し、商品化できます。本記事では、画像生成に焦点を当てた一連のGenerative AIモデルであるStable Diffusion APIsについて詳しく説明します。 まずは非常に効率的かつ効果的なオプションであるSegmind APIについて見ていきましょう。これらのAPIは、開発者、デザイナー、クリエイターが視覚コンテンツの生成に取り組む方法を革新しました。トップ5のStable Diffusion APIsを探求し、その特徴、使用用途、価格などをハイライトします。 学習目標 Stable Diffusionモデルに関する洞察を得る。 Stable Diffusionモデルの基礎を理解する。それには、その応用も含まれます。 現代のソフトウェア開発におけるAPIの理解。 APIがソフトウェアおよびアプリケーションの開発を簡素化する際に果たす重要な役割の探求。 この記事はData Science Blogathonの一環として公開されました。 Stable Diffusionモデルの理解 Stable…

If you have any further questions or need assistance with anything else, feel free to ask!

多目的データキット(VDK)は、データ管理の複雑さを簡素化するために設計されたオープンソースのデータインジェスチョンおよび処理フレームワークですVDKは、さまざまなデータ統合タスクを処理できますが、以下に示すような...

「ローカルCPUで小規模言語モデルを実行するための7つの手順」

わずか7つの簡単な手順で、地元のCPUで小規模な言語モデルを実行する方法を発見しましょう

単一のマシンで複数のCUDAバージョンを管理する:包括的なガイド

私の以前の役職の一つでAIコンサルタントとして、仮想環境をPython環境を管理し、分離するツールとして利用するという課題が与えられましたこのプロジェクトはGPUに依存していることから…

シートベルトを締めてください:ファルコン180Bが登場しました!

「世界最大のオープンな言語モデルの世界に飛び込んでみましょう」

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us