Search Results 比較

ドメイン固有アプリケーションのためのLLM細かい調整戦略

「LLMファインチューニングとは何か、LLMをドメイン特化アプリケーションに適応する方法、ファインチューニングの種類などを理解する」

空からのパイ：ドローンスタートアップがピザ、薬物、そして興奮をお届けします

ジップラインは、ただの空飛ぶドローンのスタートアップではありません。このサンフランシスコを拠点とする企業は、2011年の開始以来、7つの国で80万回以上の配送を完了しました。最近では、シアトルのパリャッチピザ、ビタミン・サプリメントの巨大企業であるGNC、およびIntermountain Health、OhioHealth、Michigan Medicineなどの大規模な医療システム向けにもサービスを追加しました。ジップラインは、NVIDIA JetsonエッジAIおよびロボティクスプラットフォームを使用して、自律的なナビゲーションと精密な着陸ができるドローンを開発しました。これらのドローンは現在までで5500万マイル以上を飛行しています。この急成長を遂げている企業は最近、43億ドル以上の評価額で3億3000万ドルの資金調達に成功しました。ジップラインは、技術的なサポートとAIプラットフォームのガイダンスを提供するプログラムであるNVIDIA Inceptionのメンバーです。ジェットソンパワードフリートでの配送同社のP1ドローン（プラットフォーム1）は、7年間の稼働を経て実稼働に移行しており、現在はJetson Xavier NXシステムオンモジュールを使用してセンサー入力を処理しています。GPS、航空交通管制の通信、慣性計測ユニットセンサー、および搭載された検出および回避システムによって誘導され、安全性のためにガイダンスの冗長性も持っています。ジップラインの固定翼ドローンは、55マイル以上を時速70マイルで飛行し、いくつかのジップラインの配送センターから配送を行い、その後戻ることができます。最大4ポンドの貨物を運ぶことができ、自律的に配送場所を飛び越え、パラシュートで目的地に向かってパッケージを降ろすことができます。 P2ドローン（プラットフォーム2）は、固定翼飛行で高速に飛行できるハイブリッドドローンであり、またホバリングも可能です。10マイルの距離で8ポンドの貨物を運び、細かな配置を完了するために、テザーで下げるドロイドを搭載しています。これは、密集した都市環境での使用を想定しています。 P2には2つのJetson Orin NXモジュールが使用されています。1つはドローンの環境を理解するためのセンサーフュージョンシステム用です。もう1つはテザーによって降下するドロイド内にあり、追加の安全性のための冗長性を提供します。ジップラインのP2ドロイドでは、最小かつ最も素早く、最も安全で最も静かなドローンを使って精密なデリバリーを実現することを目指しています。ジップラインは世界中で毎秒70回のデリバリーを行っています。多数の顧客に向けて飛び立つジップラインのサービスには顧客が惹かれる利点があります。同社によれば、そのドローンは車両の配送に比べて7倍速い配達時間を実現しています。「当社の航空機は時速70マイルで飛行しますので、交通渋滞や信号待ちの心配はありません。配送時間は数分です」とマーダールは語ります。「配達には一桁の分数の時間がかかりますので、確かに他の方法よりも速いです。」ピザ、ビタミン、薬の配送だけでなく、ジップラインはWalmart、レストランチェーンのSweetgreen、Michigan…

需要予測のNixtlaへの紹介

正確な予測は、情報を基にした意思決定を行い、競争に先んじるために、今日の急速に変化するビジネスの景色において重要な役割を果たしますNixtla Verseを紹介しますこれは、...

AIの新たなフロンティアを探る：Google DeepMindのReSTEM自己学習による機械学習の進化に関する研究

大型の言語モデル（LLMs）は、人間レベルのテキストを生成し、さまざまな言語タスクを実行する驚異的な能力によって、ディープラーニングを変革しています。高品質な人間データを入手することは、興味のあるタスクの性能をさらに向上させるための敷居となっています。特に、多くのリソースと専門知識を必要とする複雑な問題解決の割り当てには負担がかかります。この障害を克服するために、モデル生成の合成データは、その品質が保証される場合にはスケーラブルかつ手頃な解決策として有望です。この研究では、Google DeepmindとMilaの研究者は、LLMsが作成されたデータを自己評価できる場合でも、外部のスカラーフィードバック信号が各生成サンプルの品質指標として機能するより簡単なシナリオを調査しています。研究チームは、言語モデルのための直感的で効果的なセルフトレーニング技術を提案しています。この手法は、2つのスキルのみを必要とします：1）モデルからサンプルを作成すること、および2）これらのサンプルをスコアリングメカニズムを使用して評価すること。このアプローチにより、モデルが生成したデータによるトレーニングを研究することができます。研究チームは、Reinforced Self-Trainingの呼び方を使い、この技術をReST𝐃𝑀と呼んで一貫性と明確性を実現しています。研究チームは、ReST𝐃𝑀を強化学習のための期待最大化と考えることができる方法を示しています。具体的には、ReST𝐃𝑀は以下のように期待値と最大値のフェーズを切り替えています：1. 生成（Eステップ）：入力コンテキストごとに、言語モデルは複数の出力サンプルを生成します。その後、研究チームはこれらのサンプルを2値報酬を使用してフィルタリングしてトレーニングデータセットを収集します。2. 改善（Mステップ）：元の言語モデルは、前の生成フェーズからのトレーニングデータセットを使用して監視および微調整されます。次の生成フェーズでは、調整されたモデルが使用されます。ReST𝐃𝑀およびその派生版は、機械翻訳、意味解析、および好みの整合において、言語モデルの向上に効果的であることが示されています。 ReST𝐃𝑀は、主に非常に小さな言語モデル（最大7Bのパラメータまで）で従来の研究で使用され、より大きなモデルに対しては限定的なスケーラビリティがありました。彼らの研究は、モデルによって作成された合成データと人間提供データのスケーラビリティと効果を比較することにより、これらの取り組みを補完することを意図しています。具体的には、コード生成（APPS）および競技レベルの数学的問題解決（MATH）という2つの難しいが研究されていないドメインで、パLM 2モデルに対してReST𝐃𝑀を適用することで、数学的な推論力とコード生成のスキルが大幅に向上することを示しています。驚くべきことに、モデルによって作成された人工データで改良されたモデルは、人間が提供したデータでトレーニングされたモデルよりもはるかに優れた性能を発揮します。さらに、ReST𝐃𝑀の数サイクル後に改善が低下し、トレーニングケースの数に過学習の可能性が示唆されています。また、ReST𝐃𝑀を使用して最適化されたモデルは、pass@kおよび多数決の機能を向上させます。最後に、これらの改良されたモデルは、ビッグベンチハードタスク、コーディング（ヒューマン評価）、および算術問題（GSM8KおよびハンガリーHS決勝）を含む類似したが異なるベンチマークでのパフォーマンスも向上しています。最後に、ReST𝐸𝑀の微調整におけるトレーニング問題、反復回数、およびモデル生成ソリューションの量の影響を調査するための削除研究が行われています。

ミストラルの最先端言語モデル、Mixtral 8x7bをご紹介しますGPT-3.5を超えるオープンアクセスAIです

大容量の言語モデルの領域は、Mixtral 8x7bの登場により、大きな進歩を遂げました。 Mistral AIは、印象的な機能と独自のアーキテクチャを持つこの新しいモデルを開発しました。このモデルは、Transformerモデルにおいて革新的なアプローチであるフィードフォワードレイヤーをスパースなエキスパート混合 (MoE) レイヤーで置き換えています。 Mixtral 8x7bは、1つのフレームワーク内に8つのエキスパートモデルを持つモデルです。このモデルはMixture of Experts（MoE）であり、Mixtralは卓越したパフォーマンスを実現できます。エキスパートの混合は、モデルが著しく少ない計算能力で事前学習されることを可能にします。これにより、モデルやデータセットのサイズを大幅に拡大することができるため、計算予算を増やさずに行うことができます。 MoEレイヤーにはルーターネットワークが組み込まれており、どのエキスパートがどのトークンを効率的に処理するかを選択します。12Bパラメータの密なモデルよりも4倍のパラメータを持っているにもかかわらず、Mixtralのモデルは、各タイムステップごとに2つのエキスパートが選択されるため、高速でデコードできます。 Mixtral 8x7bは32,000トークンのコンテキスト長の容量を持ち、Llama 2 70Bを上回り、さまざまなベンチマークでGPT3.5と比較可能または優れた結果を示しています。研究者は、このモデルがさまざまなアプリケーションに対して柔軟に対応できると述べています。それは多言語対応であり、英語、フランス語、ドイツ語、スペイン語、イタリア語で流暢さを示しています。また、コーディングの能力も優れており、HumanEvalテストで40.2%のスコアを獲得し、包括的な自然言語処理ツールであることが確認されました。 Mixtral Instructは、MT-BenchやAlpacaEvalなどの業界標準でのパフォーマンスを示しました。MT-Benchでは、他のどのオープンアクセスモデルよりも優れたパフォーマンスを発揮します。また、7,000,000,000のパラメータを持っているにもかかわらず、このモデルは8つのアンサンブルのように機能します。56,000,000,000のスケールには達しませんが、総パラメータ数はおよそ45,000,000,000です。また、Mixtral Instructはインストラクションやチャットモデルの領域で優れた性能を発揮し、その支配的な地位を確立しています。 Mixtral Instructのベースモデルには、他のベースモデルと整合する特定のプロンプト形式がありません。この柔軟性により、ユーザーは入力シーケンスをスムーズに信憑性のある継続に拡張したり、ゼロショット/フューショットの推論に利用したりすることができます。ただし、事前トレーニングのデータセットの寸法、構成、および前処理方法についての完全な情報はまだ不明です。同様に、Mixtral InstructモデルのDPO（ドメイン提供目的）およびSFT（いくつかのファインチューニング）に使用されるファインチューニングデータセットと関連するハイパーパラメータも不明です。要約すると、Mixtral…

『ジェネラティブAIの電力消費の定量化』

更新日：2023年12月11日—アナウンスメントにおいてAMDが予想する売上高の倍増を反映するため、アナウンスメントの付録に改訂された分析Generative AIにはグラフィックス処理ユニット（GPU）が必要であり、それらはたくさん必要とされます計算が…

「なぜマイクロソフトのOrca-2 AIモデルは持続可能なAIにおいて重要な進展を示すのか？」

「マイクロソフトのOrca-2が持続可能なAIへの画期的な進歩を遂げていることを発見してください大規模な言語モデル（LLM）のエネルギー消費が激しい性質から解放されたOrca-2は、サイズよりも知的なデザインを重視することで既成概念に挑戦しますこの転換が、高度なAIを包括的で、環境負荷の少ない、影響力のあるものにする新たな可能性を示していることを学んでくださいOrca-2の意義を探り、技術の進歩と環境責任への取り組みを調和させる持続可能なAIの未来の形成における役割を探ってください」

ミストラルAIは、パワフルなスパースな専門家の

人工知能の進展に向けて、革新的なオープンモデルを提供するパイオニアであるMistral AIが、Mixtral 8x7Bを発表しました。この高品質のスパースなエキスパート混合（SMoE）モデルは、オープンウェイトを備え、この分野での重要な飛躍を示しています。伝統的なアーキテクチャやトレーニングパラダイムを逸脱し、Mistral AIは開発者コミュニティに独自のモデルを提供することで、イノベーションと多様なアプリケーションを促進することを目指しています。 Mixtral 8x7Bの概要 Mixtral 8x7Bは、デコーダーのみのモデルであり、スパースなエキスパート混合ネットワークを活用しています。8つの異なるパラメータグループを持ち、フィードフォワードブロックは各層で2つのエキスパートを動的に選択してトークンを処理し、それらの出力を加算的に組み合わせます。この革新的なアプローチにより、モデルのパラメータ数が46.7Bに増加し、コストとレイテンシの制御を維持しながら、12.9Bモデルの速度とコスト効率で動作します。スパースアーキテクチャによるフロンティアの拡大 Mistral AIは、Mixtralによるスパースアーキテクチャの使用を先駆けており、オープンモデルの限界を押し広げることへの取り組みを示しています。Mixtral内のルーターネットワークは、入力データを効率的に処理し、トークンごとに特定のパラメータグループを選択します。このパラメータの戦略的な利用は、スピードやコストを損なうことなく、性能を向上させます。これにより、MixtralはAIの領域で強力な競合相手となります。パフォーマンスメトリクス Mixtralは、Llama 2モデルおよびGPT3.5ベースモデルと比較してテストされています。結果は、Mixtralの実力を示し、Llama 2 70Bを上回り、さまざまなベンチマークでGPT3.5と同等以上の性能を発揮しています。品質対推論予算のトレードオフグラフは、Mixtral 8x7Bの効率性を示しており、Llama 2と比較して非常に効率的なモデルの一部となっています。幻想、バイアス、言語の習得 Mixtralのパフォーマンスの詳細な分析により、TruthfulQA、BBQ、およびBOLDのベンチマークにおけるその強みが明らかになります。Llama 2と比較して、Mixtralは真実性の向上とバイアスの削減を示しています。このモデルは、フランス語、ドイツ語、スペイン語、イタリア語、英語など、複数の言語に精通しています。また、読んでみてください：GPTからMistral-7Bへ：AI会話のエキサイティングな飛躍私たちの意見 Mistral…

「Pythonクライアントを使用してMyScaleを始める」

「マイスケールの基本から、テーブルの作成やインデックスの定義などを学び、上級のSQLベクトル検索までを探求してくださいなぜマイスケールを選ぶべきかも知ることができます」

『UC BerkeleyがAIフィードバックから強化学習を使って訓練されたオープンなLLMを発表』

新しいレポートでは、UCバークレーの研究者がReinforcement Learning from AI Feedback（RLAIF）を使って作成された革命的な大規模言語モデルであるStarling-7Bを紹介しています研究者たちは、このモデルが最先端の技術と手法を取り入れ、自然言語処理の領域を再定義する助けになることを期待しています研究者たちは、...

Learn more about Search Results 比較 - Page 11