Learn more about Search Results AMPL - Page 10

「Amazon SageMaker ClarifyとMLOpsサービスを使用して、LLM評価をスケールで運用化する」

ここ数年、大規模言語モデル(LLM)は類稀なる能力を持ち、テキストの理解、生成、操作が可能な優れたツールとして注目されてきましたその潜在能力は、会話エージェントからコンテンツ生成、情報検索まで広範囲にわたり、あらゆる産業を革新する可能性を秘めていますしかし、この潜在能力を生かす一方で、責任ある利用と...

「Amazon SageMakerスマートシフティングを使用して、ディープラーニングモデルのトレーニングを最大35%高速化」

今日の急速に進化する人工知能の風景において、ディープラーニングモデルは革新の最前線に位置しており、コンピュータビジョン(CV)、自然言語処理(NLP)、および推薦システムなどの応用分野で使用されていますしかし、これらのモデルの学習や微調整に伴うコストの上昇は、企業にとって課題となっていますこのコストは主に[…]によって引き起こされています

アップルの研究者がパラレルスペキュラティブサンプリング(PaSS)を紹介:言語モデルの効率とスケーラビリティにおける飛躍

EPFLの研究者は、Appleとの共同研究で、Parallel Speculative Sampling(PaSS)と呼ばれる仕様採取の新たなアプローチを導入しました。この新たなアプローチにより、単一のモデルを使用して複数のトークンを同時に起草することが可能となり、自己回帰生成と仕様採取の利点を組み合わせることができます。PaSSの評価では、テキストとコードの補完のタスクで有望なパフォーマンスが示されており、モデルの品質を損なうことなく、先読み埋め込みの数がアプローチに与える影響も探求され、最適な数値が見つかりました。 PaSSは、仕様採取の制約事項に対処するために提案されたもので、同じトークナイザを使用する2つのモデルが必要な仕様採取と比較して、単一のモデルで複数のトークンの起草が可能です。自己回帰生成とベースラインメソッドとの比較評価により、PaSSの優れたスピードとパフォーマンスが示されています。テキストとコードの補完のタスクでのテストでは、全体的なモデルの品質を損なうことなく、有望な結果が得られました。また、異なるサンプリング手法を使用したベースラインとの比較により、サンプリングスキームと先読み埋め込みがPaSSのパフォーマンスに与える影響も探求されました。 大規模言語モデルは、自己回帰生成による自然言語処理の制約事項があります。生成されるトークンごとに順方向のパスが必要となり、メモリアクセスと処理時間に影響を与えます。仕様採取は解決策を提供するものの、同じトークナイザを使用する2つのモデルが必要となり、ボトルネックを導入します。PaSSは、2段階の並列デコーディングを利用する方法です。1つ目のトークンは、却下された場合の分布マッチングのために起草から除外され、モデルは並列デコーディングを使用して複数のトークンを同時に生成します。この方法により、全体的なモデルの品質を維持しながら、優れたスピードとパフォーマンスが実現されます。 PaSSは、自己回帰生成と比較して最大30%の高速化が見込まれる言語モデルの生成において、モデルのパフォーマンスを適正範囲内に維持しながら、低い分散性と高い予測性を持つトークンを生成する効果的な手法として証明されています。テキストとコードの補完のタスクにおいてPaSSのパフォーマンスを評価することで、その有効性が実証されています。さらなる改善点として、より高いパフォーマンス向上を目指して、より優れた先読みチケットを利用する方法が提案されています。 将来の研究の方向としては、先読みトークンを利用した並列生成の品質向上を探求することが推奨されており、PaSSのパフォーマンス向上のための有望な手法とみなされています。研究者は、先読みステップ数がPaSSに与える影響についてさらなる調査が必要であると強調しており、ステップ数の増加がアプローチの利点を相殺する可能性があると指摘しています。

Amazon SageMakerノートブックのジョブをスケジュールし、APIを使用してマルチステップノートブックのワークフローを管理します

Amazon SageMaker Studioは、データサイエンティストが対話的に構築、トレーニング、展開するための完全に管理されたソリューションを提供しますAmazon SageMakerのノートブックジョブを使用すると、データサイエンティストはSageMaker Studioで数回クリックするだけで、ノートブックを必要に応じて実行するか、スケジュールに従って実行することができますこの発表により、ノートブックをジョブとしてプログラムで実行することができます[...]

リアルタイムなSlackボットを生成的AIで構築する

「Apache NiFi、LLM、Foundation Models、およびストリーミングを使用して、クールなSlackbotを構築する方法を学びましょうモデルの選択肢と統合についても取り上げます」

「PDFドキュメントを使用したオブジェクト検出のためのカスタムDetectron2モデルの訓練と展開(パート1:訓練)」

「私は半年ほど、PDF文書を機械読み取り可能にすることで、少なくともセクションを特定するテキストである見出し/タイトルが読み取れるようにするビジネスケースを解決しようと取り組んできました」

「OpenAIモデルに対するオープンソースの代替手段の探索」

序文 AIの領域では、11月はドラマチックな展開がありました。GPTストアやGPT-4-turboのローンチ、そしてOpenAIの騒動まで、まさに忙しい一ヶ月でした。しかし、ここで重要な問題が浮かび上がります:クローズドモデルとその背後にいる人々はどれだけ信頼できるのでしょうか?自分が実際に運用しているモデルが内部の企業ドラマに巻き込まれて動作停止するのは快適な体験とは言えません。これはオープンソースモデルでは起こらない問題です。展開するモデルには完全な管理権限があります。データとモデルの両方に対して主権を持っています。しかし、OSモデルをGPTと置き換えることは可能でしょうか?幸いなことに、既に多くのオープンソースモデルが、GPT-3.5モデル以上の性能を発揮しています。本記事では、オープンソースのLLM(Large Language Models)およびLMM(Large Multi-modal Models)の最高の代替品をいくつか紹介します。 学習目標 オープンソースの大規模言語モデルについての議論。 最新のオープンソース言語モデルとマルチモーダルモデルについての探求。 大規模言語モデルを量子化するための簡易な導入。 LLMをローカルおよびクラウド上で実行するためのツールやサービスについて学ぶ。 この記事は、データサイエンスブログマラソンの一環として公開されました。 オープンソースモデルとは何ですか モデルがオープンソースと呼ばれるのは、モデルの重みとアーキテクチャが自由に利用できる状態にあるからです。これらの重みは、例えばMeta’s Llamaのような大規模言語モデルの事前訓練パラメータです。これらは通常、ファインチューニングされていないベースモデルやバニラモデルです。誰でもこれらのモデルを使用し、カスタムデータでファインチューニングして下流のアクションを実行することができます。 しかし、それらはオープンなのでしょうか?データはどうなっているのでしょうか?多くの研究所は、著作権に関する懸念やデータの機密性の問題などの理由から、ベースモデルの訓練データを公開しません。これはまた、モデルのライセンスに関する部分にも関連しています。すべてのオープンソースモデルは、他のオープンソースソフトウェアと同様のライセンスが付属しています。Llama-1などの多くのベースモデルは非商用ライセンスとなっており、これらのモデルを利用して収益を上げることはできません。しかし、Mistral7BやZephyr7Bなどのモデルは、Apache-2.0やMITライセンスが付属しており、どこでも問題なく使用することができます。 オープンソースの代替品 Llamaのローンチ以来、オープンソースの領域ではOpenAIモデルに追いつこうとする競争が繰り広げられています。そしてその結果は今までにないものでした。GPT-3.5のローンチからわずか1年で、より少ないパラメータでGPT-3.5と同等またはそれ以上のパフォーマンスを発揮するモデルが登場しました。しかし、GPT-4は依然として理性や数学からコード生成までの一般的なタスクには最も優れたモデルです。オープンソースモデルのイノベーションと資金調達のペースを見ると、GPT-4のパフォーマンスに近づくモデルが間もなく登場するでしょう。とりあえず、これらのモデルの素晴らしいオープンソースの代替品について話しましょう。 Meta’s Llama 2 Metaは今年7月にLlama-2という彼らの最高のモデルをリリースし、その印象的な能力により一瞬で人気を集めました。MetaはLlama-7b、Llama-13b、Llama-34b、Llama-70bの4つの異なるパラメータサイズのLlama-2モデルをリリースしました。これらのモデルは、それぞれのカテゴリにおいて他のオープンモデルを上回る性能を発揮しました。しかし、現在ではmistral-7bやZephyr-7bのような複数のモデルが、多くのベンチマークで小さなLlamaモデルを上回る性能を発揮しています。Llama-2 70bはまだそのカテゴリーで最高のモデルの一つであり、要約や機械翻訳などのタスクにおいてGPT-4の代替モデルとして価値があります。 Llama-2はGPT-3.5よりも多くのベンチマークで優れたパフォーマンスを発揮し、GPT-4に迫ることもできました。以下のグラフは、AnyscaleによるLlamaとGPTモデルのパフォーマンス比較です。…

「機械学習分類のための適合予測—基礎からのアプローチ」

このブログ投稿は、クリス・モーラーの書籍「Pythonによる確定予測のはじめに」に触発されていますクリスは、新しい機械学習技術を他の人にもわかりやすく紹介することにおいて優れています特に、私は礼服のコーディネートについてコメントしたいと思います

システムデザインのチートシート:ElasticSearch

前の記事で検索について読んだことがあれば、アプリケーションにとって検索がいかに重要かを知っているでしょう考えてみてください:毎日使用するさまざまなウェブアプリやモバイルアプリの中で、Netflixなどがあるかもしれませんが...

「解釈力を高めたk-Meansクラスタリングの改善」

「クラスタリングは、一組のオブジェクトをグループ化する非監督学習のタスクであり、同じグループ内のオブジェクトには他のグループのオブジェクトよりも類似性が高いという特徴があります広く研究されています...」

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us