Learn more about Search Results Falcon - Page 9

「ジェンAIの時代:新たな始まり」

イントロダクション 急速に進化するテクノロジーの世界で、我々は新たな時代の予感に包まれています。それは、かつて人間にしか備わっていなかったような知性を持つかのように見える機械が存在する時代です。私たちはこの時代を、「ジェン・AI時代」と呼びたいと思います。この時代は、AIの成長の継続だけでなく、本当に変革的なものの始まりを象徴しています。この記事では、大規模言語モデル(LLM)の成長、それらの実用的な企業ソリューションでの応用、それらを支えるアーキテクチャやサービス、そしていくつかの優れたLLMの比較について詳しく掘り下げていきます。 学習目標: 大規模言語モデル(LLM)の成長と採用の拡大、およびジェン・AI時代の到来における役割を理解する。 LLMの実用的な企業ソリューションでの応用(コンテンツ生成、データ要約、さまざまな産業の自動化など)を特定する。 LLMの使用に関連する倫理的考慮事項と責任あるAIの実践について、ガイドライン、データプライバシー、従業員の意識などを理解する。 大規模言語モデル(LLM)の成長を探る LLMの実用的な応用に入る前に、この分野が最近どれほど成長してきたかを理解することが重要です。LLMは、マイクロソフトやグーグルなどの企業がその開発に多額の投資をしていることで、テック界隈を席巻しています。LLM APIを試験的に利用する企業数は急増しており、自然言語処理(NLP)とLLMの採用も増加しており、年間成長率は驚異の411%です。 特にインドはLLMへの投資のホットスポットとなっており、マイクロソフトやグーグルなどの主要プレイヤーがこの領域で大きな進展をしています。テック巨人たちは互いに優れたモデルを作り出すことを競い合っており、その結果、テック・マヒンドラの「インダス」というインド特化のカスタムLLMなどのイノベーションが生まれています。リライアンスもLLMレースに参入し、インド固有のアプリケーションに注力しています。この関心と投資の増加は、ジェン・AI時代の幕開けを告げています。 企業ソリューションにおけるLLMの実用的な応用 ここからは、企業ソリューションにおけるLLMの実用的な応用に焦点を移しましょう。消費者がLLMを詩やレシピの生成などの創造的なタスクに使用するのとは異なり、企業世界は異なるニーズを持っています。ここでの応用範囲は、詐欺検出のための財務データの分析から、営業やマーケティングにおける顧客行動の理解まで多岐にわたります。LLMは、コンテンツの生成、応答の自動化、さまざまなビジネス領域(金融、人事、法務、保険など)での意思決定プロセスの支援において重要な役割を果たしています。 LLMベースのソリューションのアーキテクチャとサービス LLMベースのソリューションのアーキテクチャは複雑でありながら魅力的です。LLMは要約と検索モデルです。効率的にコンテンツを処理するためには、プロンプトでそのフォーカスを定義し、トークンでコンテンツを処理する必要があります。アーキテクチャでは、Form RecognizerやFAISS Indexなどのサービスを使用して、大量のドキュメントをベクトル化して格納します。これらのサービスは、ユーザーが定義したプロンプトに基づいて類似性検索を行い、正確な応答を提供します。言語モデルとクラウドサービスの選択は、ドキュメントのサイズや場所などの要素によって異なります。 LLMの比較:OpenAI、マイクロソフト、グーグルなど OpenAI、マイクロソフト、グーグルなどのLLMを比較すると、それらが提供する多様な能力と応用が明らかになります。OpenAIのモデルであるGPT-3は、Q&Aシナリオで優れたパフォーマンスを発揮します。一方、Codexは開発者向けに特化し、自然言語をコードに変換します。DALL-Eはプロンプトに基づいて画像を生成することに特化し、ChatGPT-4はチャットボットやコールセンターなどのアプリケーションに最適な会話エンジンです。 MicrosoftのLLMスイートには、GPT-3.5などのLLMが含まれており、これらはForm Recognizerなどの他のAzureサービスと組み合わせてエンドツーエンドのソリューションを提供しています。Microsoftは、消費者の検索、マッチング、およびメール管理に焦点を当てつつ、チームやコールセンターなどの他の領域にも徐々に拡大しています。 一方、Googleは、 BARDなどのモデルを使用し、消費者および法人のニーズに対応しています。彼らの基本モデルはテキスト、チャット、コード、画像、ビデオをサポートし、会話型AIからエンタープライズ検索、Vortex AIを介したエンドツーエンドのソリューションまでさまざまなアプリケーションに対応しています。 これらの巨大なLLM以外にも、LLaMA-1-7B、Falcon、WizardLMなどの他のLLMも独自の機能とパラメータを備えています。LLMが真実の回答を提供することを保証することは、信頼性を評価する上で重要な要素です。…

ランチェーン 101:パート2d. 人間のフィードバックでLLMの微調整

これは、LangChain 101コースのモデルセクションの2Dパートであり、最後のパートですこの記事の文脈をより理解するために、最初の2つのパートを確認することを強くお勧めしますRLHF...

「Amazon SageMakerを使用して、ファルコンモデルのパフォーマンスを向上させる」

大型言語モデル(LLM)をテキスト生成AIアプリケーションのホスティングするための最適なフレームワークと設定は何ですか? LLMを提供するための選択肢が豊富であるにもかかわらず、モデルの大きさ、異なるモデルアーキテクチャ、アプリケーションのパフォーマンス要件などにより、この問題に答えることは困難です Amazon SageMaker Large Model Inference[…]

取りましょう NVIDIA NeMo SteerLMは、推論中にモデルの応答をカスタマイズすることができるようにします

開発者は、強力な大規模な言語モデル(LLMs)を自分たちの目的地に到達する際に、AIパワードステアリングホイールを利用して道路にしっかりと踏み入れることができます。 NVIDIA NeMo SteerLMは、会社がモデルの応答をプロダクション中にダイアルインするためにノブを定義することができるようにし、それを推論と呼ばれるプロセスとして実行できるようにします。LLMをカスタマイズするための現在の手法とは異なり、単一のトレーニングランは、何十も、または何百ものユースケースに対応できるモデルを作成し、時間とお金を節約することができます。 NVIDIAの研究者は、SteerLMを作成し、AIモデルにユーザーが関心を持つ内容、たとえば特定のユースケースや市場での従うべき道路標識やユーザー定義の属性を教えるために使用しました。これらの属性はほぼ何でも評価できます-例えば、モデルの応答の有用さやユーモアの程度などです。 1つのモデル、多岐にわたる用途 その結果、新たな柔軟性が生まれました。 SteerLMを使用すると、ユーザーは望む属性をすべて定義し、それらを1つのモデルに組み込むことができます。そして、モデルが実行されている間に、特定のユースケースに必要な組み合わせを選択することができます。 例えば、特定の会計、販売、またはエンジニアリング部門、または特定の市場の固有のニーズに合わせてカスタムモデルを調整することができます。 この方法は、継続的な改善サイクルも可能にします。カスタムモデルの応答は、将来のトレーニングランのデータとして使用でき、モデルをより有用なレベルに調整する際に役立ちます。 時間とお金の節約 これまで、特定のアプリケーションのニーズに合わせた生成型AIモデルの適合は、エンジンのトランスミッションを再構築するのと同等でした。開発者は、データセットに労力をかけてラベルを付け、たくさんの新しいコードを書き、ニューラルネットワークのパラメータを調整し、モデルを何度も再トレーニングする必要がありました。 SteerLMは、このような複雑で時間のかかるプロセスを次の3つの簡単なステップに置き換えます: 基本的なプロンプト、応答、および目的の属性を使用して、これらの属性のパフォーマンスを予測するAIモデルをカスタマイズする。 このモデルを使用してデータセットを自動生成する。 標準の監督付き微調整技術を使用してデータセットでモデルをトレーニングする。 多岐にわたる企業のユースケース 開発者は、SteerLMをテキスト生成を必要とするほとんどの企業のユースケースに適応させることができます。 SteerLMを使用することで、会社はリアルタイムに顧客の態度、人口統計情報、または状況に合わせて調整できる単一のチャットボットを作成することができます。さまざまな市場や地域で提供される顧客に合わせた独自の新しい体験を提供するためのツールとして、SteerLMはすぐれています。 SteerLMはまた、1つのLLMが企業全体の柔軟な執筆補助として機能することも可能にします。 例えば、法律関係者は、法的なコミュニケーションに対して公式なスタイルを採用するために、推論の間にモデルを変更することができます。また、マーケティングスタッフは、対象とする観客に対してより会話的なスタイルを選択することができます。 SteerLMでゲームをエンジョイ SteerLMの潜在能力を示すために、NVIDIAはそのクラシックアプリケーションの1つ、ゲームにおいてデモンストレーションを行いました(下記の映像をご覧ください)。 現在、いくつかのゲームには、プレーヤーが制御できないキャラクター、つまりユーザーや状況に関係なく機械的に事前録音されたテキストを繰り返す非プレイアブルキャラクターが数多く存在します。…

新しい – Amazon SageMaker Canvasで利用可能なノーコード生成AI機能が追加されました

2021年に発売されたAmazon SageMaker Canvasは、ビジネスアナリストや市民データサイエンティストが使いやすいビジュアルなポイントアンドクリックサービスで、準備された機械学習(ML)モデルを使用し、コードを書く必要なく正確な予測を行うカスタムMLモデルを構築することができます準備されたモデルにより、テキスト、画像、ドキュメントから直接的な気付きを得ることができます

このAIニュースレターはあなたが必要なものです #68

今週は、マルチモーダルの能力を持つ GPT-4 に対抗する候補として、新しいオープンソースのマルチモーダルモデルである LLaVA v1.5 の登場を目撃しましたそれはシンプルな...

「LLMファインチューニングにおけるPEFTテクニック」

イントロダクション 言語モデルまたはLLM(Language models)は、自然言語処理の世界を席巻しています。これらは人間に似たテキストを生成し、自然言語入力に対して理解し応答するために設計された強力なAIシステムです。基本的に、彼らは人間の言語理解と生成を模倣することを目指しています。LLMの微調整の複雑さを理解し、この分野を変革している革新的なPEFT(Prompt Engineering and Fine Tuning)技術を探索する旅に出かけましょう。 学習目標: 言語モデルの微調整の概念を理解する。 PEFT技術とその意義を理解する。 効率的な係数の選択のための技術を探索する。 PEFT技術の理解 まず、頭字語「PEFT」の解読を試みましょう。PEFTはパラメータ効率的な微調整を表します。しかし、この文脈ではパラメータの効率性は何を意味し、なぜ重要なのでしょうか? 機械学習では、モデルは基本的には数多くの係数または重みを持つ複雑な数学方程式です。これらの係数はモデルの振る舞いを制御し、データから学習することが可能にします。機械学習モデルを訓練する際には、これらの係数を調整してエラーを最小化し正確な予測を行います。LLMの場合は、数十億のパラメータを持つ可能性がありますので、すべての係数を訓練中に変更するのは計算コストが高くメモリを消費することになります。 ここで微調整が登場します。微調整とは、事前に訓練されたモデルを特定のタスクに適応させるプロセスです。モデルは既に言語の基本的な理解力を持っていると仮定し、特定の領域での優れた性能を発揮するように調整することに焦点を当てます。 PEFTは、微調整のサブセットとしてパラメータの効率性を重要視しています。すべての係数を変更する代わりに、PEFTはそれらのサブセットを選択し、計算やメモリの要件を大幅に減らします。効率性が重要なFalcon 7Bのような大規模なモデルのトレーニングに特に有効なアプローチです。 トレーニング、微調整、プロンプトエンジニアリング:主な違い PEFTに深く入る前に、トレーニング、微調整、プロンプトエンジニアリングの違いを明確にしましょう。これらの用語はしばしば同義に使用されますが、LLMの文脈で特定の意味を持っています。 トレーニング:モデルがゼロから作成されるとき、トレーニングが行われます。これには、モデルのすべての係数や重みを調整してデータのパターンや関係性を学習する作業が含まれます。モデルに言語の基礎を教えるということです。 微調整:微調整では、モデルが既に言語の基本的な理解力を持っている(トレーニングによって達成されたもの)と仮定しています。特定のタスクやドメインにモデルを適応させるため、目的に合わせた調整が行われます。特定の仕事(例えば質問に答えることやテキストの生成など)において、教養のあるモデルを洗練させると考えてください。 プロンプトエンジニアリング:プロンプトエンジニアリングでは、LLMが望ましい出力を提供するための入力プロンプトや質問を作成します。求める結果を得るためにモデルとのインタラクション方法をカスタマイズすることです。 PEFTは、微調整フェーズで重要な役割を果たし、モデルの係数を選択的に変更して特定のタスクでの性能を向上させます。 係数の選択のためのLoRAとQLoRAの探索…

私たちはどのように大規模な言語モデルをストリーミングアプリケーションで効率的に展開できるのでしょうか?このAI論文では、無限のシーケンス長のためのStreamingLLMフレームワークを紹介しています

大きな言語モデル(LLM)は、コード補完、質問応答、文書要約、対話システムなど自然言語処理アプリケーションのパワーとして、ますます使用されています。事前にトレーニングされたLLMは、正確かつ迅速に拡張シーケンス作成を行う必要があり、その全ての潜在能力を発揮するためには可能な限り大量のシーケンスを処理できる必要があります。例えば、最近の日中のチャットのコンテンツを信頼性を持って編集する理想的なチャットボットヘルパーです。4KのLlama-2など、事前学習されたものよりも大きなシーケンス長に一般化することは、LLMにとって非常に困難です。事前トレーニング中のアテンションウィンドウのため、LLMは制約されます。 長い入力に対してこのウィンドウの大きさを拡張し、トレーニングと推論の効果を高めるための取り組みが行われていますが、許容されるシーケンス長はまだ見直す必要があり、永続的な展開を妨げています。MIT、Meta AI、カーネギーメロン大学の研究者らは、この研究で最初にLLMストリーミングアプリケーションのアイデアを検討し、次の質問を提起しています:LLMを無限の入力ストリームに使用する際には、2つの主要な問題が浮かび上がります: 1. TransformerベースのLLMは、デコーディングステージ中にすべての前のトークンのKeyとValueの状態(KV)をキャッシュします(図1(a)参照)。これは、過剰なメモリ使用量とデコードの遅延の増加を引き起こす可能性があります。 2. シーケンスの期間が事前学習中のアテンションウィンドウサイズを超えると、既存のモデルのパフォーマンスが低下します。 図1は、StreamingLLMと以前の技術を比較しています。トークンT(T>>L)は、長さLのテキストで事前トレーニングされた言語モデルによって予測されます。(a)密なアテンションはキャッシュ容量が上昇し、時間の複雑さがO(T^2)になります。テキストの長さが事前トレーニングのテキスト長を超えるとパフォーマンスが低下します。(b)ウィンドウアテンションは、キャッシュ中で最新のLトークンのKVを保存します。推論ではパフォーマンスが良いですが、最初のトークンのキーと値が削除されると急速に悪化します。新しいトークンごとに、(c)スライディングウィンドウとリコンピューテーションは、最新のLトークンを使用してKV状態を再構築します。長いテキストの処理には優れていますが、O(T L^2)の計算量と文脈の再計算における二次関数のアテンションのため、非常に遅いです。(d)「ステディなアテンションの計算のため、StreamingLLMは最新のトークンとともに少数の初期トークンをアテンションシンクとして保持します。長いテキストに対して効果的かつ一貫して機能します。Llama-2-13Bモデルは、PG-19テストセットの最初の本(65Kトークン)におけるPerplexityを計算するために使用されます。 ウィンドウアテンションは、最新のトークンのKV状態の固定サイズのスライディングウィンドウを保持する明確な戦略です(図1b)。最初のトークンのKVを排除するだけで、シーケンス長がキャッシュ容量を超えると、モデルは崩壊します。キャッシュが最初に一杯になった後も、一貫したメモリ使用量とデコード性能を保証します。さらなる戦略として、再計算を行うスライディングウィンドウ(図1c)があります。このテクニックは、ウィンドウ内の二次関数のアテンション計算により、非常に遅くなりますが、パフォーマンスは良好です。これは、実世界のストリーミングアプリケーションには適していません。 ウィンドウアテンションの失敗を説明するための自己回帰LLMの興味深い現象を彼らは発見しました。言語モデリングのタスクと関連性に関係なく、初期トークンに驚くほど高いアテンションスコアが割り当てられています。これらのトークンは「アテンションシンク」と呼ばれ、意味的な価値はほとんどありませんが、重要なアテンションスコアを受け取ります。関連するトークンすべてにおいてアテンションスコアが1になる必要があるソフトマックス処理が原因とされています。そのため、現在のクエリが多くの以前のトークンと良い一致がない場合でも、モデルはこれらの余分なアテンション値を一に加える必要があります。 初期トークンは、シンプルな理由で注意の溜め場として使用されます: 自己回帰型言語モデリングの性質により、実質的にすべての後続トークンに対して可視性があり、トレーニングが容易です。前述の発見に基づいて、ストリーミングLLMという直感的で効果的なアーキテクチャを提案しています。これにより、有限な注意ウィンドウで準備されたLLMが、細かな調整なしで無期限のテキストに対応できるようになります。注意の消耗が高いため、StreamingLLMはこの特性を活用して注目度の分布を適度に維持します。StreamingLLMは、スライディングウィンドウのキーバリューと初期トークンの注目計算とモデルの安定性を維持するために使用されます (初期トークンはわずか4つだけ必要です)。 Llama-2-B、MPT-B、Falcon-B、およびPythiaBのようなモデルは、StreamingLLMの助けを借りて4百万トークンを正確に表現できるでしょう、さらに多くの可能性もあります。StreamingLLMは、再計算を伴うスライディングウィンドウとの比較で最大22.2倍の高速化を実現し、LLMのストリーミング使用を実現します。最後に、言語モデルはストリーミング展開に必要な注目の溜め場トークンを単一にすることが事前学習で可能であることを示しています。トレーニングサンプルの開始時に、選択した注目の溜め場を追加の学習可能なトークンとして実装することを提案しています。この単一の溜め場トークンの導入により、1億6000万パラメータからゼロから言語モデルを事前学習することで、ストリーミングインスタンスにおけるモデルのパフォーマンスを維持できます。これは、同じパフォーマンスレベルを維持するために複数の初期トークンを溜め場として再導入する必要があるバニラモデルとは対照的です。

「メタのCode Llamaコード生成モデルは、Amazon SageMaker JumpStartを介して利用可能になりました」

今日は、Metaが開発したCode Llama foundationモデルが、Amazon SageMaker JumpStartを通じて顧客に提供され、クリックひとつで推論を実行するためにデプロイできることをお知らせすることを喜んでいますCode Llamaは、コードと自然言語のプロンプトの両方からコードとコードに関する自然言語を生成することができる最新の大規模言語モデル(LLM)ですCode[…]

「AWS Trainiumを使用した高速で費用効果の高いLLaMA 2の微調整」

大型言語モデル(LLM)は、開発者、科学者、技術者、起業家、および様々な産業の経営者たちの想像力と注意を引いていますこれらのモデルは、問題解決、要約、翻訳などに使用することができ、カスタマーサポートの会話エージェント、マーケティングのためのコンテンツ作成、コーディングアシスタントなどの応用分野で活用されています最近、MetaはLlama 2をリリースしました

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us