Search Results OPT

「検索拡張生成のための情報検索」

「情報検索のパフォーマンスを劇的に向上させるための、3つ（と半分）のシンプルで実戦済みのヒント」

緻密に設計された履歴書は、機械学習の非常に競争力のある分野で雇用の見込みを開き、夢の仕事を確保するための切符になることがあります。この包括的なガイドでは、雇用主を感心させるために機械学習の履歴書を戦略的に最適化するための重要な洞察を提供します。プロの成功を促進し、キャリアの進展を図るための機械学習の履歴書を書く方法を学びましょう。技術的な専門知識を強調し、関連するプロジェクトを提示し、業界の知識を活用するための効果的な戦略をマスターしましょう。機械学習の履歴書の構造とフォーマット適切な形式でスキルや経験を提示することは、機械学習の履歴書が際立つために非常に重要です。構造プロフェッショナルなヘッダー簡潔な要約/目的の記述技術的なスキル教育職務経歴プロジェクト認定とトレーニング出版物とプレゼンテーション受賞と認識プロの関連性参考文献フォーマット整然としたAI MLの履歴書のための標準的な詳細を考慮してください：フォントフォントサイズ行間配置ファイルの種類関連するスキルと知識の強調…

「大規模言語モデルは本当にそのすべての層が必要なのか？このAI研究がモデルの効率を明らかにする：大規模言語モデルにおける必須コンポーネントの追求」

大規模言語モデル（LLM）の出現により、特にChatGPTの登場により、一般の人々の間で大きな関心が集まっています。これらのモデルは、膨大な量のデータでトレーニングされ、最小限の例でも文脈を学習することができます。今年、Association for Computational Linguistics（ACL）の会議で発表された論文では、文脈学習のためのモデルのスケールの重要性とLLMアーキテクチャの解釈可能性について詳しく調査しています。この研究では、MetaがGPT-3のオープンレプリカとして開発した66兆パラメータのLLMであるOPT-66Bモデルに焦点を当てています。研究者たちは、LLMのすべてのコンポーネントが文脈学習において重要であるかどうかを判断し、改善されたトレーニングの可能性のある領域についての洞察を提供することを目指して、OPT-66Bを分析しました。 LLMはTransformerアーキテクチャを使用して構築されており、アテンションメカニズムに依存しています。このメカニズムにより、モデルは現在のトークンを生成する際に、どの前のトークンに焦点を当てるべきかを予測することができます。これらのLLMは、複数のアテンションメカニズムを並列に使用するマルチヘッドアテンションを利用しています。OPT-66Bは、72のアテンションヘッドを含む64層から構成されています。マルチヘッドアテンションの出力は、各層ごとに個別のフィードフォワードネットワーク（FFN）を通過します。 OPT-66Bモデルを調査するために、研究者たちは2つの方法を使用しました。まず、各アテンションヘッドとFFNにスコアを割り当て、与えられたタスクに対する重要性を判断しました。これらのスコアを使用して、モデルをプルーニングし、一部のコンポーネントを破棄しました。驚くべきことに、パフォーマンスに影響を与えることなく、モデルのかなりの部分が削除できることがわかりました。これは、OPT-66Bや他の著名なLLMが未学習である可能性があることを示唆しています。研究者たちは、重要なアテンションヘッドがモデルの中間層に主に存在し、重要なFFNが主に後の層に存在することを発見しました。驚くべきことに、アテンションヘッドの約70％（約157億のパラメータ）を削除しても、14の異なる自然言語処理（NLP）データセット/タスクでのゼロまたはフューショットの文脈学習の能力はほとんど影響を受けませんでした。さらに、タスクとショットにわたる文脈学習に責任がある共通のアテンションヘッドのサブセットを特定し、タスクに対してタスクに依存しない機能性を示しました。さらに、ゼロまたはフューショットの文脈学習にほとんど影響を与えずに、FFNの約20％（約85億のパラメータ）を削除できることも確認しました。 2番目の解析技術では、研究者たちはOPT-66Bのすべてのアテンションヘッドが、文脈学習に関連するタスクに対してタスクに依存しない原始的な操作を実行する能力を評価しました。これらの操作には、プレフィックスの一致とコピーが含まれます。これにより、現在のトークンの前の出現を検索し、次のトークンをコピーすることができます。彼らは、一部のアテンションヘッドが両方のプリミティブに対して重要なスコアを示したことを発見しました。興味深いことに、これらのヘッドは、特定のタスクに対して重要であると特定されたアテンションヘッドとも重なっており、潜在的なコンセプトマッチングなどのより洗練された文脈学習行動に関与している可能性を示しています。この研究は、文脈学習において重要なアテンションヘッドとFFNのみが存在し、OPT-66Bや他の主要なLLMが未学習であることを示し、最近の研究で固定された事前トレーニングデータの効果に疑問が投げかけられていることに合致しています。結果は、最適なパフォーマンスを実現するために、モデルと事前トレーニングデータの量の両方を同時にスケーリングする必要があることを示唆しています。将来の調査では、指示に従うように設計された新しいLLMバリアントが同様の分析でどのような結果を示すかを探ることができます。

「GPT4Readability — リードミーをもう一度書く必要はありません」

複雑なPythonのコードベースをナビゲートすることは、特にプロジェクトに十分なドキュメンテーションがない場合には困難なタスクですこれはプログラマの生活において頻繁に起こることです幸いにも...

ハギングフェイスTGIを使用した大規模言語モデルの展開

大型言語モデル（LLM）は、ほぼ毎週新しいものがリリースされることで人気が高まり続けていますこれらのモデルの数が増えるにつれ、ホストする方法の選択肢も増えています私の…

「Langchain x OpenAI x Streamlit — ラップソングジェネレーター🎙️」

「LangchainフレームワークをStreamlitとOpenAIのGPT3モデルに統合したWebアプリを作成する方法」

「インテルCPU上での安定したディフューションモデルのファインチューニング」

拡散モデルは、テキストのプロンプトから写真のようなリアルな画像を生成するというその驚異的な能力によって、生成型AIの普及に貢献しました。これらのモデルは現在、合成データの生成やコンテンツ作成などの企業のユースケースに取り入れられています。Hugging Faceハブには、5,000以上の事前学習済みのテキストから画像へのモデルが含まれています。Diffusersライブラリと組み合わせることで、実験や画像生成ワークフローの構築がこれまで以上に簡単になりました。 Transformerモデルと同様に、Diffusionモデルをファインチューニングしてビジネスニーズに合ったコンテンツを生成することができます。初期のファインチューニングはGPUインフラストラクチャー上でのみ可能でしたが、状況は変わってきています！数か月前、インテルはSapphire Rapidsというコードネームの第4世代のXeon CPUを発売しました。Sapphire Rapidsは、ディープラーニングワークロードのための新しいハードウェアアクセラレータであるIntel Advanced Matrix Extensions (AMX)を導入しています。私たちはすでにいくつかのブログ記事でAMXの利点を実証しています：NLP Transformerのファインチューニング、NLP Transformerの推論、およびStable Diffusionモデルの推論。この投稿では、Intel Sapphire Rapids CPUクラスター上でStable Diffusionモデルをファインチューニングする方法を紹介します。わずかな例の画像のみを必要とするテキスト反転という技術を使用します。たった5つの画像だけです！さあ、始めましょう。クラスターのセットアップ Intelの友人たちが、最新のIntelプロセッサとパフォーマンス最適化されたソフトウェアスタックを使用したIntel®最適化デプロイメント環境でのワークロードの開発と実行を行うためのサービスプラットフォームであるIntel Developer Cloud（IDC）にホストされた4つのサーバーを提供してくれました。各サーバーには、2つのIntel…

「FlexGenに会おう：GPUメモリが限られている場合に大規模な言語モデル（LLM）を実行するための高スループットな生成エンジン」

大規模言語モデル（LLM）は最近、さまざまなタスクで印象的なパフォーマンスを発揮しています。生成型LLMの推論は以前にないほどの力を持っていますが、特定の困難にも直面しています。これらのモデルは数十億または数兆のパラメータを含むことがあり、それらを実行するには膨大なメモリと計算能力が必要です。例えば、GPT-175Bは、モデルの重みを読み込むために325GBのGPU RAMだけが必要です。このモデルをGPUに適合させるには、少なくとも5つのA100（80GB）のGPUと高度な並列処理技術が必要です。そのため、LLM推論に必要なリソースの削減は最近、多くの関心を集めています。 LLMは、ベンチマーキング、情報抽出、データ整形、フォーム処理、チャットボットなどのさまざまな「裏方」の操作に使用されます。この研究では、スループット志向の生成型推論という状況に焦点を当てています。企業のコーパスの全ペーパーなど、大量のトークンにわたってバッチでLLM推論を実行する必要があるため、トークン生成の遅延への感受性が低いというのがこれらのジョブの重要な特徴です。そのため、一部のワークロードでは、遅延を犠牲にしてスループットを向上させることで、リソースの必要性を低減する可能性があります。 LLM推論に必要なリソースを削減するためには、次の3つのアプローチが使用されています: 全体のメモリフットプリントを減らすためのモデル圧縮、推論のコストを分散させるための共同推論、メモリとディスク上のメモリの効果的な利用のためのオフロード。明確な制約は存在しますが、これらの戦略により、LLMの利用に必要なリソースが大幅に削減されています。最初の2つの方法の研究では、モデルがGPUメモリに収まることを前提としているため、単一の商用GPU上で175Bスケールのモデルを実行するための支援が必要です。一方、第3のカテゴリに属する最先端のオフローディングベースのシステムは、効果的なI/Oスケジューリングとテンソル配置ができないため、単一のGPU上で受け入れ可能なスループットに到達することはできません。単一の商用GPUを使用して、彼らの主な目標は高スループットの生成型推論のための効果的なオフロードメカニズムを構築することです。彼らはLLMを部分的にロードし、制約のあるGPUメモリでのLLMの演算を逐次的にオフロードして実行することができます。典型的なシステムでは、メモリの階層は3つの層に分かれています。下位レベルは遅いですが豊富で、上位レベルは速いですが希少です。小さなバッチサイズはこれらのシステムでボトルネックを引き起こす可能性があります。高バッチサイズを使用し、高価なI/O操作を複数のメモリ階層に分散させて処理と重なり合わせることで、スループット志向のシナリオでは遅延を犠牲にすることができます。ただし、遅延を犠牲にしても、制約のあるGPUメモリで高スループットの生成型推論を達成することは困難です。最初の困難は、成功するオフローディング計画を立てることです。計画では、どのテンソルをオフロードするか、3レベルのメモリ構造のどこにオフロードするか、推論中にいつオフロードするかを明確にする必要があります。生成型推論では、重み、アクティベーション、キー値（KV）キャッシュの3種類のテンソルが使用されます。アルゴリズムのバッチごと、トークンごと、レイヤごとの構造のため、計算方法はいくつかあります。これらのオプションが組み合わさって複雑な設計空間が作成されます。現在使用されているオフローディングベースの推論システムは、過度のI/Oを実行し、理論的なハードウェアの制約に比べてスループットが大幅に低下しているため、推論においては劣悪な領域となっています。効率的な圧縮アルゴリズムの作成は、2番目の問題を提起します。以前の出版物では、LLMの重みとアクティベーションは、有望な圧縮結果を示しています。ただし、高スループットの生成型推論のために圧縮とオフロードを組み合わせる場合、重みとKVキャッシュのI/Oコストとメモリ削減によって追加の圧縮戦略が推進されます。 UCB、Stanford、CMU、Meta、Yandex、ETH、HSEの研究者たちは、これらの問題を克服するために、高スループットのLLM推論のためのオフロードフレームワークであるFlexGenを共同で紹介しています。FlexGenは、GPU、CPU、ディスクからのメモリを組み合わせて、効果的なI/Oアクティビティ、潜在的な圧縮技術、および分散パイプライン並列処理を効果的にスケジュールします。彼らの貢献は以下の通りです: 計算スケジュール、テンソル配置、計算委任を考慮した潜在的なオフロードオプションの検索空間を明示的に説明します。彼らは、その検索空間がI/Oの複雑さを最適性の2つ以内に捉える計算順序を表していることを示します。次に、彼らは検索空間内でスループットを最大化するための線形計画に基づく検索アルゴリズムを作成します。再トレーニングやキャリブレーションなしに、OPT-175BのようなLLMの重みとKVキャッシュを4ビットに減らすことが可能で、ほとんどまたは全く精度の低下がありません。I/Oコストとオフロード時のメモリ使用量を低減するために適した細かいグループごとの量子化がこれを実現しています。彼らは、NVIDIA T4（16GB）GPU上でOPT-175Bを実行することで、FlexGenの効率を示します。FlexGenは、DeepSpeed Zero-InferenceやHugging Face Accelerateといった2つの最先端のオフローディングベースの推論アルゴリズムよりも大きなバッチサイズを許容することが多く、その結果、大幅に高いスループットを実現できます。以下に、PaperとGithubをご覧ください。この研究に関するすべてのクレジットは、このプロジェクトの研究者に帰属します。また、最新のAI研究ニュースや素敵なAIプロジェクトなどを共有している16k+ ML SubReddit、Discordチャンネル、およびメールニュースレターにもぜひ参加してください。 Tensorleapの解釈性プラットフォームで深層学習の秘密を解き放つこの投稿は、MarkTechPostに掲載されています。

「現実世界でのPythonのトップ10の使用例」

Pythonは使いやすさ、読みやすさ、豊富なライブラリサポートにより、ソフトウェア開発の世界を変えた多目的かつパワフルなプログラミング言語です。Pythonはさまざまなセクターでのアプリケーションにより、プログラマーや開発者の間で人気を集めています。この記事では、Pythonのトップ10の実世界での使用例をリストアップし、実際のPythonの例を示し、Pythonの学習の利点を強調します。なぜPythonを学ぶのか？ Pythonを学ぶべき理由のいくつかを以下に挙げます: 習得と利用が容易 Pythonは、習得と利用が容易で読みやすい構文を持つため、初心者にとって素晴らしい選択肢です。言語はコードの読みやすさを重視しているため、開発者は明確で簡潔なコードを記述することができます。シンプルさにより、プログラマーは基本的なプログラミングの知識をより早く習得し、より少ない困難を伴って学ぶことができます。多様性と柔軟性 Pythonを使用してさまざまなアプリケーションを構築することができます。Pythonはこれらの活動を可能にするツールとモジュールを備えており、デスクトッププログラムの構築、データの分析、機械学習モデルの構築、オンラインアプリケーションの開発などが可能です。その多様性により、開発者は他の領域に移行することができます。豊富なライブラリサポート Pythonのライブラリは、困難なタスクを簡略化することにより、開発を容易にする事前に書かれたモジュールや関数を提供します。例えば、DjangoやFlaskはWeb開発をサポートし、TensorFlowやPyTorchは機械学習をサポートします。豊富なライブラリサポートにより、開発者は既存のコードを使用して時間を節約しながら特定の問題を解決することができます。関連記事: 知っておく必要のあるトップ10のPythonライブラリ！強力なコミュニティサポート Pythonの開発者コミュニティは、世界中で強力で支援的な存在です。コミュニティは言語のためのライブラリ、フレームワーク、ツール、さらには詳細なドキュメントやチュートリアルを開発することで積極的に貢献しています。この活気あるコミュニティのおかげで、Pythonには新しいトレンドやベストプラクティスがあります。コミュニティフォーラムやディスカッションボードは、開発者が助けを求めたり、知識を交換したり、プロジェクトで協力したりする場を提供してくれます。生産性の向上 Pythonのシンプルさと幅広いライブラリサポートにより、開発者はコードをより迅速かつ効果的に記述することができます。Pythonのコード再利用の重要性により、プログラマーはモジュール化され、保守性の高いコードを作成することができます。既存のフレームワークやライブラリを利用することで、開発者は特定の問題の解決に集中することができます。高い生産性のため、Pythonは小規模から大規模なアプリケーションの両方にとって望ましい選択肢となっています。広範な産業での採用 Pythonの使用は、さまざまな産業で大幅に増えています。大企業や中小企業、学術研究機関、主要な組織がそれを利用しています。この広範な産業での受け入れにより、PythonエンジニアはWeb開発、人工知能、データサイエンス、ソフトウェア開発など、多くの仕事の選択肢を持っています。クロスプラットフォームの互換性 Windows、macOS、Linuxなど、さまざまなオペレーティングシステムで使用することができます。Pythonのクロスプラットフォームの柔軟性は、大規模なユーザーベースに到達するためにソフトウェア開発やWeb構成で非常に役立ちます。さらに、移植性があるため、プログラマーはコードを一度だけ書く必要があります。 Pythonを学ぶのにかかる時間についての記事もチェックしてください！実世界でのPythonの主な用途 Pythonは実世界にさまざまな利益をもたらす多目的なプログラミング言語です。以下はPythonのトップ10の用途です: Web開発データサイエンス…

Pythonを使用して地理的な巡回セールスマン問題を解決する

有名な巡回セールスマン問題（TSP）は、ノード（都市）の集合間で最適な経路を見つけ、出発地に戻ることに関するものです簡単なように聞こえますが、解くことは不可能です...

Learn more about Search Results OPT - Page 94