Search Results OPT

ウェブと組み込みシステムにおけるRustの実行のための9つのルール

ユーザーの要求に応じて、私は最近、range-set-blazeというクレートをWebページ内で動作するように変換しましたまた、マイクロコントローラー（組み込み）でも動作するようにしました（range-set-blazeクレートは効率的に操作を行います...

ノイズ除去オートエンコーダの公開

はじめにデノイジングオートエンコーダーは、ノイズの混入したデータまたはノイズのあるデータから元のデータを再構築することを学習することで、ノイズを除去するニューラルネットワークモデルです。モデルを訓練して元のデータと再構築されたデータの差異を最小化します。これらのオートエンコーダーをスタックしてディープネットワークを形成することで、パフォーマンスを向上させることができます。さらに、画像、音声、テキストなど、さまざまなデータ形式に対応するためにこのアーキテクチャをカスタマイズすることもできます。また、ソルトアンドペッパーやガウシアンノイズなどのノイズを自由にカスタマイズすることもできます。DAEがイメージを再構築するにつれて、入力特徴の学習を効果的に行い、潜在表現の抽出を向上させます。通常のオートエンコーダーと比較して、デノイジングオートエンコーダーは恒等関数の学習の可能性を低減させることを強調することが重要です。学習目標デノイジングオートエンコーダー（DAE）の概要と、ノイズの種類から元のデータを再構築することで低次元表現を得るための使用方法についての概要。エンコーダーとデコーダーなど、DAEアーキテクチャの構成要素についても説明します。 DAEの性能を検証することで、ノイズの混入したデータから元のデータを再構築する役割について洞察を得ることができます。さらに、デノイジング、圧縮、特徴抽出、表現学習など、DAEのさまざまな応用について考えます。イメージデノイジングを行うためのDAEの実装に焦点を当てた具体的な例として、Kerasデータセットを使用します。この記事はData Science Blogathonの一環として公開されました。デノイジングオートエンコーダーとは何ですか？デノイジングオートエンコーダーは、データ表現やエンコーディングの非教示学習を可能にする特定のタイプのニューラルネットワークです。主な目的は、ノイズで破損した入力信号の元のバージョンを再構築することです。この能力は、画像認識や詐欺検出などの問題で、ノイズの混入した形式から元の信号を回復することが目標となります。オートエンコーダーは、次の2つの主要なコンポーネントで構成されています：エンコーダー：このコンポーネントは、入力データを低次元表現またはエンコーディングにマッピングします。デコーダー：このコンポーネントは、エンコーディングを元のデータ空間に戻します。訓練フェーズでは、オートエンコーダーにクリーンな入力例とそれに対応するノイズの混入したバージョンのセットを提供します。目的は、エンコーダー-デコーダーアーキテクチャを使用して、ノイズの入力をクリーンな出力に効率的に変換するタスクを学習することです。 DAEのアーキテクチャデノイジングオートエンコーダー（DAE）のアーキテクチャは、標準的なオートエンコーダーと似ています。次の2つの主要なコンポーネントで構成されています：エンコーダーエンコーダーは、1つまたは複数の隠れ層を備えたニューラルネットワークを作成します。その目的は、ノイズの入力データを受け取り、データの低次元表現であるエンコーディングを生成することです。エンコーダーは、入力データよりも少ないパラメータを持つエンコーディングを持つ圧縮関数として理解します。デコーダー…

ドメイン適応：事前に学習済みのNLPモデルの微調整

ドメイン適応のために事前学習済みNLPモデルの微調整方法を学びましょう特定の文脈でのパフォーマンスと精度を向上させますステップバイステップのガイドと実践的な例を提供します

Google AIがFlan-T5をオープンソース化 NLPタスクにおいてテキスト対テキストアプローチを使用するトランスフォーマーベースの言語モデル

大規模な言語モデル、例えばPaLM、Chinchilla、およびChatGPTは、自然言語処理（NLP）のタスクを実行する新たな可能性を開いています。先行研究では、指示に基づくさまざまなNLPタスクで言語モデルを微調整する指示調整が、指示を与えられた未知のタスクを実行する能力をさらに向上させることが示されています。本論文では、オープンソースの指示一般化イニシアティブのアプローチと結果を比較し、彼らの微調整手順と戦略を評価しています。この研究では、指示調整方法の詳細に焦点を当て、個々の要素を取り除いて直接比較しています。彼らは、「Flan 2022 Collection」という用語で、データ収集やデータと指示調整プロセスに適用される手法に焦点を当て、Flan 2022をPaLM 540Bと組み合わせた新興かつ最先端の結果に重点を置いたデータ収集の最も包括的なコレクションを公開しています。このコレクションには、数千のプレミアムなテンプレートとより良いフォーマットパターンが追加されています。彼らは、評価ベンチマークのすべてで、このコレクションで訓練されたモデルが、オリジナルのFlan 2021 their、T0++ their、Super-Natural Instructions their、およびOPT-IML theirのような他の公開コレクションよりも優れたパフォーマンスを発揮することを示しています。同じサイズのモデルにおいて、MMLUおよびBIG-Bench Hardの評価ベンチマークにおいて4.2%以上および8.5%の改善が見られます。Flan 2022のアプローチの分析によると、これらの堅牢な結果は、より大きくより多様なタスクのコレクションと、ゼロショット、フューショット、およびチェーンオブソートのプロンプトを使用したトレーニングなど、いくつかの直感的な戦略による微調整とデータ拡張の結果であると言えます。例えば、フューショットプロンプトの10%の増加は、ゼロショットプロンプトの結果を2%以上改善します。また、入出力対の反転を行うことでタスクのソースをバランスさせ、タスクの多様性を向上させることが、パフォーマンスにとって重要であることも示されています。シングルタスクの微調整では、得られたFlan-T5モデルはT5モデルよりも収束が速く、より優れた性能を発揮するため、指示調整済みのモデルは後続のアプリケーションにおいてより効率的な計算的な出発点を提供します。これらの結果とツールを公開することで、指示の調整に利用できるリソースが効率的になり、より汎用性の高い言語モデルの開発を加速することが期待されています。本研究の主な貢献は以下の通りです： • 方法論的な貢献：ゼロショットおよびフューショットのキューを混合してトレーニングすることで、両環境で有意に優れた結果を生み出すことを示す。 • 効率的な指示調整のための主要な手法を測定および示し、セクション3.3のスケーリング、入力反転を使用したタスクの多様化の向上、チェーンオブソートのトレーニングデータの追加、およびさまざまなデータソースのバランスを取ることを含む。 • 結果：これらの技術的な決定により、利用可能なオープンソースの指示調整コレクションと比較して、保留中のタスクパフォーマンスが3〜17%向上します。 •…

大規模言語モデル（LLM）とは何ですか？LLMの応用と種類

コンピュータプログラムである大規模言語モデルは、テキストの解析や作成のための新しいオプションをソフトウェアに提供します。大規模言語モデルは、ペタバイト以上のテキストデータを使用してトレーニングされることが珍しくなく、そのサイズは数テラバイトになることもあります。モデルのパラメータは、以前のトレーニングデータから学習されたコンポーネントであり、テキスト生成などのタスクにおけるモデルの適性を確立します。音声認識、感情分析、テキスト要約、スペルチェック、トークンの分類など、自然言語処理（NLP）の活動は、言語モデルを基盤としています。言語モデルはテキストを分析し、ほとんどの自然言語処理のタスクで次のトークンの確率を予測することができます。ユニグラム、N-グラム、指数、およびニューラルネットワークは、言語モデルの有効な形式です。 LLMの応用以下のチャートは、大規模言語モデル（LLM）の現状を機能、製品、およびサポートソフトウェアの面でまとめたものです。画像の出典：https://cobusgreyling.medium.com/the-large-language-model-landscape-9da7ee17710b シェルコマンドの生成次世代ターミナルのWarpは、GPT-3を使用して自然言語を実行可能なシェル命令に変換します。GitHub Copilotのようなものですが、ターミナル向けです。経験豊富なプログラマでも、シェルコマンドの構文を説明する必要がある場合があります。正規表現の生成開発者にとって正規表現の生成は時間がかかりますが、Autoregex.xyzはGPT-3を活用してこのプロセスを自動化します。コピーライティングこのタスクに最も人気のあるモデルはGPT-3ですが、BigScienceのBLOOMやEleuther AIのGPT-Jなどのオープンソースの代替品もあります。Copy ai、Copysmith、Contenda、Cohere、Jasper aiなどのスタートアップ企業は、この分野でアプリを開発しており、ブログ投稿、販売コンテンツ、デジタル広告、ウェブサイトのコピーなどの執筆を素早く容易にします。分類テキストを予め定義されたカテゴリに分類することは、教師あり学習の例です。クラスタリングという教師なし学習技術を用いることで、意味が似ているテキストを事前定義されたクラスなしでまとめることができます。応答生成応答生成は、サンプルの対話を使用して対話のフローを生成し、機械学習のアプローチを採用するアイデアです。ユーザーに提示される次の議論がモデルによって決定され、ユーザーの過去の応答と最も可能性の高い将来の会話を考慮に入れます。これを予測対話と呼びます。テキストの生成 LLMの能力は、簡単な説明からテストを生成することで、「メタ能力」と見なされるかもしれません。ほとんどのLLMは生成の役割を果たします。フューショット学習データは、生成を大幅に向上させるだけでなく、データのキャスティングもデータの使用方法に影響を与えます。知識応答知識応答は、アプリケーションプログラミングインターフェース（API）のクエリや従来の知識ストアに頼ることなく、一般的なクロスドメインの問い合わせに対する応答を可能にする知識重視の自然言語処理（KI-NLP）の応用です。知識重視の自然言語処理はウェブ検索ではなく、意味検索をサポートする知識ベースです。…

TensorFlowの学習率の変更方法

TensorFlowで学習率を変更するには、使用している最適化アルゴリズムに応じてさまざまなテクニックを利用することができます

ONNXモデル | オープンニューラルネットワークエクスチェンジ

はじめに ONNX（Open Neural Network Exchange）は、深層学習モデルの表現を容易にする標準化されたフォーマットとして広く認識されるようになりました。PyTorch、TensorFlow、Cafe2などのさまざまなフレームワーク間でのシームレスなデータ交換とコラボレーションを促進する能力により、その使用は大きな注目を集めています。 ONNXの主な利点の1つは、フレームワーク間の一貫性を確保する能力にあります。さらに、Python、C++、C#、Javaなどの複数のプログラミング言語を使用してモデルをエクスポートおよびインポートする柔軟性を提供しています。この柔軟性により、開発者は好みのプログラミング言語に関係なく、広いコミュニティ内でモデルを簡単に共有し活用することができます。学習目標このセクションでは、ONNXについて詳しく説明し、モデルをONNX形式に変換する包括的なチュートリアルを提供します。内容は個別のサブヘッダーに整理されます。さらに、ONNX形式へのモデル変換に使用できるさまざまなツールについても探求します。その後、PyTorchモデルをONNX形式に変換する手順に重点を置きます。最後に、ONNXの機能に関する主な結果と洞察を強調した包括的なまとめを発表します。この記事はデータサイエンスブログマラソンの一環として公開されました。詳細な概要 ONNX（Open Neural Network Exchange）は、深層学習モデルに特化した自由に利用できるフォーマットです。その主な目的は、TensorFlowやCaffe2などと共にPyTorchを使用した際に異なる深層学習フレームワーク間でモデルのシームレスな交換と共有を促進することです。 ONNXの注目すべき利点の1つは、最小限の準備とモデルの書き直しの必要性なく、さまざまなフレームワーク間でモデルを転送できる能力です。この機能により、異なるハードウェアプラットフォーム（GPUやTPUなど）上でのモデルの最適化と高速化が大幅に簡素化されます。さらに、研究者はモデルを標準化された形式で共有することができ、コラボレーションと再現性を促進します。効率的にONNXモデルを操作するために、ONNXがいくつかの便利なツールを提供しています。たとえば、ONNX Runtimeはモデルの実行に使用される高性能エンジンとして機能します。さらに、ONNXコンバータはさまざまなフレームワーク間でのモデル変換をシームレスにサポートします。 ONNXは、MicrosoftやFacebookなどの主要なAIコミュニティの貢献によって共同開発されている活発に開発されているプロジェクトです。さらに、NvidiaやIntelなどのハードウェアパートナー、AWS、Microsoft Azure、Google Cloudなどの主要なクラウドプロバイダもONNXをサポートしています。 ONNXとは何ですか？…

Learn more about Search Results OPT - Page 108

ウェブと組み込みシステムにおけるRustの実行のための9つのルール

ノイズ除去オートエンコーダの公開

ドメイン適応：事前に学習済みのNLPモデルの微調整

Google AIがFlan-T5をオープンソース化 NLPタスクにおいてテキスト対テキストアプローチを使用するトランスフォーマーベースの言語モデル

大規模言語モデル（LLM）とは何ですか？LLMの応用と種類

TensorFlowの学習率の変更方法

ONNXモデル | オープンニューラルネットワークエクスチェンジ

深層学習を用いた強力なレコメンデーションシステムの構築

マーケティング予算の最適化方法

新しい言語モデルを評価するための3つの重要な方法

Find the right Blockchain Investment for you