Learn more about Search Results A - Page 676

「BERTをゼロからトレーニングする究極のガイド:はじめに」

「BERTの解説:NLPの景色を変えたモデルの定義と様々な応用」

マイクロソフトの研究者は、2段階の介入フレームワークを使用したオープンボキャブラリー責任ある視覚合成(ORES)を提案しています

ビジュアル合成モデルは、大規模なモデルトレーニングの進歩により、ますます現実的なビジュアルを生成することができるようになりました。合成された画像を使用する可能性が高まるにつれて、特定のビジュアル要素を除外するために合成中に人種差別、性差別、ヌードなどの要素を排除するために、責任あるAIがますます重要になっています。しかし、責任あるビジュアル合成は2つの基本的な理由から非常に困難な課題です。まず、合成された画像が管理者の基準に準拠するためには、「ビル・ゲイツ」と「マイクロソフトの創業者」といった言葉は現れていない必要があります。第二に、ユーザーの問い合わせの非禁止部分は、ユーザーの基準を満たすように正確に合成される必要があります。 既存の責任あるビジュアル合成技術は、上記で述べた問題を解決するために、次の3つの主要なカテゴリに分けることができます: 入力の改善、出力の改善、モデルの改善。最初の戦略である入力の改善は、ユーザーのクエリを事前処理して管理者の要求に従うことに集中します。例えば、不適切なアイテムをフィルタリングするためのブラックリストの構築などです。オープンボキャブラリの環境では、ブラックリストがすべての望ましくないアイテムを完全に排除することは困難です。2番目の方法である出力の改善は、作成された映画を事後処理して管理者のルールに従うことを意味します。たとえば、Not-Safe-For-Work(NSFW)コンテンツを特定して削除することで、出力の適合性を保証します。 この技術では、事前トレーニングされた特定の概念に基づくフィルタリングモデルに依存しているため、オープンボキャブラリのビジュアルアイデアを特定することは困難です。3番目の戦略であるモデルの改善は、モデル全体または特定のコンポーネントを微調整して、管理者の基準を理解し満たすようにし、指定されたルールと規制に一致する素材を提供する能力を向上させます。ただし、チューニングデータのバイアスがしばしばこれらの技術に制限を加えるため、オープンボキャブラリの機能に到達することは困難です。これにより、次の問題が生じます: オープンボキャブラリによる責任あるビジュアル合成の実現によって、管理者は任意のビジュアルアイデアの作成を効果的に禁止することができるのでしょうか? たとえば、ユーザーは図1で「マイクロソフトの創業者がパブでワインを飲んでいる」という要求を出すかもしれません。  図1. オープンボキャブラリによる責任あるビジュアル合成 地理、文脈、使用状況によっては、適切なビジュアル合成のためにさまざまなビジュアルコンセプトを避ける必要があります。 管理者が「ビル・ゲイツ」や「アルコール」といったアイデアを禁止として入力する場合、責任ある出力は、日常的な表現と同様に概念を明確にする必要があります。マイクロソフトの研究者は、これらの観察に基づいて、Open-vocabulary Responsible Visual Synthesis (ORES)という新しいジョブを提案しています。このジョブでは、ビジュアル合成モデルは明示的に指定されていない任意のビジュアル要素を回避しながら、ユーザーが望む情報を入力できるようにすることができます。そして、Two-stage Intervention (TIN)構造が導入されます。これにより、特定の概念を避けながら、ユーザーの問い合わせにできるだけ忠実に合成することができる1) 大規模言語モデル(LLM)を使用した学習可能な命令による書き換えと、2) 拡散合成モデルによる迅速な介入による合成が行われます。 TINは学習可能なクエリの指示の下で、CHATGPTを特定の質問をリスク低減されたクエリに書き換えるために適用します。中間合成段階では、TINはユーザーのクエリをリスク低減されたクエリで置き換えることによって合成に介入します。彼らはベンチマーク、関連するベースラインモデル、ブラックリスト、ネガティブプロンプト、および一般に公開可能なデータセットを開発しました。彼らは大規模な言語モデルとビジュアル合成モデルを組み合わせています。彼らの知る限りでは、彼らはオープンボキャブラリのシナリオで責任あるビジュアル合成を研究する最初の人々です。 付録では、彼らのコードとデータセットが誰にでもアクセス可能です。彼らは次の貢献をしました: • 実行可能性の証拠として、Open-vocabulary Responsible Visual…

効率の向上:私がテックMLEとして毎日使用する10のデコレーター

「機械学習エンジニア(MLE)はAIの建築家であり、パターンを認識し、予測を行い、タスクを自動化できる知能システムを作り上げる役割を果たしますこの旅では、Pythonが私たちの…」

「Pythonの基礎 構文、データ型、制御構造」

Pythonを学びたいですか?Pythonの構文、サポートされているデータ型、制御構造を学ぶことで、今日から始めましょう

「スピーチの回復を革新する:スタンフォード主導の研究が制約のないコミュニケーションのための高性能な神経プロステーシスを公開」

脳コンピュータインタフェース(BCI)を用いた音声は、障害によりコミュニケーション能力を失った人々のリハビリに有望な応用がある、最先端の技術革新です。巨大な語彙から制約のないフレーズのコミュニケーションを可能にするための脳プロセスの解読はまだ初期段階ですが、初期の調査では有望性が示されています。 この空白を埋める手段として、スタンフォード大学、ワシントン大学、VA RR&D Center for Neurorestoration and Neurotechnology、ブラウン大学、ハーバード医学大学の研究チームが、大語彙の制約のない文を62語/分の速度で処理できる高性能音声テキストBCIを最近発表しました。この速度は、麻痺のある人々の通常の技術に比べて大幅に高いコミュニケーション速度です。チームは、BrainGate2パイロット臨床試験からの脳活動記録を使用し、まず運動皮質が口腔顔面運動と音声生成をどのように組織化しているかを調べました。彼らは、すべての研究対象の運動が領域6vで強くチューニングされていることを発見しました。 次に、それぞれの運動のデータが6v領域全体にどのように広がっているかを調べ、ドーサルアレイが口腔顔面運動に関する情報をより多く持っている一方、ベントラルアレイが最も信頼性の高い音声デコード率を提供していることがわかりました。それにもかかわらず、6vアレイはあらゆるタイプの動きに関する豊富なデータを提供します。最後に、3.2 3.2 mm2のアレイはすべての声優器を適切に表現できます。次に、彼らはリアルタイムでフルセンテンスを中立的に解析できるかどうかを調べました。彼らは、最小限のニューラルデータで優れた性能を発揮する再帰ニューラルネットワーク(RNN)を訓練するために、最先端の音声認識に着想を得た特注の機械学習技術を使用しました。 彼らのデータを使用すると、提案された方法は、50語のうち92%、39音素のうち62%、およびすべての口腔顔面運動のうち92%を正しくデコードすることができます。さらに、音声テキストBCIを使用して1分間に62語を達成することができます。要約すると、すべての調査対象の運動に一貫して空間的に交差したチューニングがあることから、発話の表現は麻痺と皮質表面の制限にもかかわらず、音声BCIを維持するのに十分強力であることが示されます。発話生成に関するデータの提供は、領域44が最小限のデータしか提供していないため、さらなる分析のために6v領域の記録が使用されました。 脳幹脳卒中や筋萎縮性側索硬化症などの神経系の疾患を持つ人々では、話すことや動くことが深刻に制約されるか、完全に失われることがあります。麻痺した人々は、手の動きの活動に基づいたBCIを使用して、1分間に8〜18語のタイピングができるようになりました。彼らは大いに期待されていますが、音声BCIはまだ大語彙での優れた正確さを達成していません。これは、自然なコミュニケーションの回復能力を大幅に向上させることになります。単一ニューロンの分解能を持つマイクロ電極アレイを使用して脳活動を記録することで、研究者は幅広い語彙からの伸びのない文を解析できる音声BCIを開発しました(1分間62語の速度)。これは、麻痺した人々に対する他の技術よりもはるかに高速なコミュニケーション速度を提供するBCIが初めて示されたものです。 この実験は、広範な語彙を含む話し言葉の試みをデコードするために神経スパイク活動を使用することが可能であることを示しています。ただし、システムを臨床設定で使用するためには、まだ完成度を高める必要があります。訓練時間を最小限に抑え、多日にわたる脳活動の変動に適応するためにBCIをよりユーザーフレンドリーにするためのさらなる作業が必要です。さらに、臨床設定での広範な使用に先立って、安全性と有効性についてのさらなる証拠が必要です。さらに、ここで示されたデコード結果を他の参加者で再現できるかどうか、およびそれがより重度の口腔顔面麻痺を持つ人々に適用できるかどうかは不明です。さまざまな脳構造の程度の異なる人々において、音声情報を保持する前中央回の領域が信頼性を持ってターゲットにできるかどうかを確認するためには、さらなる研究が必要です。

「RecMindと出会ってください:推薦タスクのための推論、行動、およびメモリを組み合わせた大規模言語モデル技術によって駆動される自律型の推薦エージェント」

人工知能とディープラーニングの人気が高まるにつれて、ほぼすべてのアプリケーションがAIの能力を利用して作業を進めています。DNN(深層ニューラルネットワーク)は、推薦システムの近代化に不可欠な存在となっています。推薦システムは、検索エンジン、ECサイト、ソーシャルメディアネットワーク、映画や音楽のストリーミングサービスなど、多くのオンラインプラットフォームで重要な役割を果たしています。その主な役割は、ユーザーが過去にプラットフォーム上でどのように製品を利用し、相互作用してきたかを調べ、その情報をもとに、ユーザーが将来的に相互作用する可能性のある製品を提案することです。これにより、ユーザーの関与と体験が向上します。 過去には、推薦システムはさまざまなアルゴリズムや手法を利用してきましたが、最近ではディープニューラルネットワーク(DNN)の導入により、その性能が大幅に向上しました。DNNは、人々や物事、連続的なユーザーの行動の複雑な表現やパターンを把握するのに優れています。この発展により、推薦はより正確で個別化されるようになりましたが、まだ特定の制限があります。特に、CNN(畳み込みニューラルネットワーク)、LSTM(長短期記憶)、BERTなど、DNNを利用して構築された既存の推薦システムの多くは、ユーザーやアイテムに関するテキストデータを効率的に取得するための支援が必要です。さらに、推薦タスクに特化したRS技術の多くは、他の未知の推薦タスクにうまく適用できない可能性があります。 これらの課題に対処するため、研究者チームが、大規模言語モデル技術に基づく自律推薦エージェント「RecMind」を紹介しました。このエージェントは、戦略的な計画、知識の取得のための外部ツール、個別化されたデータを活用して、正確なパーソナライズされた推薦を行うことに優れています。RecMindで導入された主要なイノベーションの1つは、自己インスパイアリングアルゴリズムです。このアルゴリズムは、LLMベースのエージェントの計画能力を向上させるために設計されています。LLMは、中間的な計画フェーズごとにこのアプローチを使用して次の計画手段を決定する際に、これまでに探索されたすべての状態を考慮に入れるため、自動的に「自己インスパイア」します。この方法により、モデルは推薦を形成する際に、過去の計画データを効率的に把握し利用する能力が大幅に向上します。LLMを利用した推薦システムの領域において、この自己インスパイアリング機能は重要な発展です。 RecMindの効果は、評価されたシナリオの範囲内で徹底的に評価されており、以下のようになります。 評価予測 – 特定のものを消費者がどのように評価するかを予測します。 順次推薦 – ユーザーの好みに基づいて特定の順序で商品を推薦します。 直接推薦 – ユーザーに直接アイテムを推薦します。 説明生成 – 特定の推薦の理由を説明します。 レビュー要約 – 特定の製品に関するユーザーコメントをまとめます。 評価結果によれば、チームは、RecMindがさまざまなタスクベースの推薦において、現在のゼロ・フューショットLLMベースの推薦技術を凌駕していることを共有しています。このモデルは、推薦タスクに特化した徹底的な事前トレーニング手順を必要とするモデル「P5」を凌駕しています。 以下に、主な貢献をまとめます。 この研究は、LLMを活用した自律推薦エージェントの開発を先駆けて行っています。RecMindは、推薦タスクに対して推論、行動、メモリを統合したエージェントフレームワークです。 複数の推論パスを統合することで、チェーンオブソウツやツリーオブソウツなどの人気のある手法を上回る、自己インスパイアリングの計画技術が提案されました。 RecMindの効果は、推薦シナリオの5つの場面で評価され、驚くべき結果を示しました。

Rとbrmsを用いた学校卒業者の結果のベイズ比較

学校を卒業した後に私たちがしたいことについては、たくさん話されます私たちは幼い頃から、大人になったら何をしたいかと聞かれ、その後13年間を予備教育で過ごします公立の…

「データサイエンスブートキャンプの成功法:完全ガイド」

「私は2021年5月にオフラインのブートキャンプを卒業しました今はITでほぼ2年間働いていますさらに、私はまだブートキャンプのさまざまなイベントや活動に参加するよう招かれています」

「自然言語処理入門」

自然言語処理(NLP)は、コンピュータ科学の複雑な分野であることがほとんど真実ですSpaCyやNLTKなどのフレームワークは大規模であり、しばしば学習が必要ですしかし、...の助けを借りれば、

「マルチタスクアーキテクチャ:包括的なガイド」

多くのタスクを実行するためにニューラルネットワークを訓練することは、マルチタスク学習として知られていますこの投稿では、複数の密な計算ビジョンタスクを実行するモデルを訓練します

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us