Learn more about Search Results A - Page 603

リニア代数3:ベクトル方程式

私の機械学習の基礎に関するシリーズの3回目のエッセーへようこそ前回の記事では、階段行列形式を説明しました...

知られていないジュリア魔法のすごさ

プログラミング言語とそのパラダイムに関して言えば、Juliaのアプローチは非常にユニークです現在人気のある他の多范型プログラミング言語と比較しても、Juliaは…

大規模言語モデルにおける文脈の長さの拡張

「コンテキストの長さ」とは、モデルがテキストを生成する際に記憶できるトークンの最大数を指しますより長いコンテキスト窓は、モデルがテキスト内の長距離依存関係をより良く理解できるようにします...

「POCOと出会う:3D人体姿勢と形状推定のための画期的な人工知能フレームワーク」

写真や動画から3D人体のポーズと形状(HPS)を推定することは、現実世界の設定で人間のアクションを再構築するために必要です。しかし、2D画像からの3D推論は、深度の曖昧さ、遮蔽、異常な衣服、動きのぼやけなどの要素により、大きな課題を抱えています。最も高度なHPS手法でもエラーが発生し、これらのミスに気づかないことが多いです。 HPSは中間タスクであり、人間の行動や3Dグラフィックスアプリケーションなどの下流タスクによって消費される出力を提供します。これらの下流タスクでは、HPSの結果の正確性を評価するメカニズムが必要であり、その結果、これらの手法はHPSの品質に相関する不確実性(または信頼性)の値を生成しなければなりません。 この不確実性に対処するためのアプローチの一つは、複数のボディを出力することですが、これにも明示的な不確実性の尺度が欠けています。一部の例外では、ボディパラメータの分布を推定することがあります。一つのアプローチは、ボディの分布からサンプルを抽出し、これらのサンプルの標準偏差を計算することです。この方法は有効ですが、複数のフォワードネットワークパスを要するため遅くなり、速度のために正確性を犠牲にします。より多くのサンプルが性能を向上させますが、計算要件が増加します。 最近、これらの課題に対処するために、明示的な監視をスキップしてネットワークを訓練して、ボディパラメータと同時に不確実性を出力する方法が開発されました。セマンティックセグメンテーションに関する研究に基づき、ガウスベースのベース密度関数を使用しますが、ヒューマンポーズのモデリングにはより複雑な分布が必要であることを認識しています。不確実性を直接推定する手法では、基本密度関数とスケールネットワークが一般的に使用されます。既存の手法では、無条件のbDFを使用し、スケールネットワークには画像の特徴のみに頼っています。このアプローチは、サンプルが類似の分布を共有する場合にはうまく機能しますが、頑健な3D HPSモデルに必要な多様なデータセットの処理には不十分です。 著者たちは、これらの課題に対処するための標準HPS手法に適用可能な革新的なフレームワークであるPOCO(“POse and shape estimation with COnfidence”)を紹介しました。POCOは、これらの手法を拡張して不確実性を推定します。単一のフィードフォワードパスで、POCOはSkinned Multi-Person Linear Model(SMPL)のボディパラメータとその回帰不確実性を直接推論し、再構築の品質と強く相関します。このフレームワークの鍵となるイノベーションは、「Dual Conditioning Strategy(DCS)」であり、ベース密度関数とスケールネットワークを強化します。フレームワークの概要は、以下の図に示されています。 従来のアプローチとは異なり、POCOは推定されたポーズエラーのベース密度関数をモデル化するための条件付きベクトル(Cond-bDF)を導入します。単純なワンホットデータソースでのエンコーディングではなく、POCOは画像の特徴を調整するために使用され、多様で複雑な画像データセットでのスケーラブルなトレーニングが可能になります。さらに、POCOの著者は、HPSモデルの不確実性を推定するための改良されたアプローチを紹介しています。彼らは画像の特徴を使用し、ネットワークをSMPLポーズに条件付けることで、ポーズの再構築と不確実性の推定を改善します。彼らの手法は既存のHPSモデルにシームレスに統合することができ、正確性を向上させる一方でデメリットはありません。この研究は、このアプローチがポーズエラーとの不確実性の相関において最先端の手法を上回ることを主張しています。彼らの研究で報告された結果は、以下に示されています。 これは、3D人間ポーズと形状推定のための革新的なAIフレームワークであるPOCOの要約でした。興味があり、それについてもっと学びたい場合は、以下に引用されたリンクを参照してください。

「テキスト分類タスクについての迅速なエンジニアリングのためのヒントとトリック」

なぜテキスト分類タスクのためにモデルを微調整する必要があるのか、プロンプトエンジニアリングが適切な仕事をしてくれるのに最近、LLMを微調整すれば問題が解決することに気づきましたもちろん、それにはコストがかかりますが...

この人工知能による調査研究は、医療領域への大規模言語モデルの包括的な概要を提供します

このコンテンツは購読者のみ対象です 利用規約プライバシーポリシー 自然言語処理(NLP)システムは、音声認識、メタファー処理、感情分析、情報抽出、機械翻訳など、さまざまなタスクにおいて、事前学習済み言語モデル(PLM)に大いに依存してきました。最近の進展により、PLMは急速に変化しており、新たな進展が自立型システムとしての機能を示しています。このアプローチでの重要な進歩は、OpenAIによるLarge Language Models(LLM)(例:GPT-4)の開発によって達成されました。これらのモデルは、NLPタスクだけでなく、生物学、化学、医学検査といった科目でも性能が向上しています。GoogleのMed-PaLM 2も、医療セクターに特化しており、医学的な質問データセットで「エキスパート」と同等の性能を獲得しています。 LLMは、数多くのアプリケーションの効果と効率を向上させることで、医療業界を革命する力を持っています。これらのモデルは、医学のアイデアと用語について深い理解を持っているため、医療の質問に対して洞察に富んだ分析や回答を提供することができます。患者との対話、臨床の意思決定支援、さらには医療画像の解釈にも役立つことがあります。LLMには、大量のトレーニングデータの必要性やそのデータ中の偏りの伝播といった制約もあります。 最近の研究では、研究チームがLLMの医療分野における能力について調査しました。PLMからLLMへの重要な進歩を理解するために、これら2つの言語モデルを対比することが必要です。PLMは基本的な構築ブロックですが、LLMはより広範な能力を持ち、医療の文脈で一貫したコンテキストに即した回答を生成することができます。PLMからLLMへの移行によって、モデルがイベントを分類または予測する差別的なAIアプローチから、言語ベースの回答を生成する生成的なAIアプローチにシフトしていることがわかります。この移行によって、モデル中心からデータ中心のアプローチへのシフトがより際立っています。 LLMの世界にはさまざまなモデルが存在し、それぞれ特定の専門性に適しています。医療業界向けに特別に設計された注目すべきモデルには、HuatuoGPT、Med-PaLM 2、Visual Med-Alpacaなどがあります。たとえば、HuatuoGPTでは積極的に患者を巻き込むために質問を行い、Visual Med-Alpacaでは画像専門家と協力して放射線画像の解釈などの職務をこなします。LLMの多様性により、さまざまな医療関連の問題に取り組むことができます。 ヘルスケアアプリケーションにおいてLLMのパフォーマンスは、トレーニングセット、技術、最適化戦略などの要素に大きく影響を受けます。本調査は、医療環境でLLMを作成および最適化するための技術的要素を探究しています。LLMの医療環境での使用には実習的な問題や倫理的な問題があります。LLMの使用にあたっては、公正さ、責任、透明性、倫理が確保されることが重要です。特に患者のケアが関わる場合、バイアスのない医療アプリケーションを提供し、倫理的なガイドラインに従い、回答について明確な正当化を行うことが求められます。 チームによる主な貢献は次のとおりです。 PLMからLLMへの移行の途中経過を共有し、新たな進展についての最新情報を提供しました。 LLMの医療業界でのトレーニング資料、評価ツール、データリソースの編成に焦点を当て、医学研究者が個別の要件に応じて最適なLLMを選択するのに役立ちました。 公平性、公正さ、透明性など、倫理的な問題に関して検討しました。

アップルとCMUの研究者が新たなUI学習者を披露:連続機械学習を通じてアプリのアクセシビリティを革新

機械学習は、さまざまな分野でますます統合されています。その普及は、ユーザーインターフェイス(UI)の世界を含むすべての業界に広がっており、意味論的データを予測するために重要です。このアプリケーションは、利便性を向上させ、テストを簡素化するだけでなく、UIに関連するタスクを自動化することで、効率的で効果的なアプリケーションを実現します。 現在、多くのモデルは主に人間が評価した静止したスクリーンショットのデータセットに依存しています。しかし、このアプローチは高価であり、一部のアクティビティにおいてミスの誤った傾向を露呈する可能性があります。ヒューマンアノテーターは、スナップショットからUI要素がタップ可能であるかどうかを評価する際に、ライブアプリ内のUI要素との相互作用ができないため、視覚的な手がかりだけに頼る必要があります。 モバイルアプリケーションビューの固定されたスナップショットのみを記録するデータセットを使用することの欠点にもかかわらず、これらのデータセットは使用および維持するのに高価ですが、ディープニューラルネットワーク(DNN)のトレーニングにおいて依然として貴重です。 そのため、アップルの研究者はカーネギーメロン大学との共同で「Never-Ending UI Learner」というAIシステムを開発しました。このシステムは実際のモバイルアプリケーションと持続的に相互作用し、UIデザインパターンと新しいトレンドの理解を継続的に向上させることができます。このシステムはモバイルデバイス向けのアプリストアからアプリを自動的にダウンロードし、それぞれを徹底的に調査して新鮮で難解なトレーニングシナリオを見つけ出します。 Never-Ending UI Learnerは現在までに5,000時間以上のデバイスを調査し、6,000以上のアプリで50万回以上のアクションを実行しました。この長期間の相互作用により、タップ可能性を予測するための3つの異なるコンピュータビジョンモデルがトレーニングされます。また、ドラッグ可能性を予測するためのモデルと、画面の類似度を判断するためのモデルもトレーニングされます。 この研究では、アプリケーション内のユーザーインターフェースのコンポーネントにタップやスワイプなどの多くの相互作用を行います。研究者たちは、設計されたヒューリスティクスを使用してUI要素を分類し、ボタンがタッチできるか、画像が移動できるかなどの特性を識別すると強調しています。 収集されたデータの助けを借りて、UI要素のタップ可能性とドラッグ可能性、および画面の類似度を予測するモデルがトレーニングされます。エンドツーエンドの手順では、人間によるラベル付け例がさらに必要ありませんが、プロセスは人間によりラベル付けされたデータで訓練されたモデルで開始することができます。 研究者たちは、このアプリを積極的に調査する手法には利点があると強調しています。これにより、典型的な人間によるラベル付けデータセットが見落とす可能性のある困難な状況を機械が特定するのに役立ちます。画像が常にはっきりしないため、スクリーン上でタッチできるすべてのものに人間が気付かないことがあるかもしれません。しかし、このシステムはアイテムをタップしてそれが何が起こるかをすぐに観察できるため、より明確で正確な情報を提供します。 研究者たちは、このデータに基づいてトレーニングされたモデルが時間の経過とともに改善する様子を実証しました。タップ可能性の予測は、5回の訓練ラウンド後に86%の精度に達しました。 研究者たちは、アクセシビリティの修復に焦点を当てたアプリケーションは、微妙な変化を捉えるためにより頻繁な更新を受けることが有益であると強調しました。一方で、UIの変更がより大きな蓄積を可能にするより長い間隔は、サマリーズやデザインパターンマイニングのようなタスクにとって好ましいかもしれません。再トレーニングと更新のための最適なスケジュールの確立には、さらなる研究が必要です。 この研究は、絶え間ない学習の可能性を強調し、システムがより多くのデータを収集して適応し進化することを可能にします。現在のシステムはタップ可能性などの単純な意味論モデリングに焦点を当てていますが、アップルは同様の原則を適用してモバイルUIやインタラクションパターンのより高度な表現を学ぶことを望んでいます。

「トランスフォーマーは長い入力をどのように扱うのか?CMUとGoogleの研究者が新しいアプローチを発表(FIRE):相対位置エンコーディングのための機能的補間」

Transformerベースの言語モデルは、近年、自然言語処理(NLP)の領域を引き上げてきました。人間らしいテキストを理解し生成する能力により、さまざまなNLPタスクで画期的な改善がもたらされました。しかし、これらのモデルには重大な欠点があります。訓練中に遭遇したものよりも長い入力シーケンスにさらされると、パフォーマンスが明らかに低下する傾向があります。現実のアプリケーションにおいてより長い文脈を管理する能力を向上させる方法を見つける必要性が、この制限によって刺激されています。 Transformerアーキテクチャ自体は潜在的に異なる入力期間を処理する能力を持っていますが、トレーニング中に使用される位置エンコーディングによって長い入力の取り扱い能力が制限されることがあります。そこで、カーネギーメロン大学、Google Research、Google DeepMindの研究者チームは、Functional Interpolation for Relative Positional Encoding(FIRE)と呼ばれる独自のアプローチを導入しました。FIREの目的は、Transformerの長い文脈の一般化能力を向上させることです。これは、新たな進行的な補間と機能的な相対位置エンコーディングの組み合わせによって実現されています。 FIREの基本的なアイデアは、シーケンス内のトークンの配置を理解するためのTransformerモデルに柔軟性のある手段を提供することです。FIREは、事前定義された位置エンコーディングスキームの代わりに、位置情報をエンコードするための動的で学習可能なメカニズムを提供します。この戦略は重要です。なぜなら、モデルが遭遇する特定の文脈とシーケンスの長さに対して、位置の理解を修正および変更することができるからです。 FIREは、Kerple、Alibi、T5のRelative Positional Encoding(RPE)など、よく使用される相対位置エンコーディング技術の一部を概念的に説明する能力も持っています。これは、FIREが現行の手法とモデルとの互換性を保持しながら、パフォーマンスを向上させるということを示しています。 長い文脈の理解が重要な状況において、FIREを装備したモデルのパフォーマンスを評価するために、さまざまなベンチマークで実験が行われました。この評価では、ゼロショットの言語モデリングや長文入力の問題などがカバーされています。この新しい手法を使用した改良モデルは、長い文脈を扱う際の汎化性能においてより優れたパフォーマンスを示しました。これは、長いシーケンスが与えられた場合、個人はより意味のあるテキストを理解し生成する能力が高まることを意味し、実用的な状況で非常に有用なスキルです。 研究者たちは、主な貢献を次のようにまとめました。 Alibi、Kerple、T5のRPEなど、一部の人気のある位置エンコーディング手法を含む、新しい機能的な相対位置エンコーディング手法であるFIREが導入されました。 FIREは、さまざまなデータセットやベンチマークにおいて、ゼロショットとファインチューニングのシナリオで現行の技術を上回るパフォーマンスを示し、高い長さの汎化性能を発揮します。C4言語モデリングの問題において、最高のベースラインを2.28パープレキシティポイント上回り、その有用性を示しました。SCROLLSの長いテキストテストでも、他の手法を平均1ポイント以上上回ります。 FIREの柔軟性により、ローカルおよび逆ローカルの位置バイアスの両方を捉える能力が向上し、学習された位置の埋め込みの視覚化によって示されます。 まとめると、FIREはTransformerモデルにおける持続的な問題に対する優れた解決策を提供します。相対位置エンコーディングは柔軟で学習可能な方法で取り組まれるため、これらのモデルは以前に経験したことのない長さの入力シーケンスに直面しても高いパフォーマンスで動作を続けることができます。

『LSTM-CRFモデルの詳細解説』

「自然言語処理の急速な進化の中で、トランスフォーマーが優れたモデルとして台頭し、さまざまなシーケンスモデリングのタスクで驚くべきパフォーマンスを発揮しています...」

「あなたのニューラルネットワークに最適な最適化アルゴリズム」

どんな機械学習モデルの開発にも、アイデア-実験-評価のサイクルに沿った厳格な実験プロセスが必要です上記のサイクルは、満足のいく結果が得られるまで繰り返されます…

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us