Learn more about Search Results ML - Page 212

ダリー3がChatGPTの統合を持ってここに登場しました

「OpenAIの新しい画像生成モデルDALL·E 3がどのように限界を em>普及可能にするかを掘り下げてみて、画像生成がよりアクセス可能になる様子をご覧ください」(OpenAIの新しい画像生成モデルDALL·E 3がどのように限界を広げているかを調べ、画像生成のアクセス性が高まっている様子を見てみましょう)

「切り分けて学ぶ」による機械学習におけるオブジェクトの状態合成の認識と生成

現実世界には、さまざまなサイズ、色合い、質感を持つ物体が存在します。視覚的な特性、一般的には状態や属性と呼ばれるものは、アイテム自体に備わったもの(色など)または処理によって獲得されるもの(切られた状態など)です。現在のデータ駆動型の認識モデル(例:ディープニューラルネットワーク)は包括的なオブジェクト属性のためのロバストなトレーニングデータが利用可能と前提としていますが、未知のオブジェクトの特性に対しても一般化するための支援が必要です。しかし、人間や他の動物は、少数の既知のアイテムとその状態を組み合わせることで、さまざまな特性を持つ多様なものを認識し、イメージできる組み込み能力を持っています。近代のディープラーニングモデルは、より構成性のある一般化と、有限の概念からの新しい組み合わせの合成と検出能力を頻繁に必要としています。 構成的な一般化の研究を支援するために、メリーランド大学の研究者らは新たなデータセット「Chop & Learn (ChopNLearn)」を提案しています。彼らは構成要素に焦点を当てるため、果物や野菜の切り方に制限を設けています。これらのアイテムは、切り方の方法によってさまざまな方法で形状が変わります。目的は、直接の観察なしでオブジェクトの状態を認識するさまざまなアプローチがどのように異なるオブジェクトに適用できるかを調べることです。彼らが選んだ20のアイテムと7つの典型的な切り方(完全なオブジェクトを含む)により、状態対象の組み合わせの粒度とサイズが異なります。 第1のタスクでは、トレーニング中に遭遇していない(オブジェクト、状態)の組み合わせから画像を生成するシステムが必要です。この目的のため、研究者は既存の大規模テキストから画像を生成するモデルを修正することを提案しています。彼らは、テキストプロンプトを使用してオブジェクトの状態生成を表現するために、Textual InversionやDreamBoothなどのさまざまな既存のアプローチを比較しています。さらに、言語と拡散モデルの同時調整に加えて、オブジェクトと状態の追加トークンの追加を含む異なるプロセスを提案しています。最後に、提案された生成モデルと既存の文献の強みと弱点を評価しています。 第2のチャレンジでは、既存の構成的アクション認識のタスクが拡張されています。これは、活動の認識のための重要な初期ステップであるオブジェクトの状態の微小な変化を認識することを目的としていますが、過去の研究では映画の長期間の活動追跡に重点が置かれてきました。このタスクでは、モデルがタスクの開始時と終了時の状態の組み合わせを認識することによって、肉眼では見えないオブジェクトの状態の変化を学習することができます。ChopNLearnデータセットを使用して、彼らは動画タスクのためのいくつかの最新のベースラインを比較しています。研究は、データセットの利用によって利益をもたらす可能性のある多くの画像およびビデオ関連の機能について議論を終えます。 以下にいくつかの貢献を紹介します: 提案されたChopNLearnデータセットには、さまざまなカメラアングルからの写真や映画が含まれます。これはさまざまなオブジェクト状態の組み合わせを表します。 現在ユーザーには見えていないオブジェクトと状態の組み合わせの画像を生成するための新しいアクティビティ「構成的な画像生成」を提供します。 構成的なアクション全体としての新たな基準を設定します。これはオブジェクトが時間と多様な視点でどのように変化するかを学習し認識することを目指しています。 制限事項 ファウショット一般化は、基盤モデルが利用可能になるにつれてますます重要になっています。この研究では、ChopNLearnのポテンシャルを構成的な生成と非常に複雑で関連性のある概念の識別に使用するための調査が行われました。ChopNLearnは、それにトレーニングされたモデルの一般性を制限するグリーンスクリーンの背景で行われた小規模なデータセットです。しかしながら、これは異なるオブジェクトが共通の微細な状態(切り方)を共有する方法を学習するための最初の試みです。彼らは、ChopNLearnを使用してより複雑なモデルをトレーニングおよびテストし、同じツールを使用してグリーンスクリーンの背景のある場合とない場合のモデルを微調整することによって、これを調査しています。さらに、彼らは、3D再構築、ビデオフレーム補間、状態変化の作成などのより困難なタスクにChopNLearnを利用することでコミュニティが利益を受けることを期待しています。 詳細については、https://chopnlearn.github.io/をご覧ください。 まとめると 研究者は、オブジェクトの構成的な一般化またはモデルが異なる状態で見たことのないオブジェクトの組み合わせを検出して構築する能力を測定するための新しいデータセットChopNLearnを提供しています。さらに、既存の生成モデルやビデオ認識技術の効果を評価するための2つの新しいタスク「構成的な画像生成」と「構成的なアクション認識」を提示しています。彼らは現在の方法の問題と新しい組み合わせに対する限定的な一般化能力を説明しています。しかし、これらの2つの活動は、比喩的な氷山の一部にすぎません。オブジェクトの状態を理解するためには、3D再構築、将来のフレーム予測、ビデオ製作、要約、長期ビデオの解析など、複数の画像およびビデオのアクティビティが必要です。このデータセットにより、研究者はコンピュータビジョンコミュニティが提案することで学習するための新しい構成的な課題が生まれることを期待しています。

複数モードモデルとは何ですか?

基礎となる大規模言語モデル(LLM)は、巨大なデータセットで事前トレーニングされており、ゼロショット、フューショット、または転移学習を通じて、一般的なマルチタスク処理をかなり効率的に行うことができます実際には...

スタンフォード大学とマイクロソフトの研究者が自己向上型AIを紹介:GPT-4を活用して足場プログラムのパフォーマンスを向上させる

ほぼすべての目標は、自然言語で説明される場合には、言語モデルのクエリによって最適化されることができます。ただし、プログラムは、言語モデルへのいくつかの組織された呼び出しを行うことによって、より高い目的関数値を提供することがあります。これらを「足場付き」プログラムと呼び、それらは一般的に(人々によって)Pythonなどのコンピュータ言語を使用して作成されます。彼らの主な発見は、足場付きプログラムの設計は、最適化問題と言語モデルにわたる任意の分布において最適化の問題です。Microsoft ResearchとStanford Universityの研究者は、この論文で、自己教育最適化プログラム(STOP)と呼ばれる技術を説明し、再帰的にコードを適用することで、与えられたソリューションを改善することができるようにする方法を説明しています。 彼らの方法では、言語モデルを使用して次の課題への応答を向上させるために言語モデルを使用する初期のシード「改善者」足場付きプログラムから始まります。システムが反復するにつれて、モデルはこの改善者プログラムを改善します。彼らの自己最適化アーキテクチャの有効性を測定するために、彼らは限られた選択の下流アルゴリズムタスクを適用します。その結果、モデルは自己改善の技術を使用してより多くの反復を実行するにつれて改善されることが示されます。STOPは、言語モデルがこのような方法でメタ最適化器として機能する方法を示しています。さらに、モデルが提案する自己改善の戦術の種類、および推奨される戦略が下流タスクにどれだけうまく翻訳されるか、モデルが危険な自己改善技術に対して脆弱性を持つかについて、彼らは分析しています。 図1: ここにはGPT-4が提案して使用される自己改善技術の例が示されています。足場を含む任意のコードは、それぞれの足場として各技術を使用して改訂されます。 この問題は、基礎となる言語モデルが変更されないため、再帰的に自己改善するコード生成として知られており、ただし、完全に再帰的自己改善(RSI)システムではありません。RSIの概念が形式化されたのは少なくとも50年前のことですが、その試みは一般的により優れたシステムを作成し、モデルが自身のコードのすべての部分を改善できるという前提に基づいていました。彼らの研究は、その方向への控えめな進歩であり、反復的に呼び出される足場の向上能力のみを考慮しています。この研究で、RSIコード生成の問題は数学的に定義されています。 そして、彼らはRSIコード生成の可能な使用例を示すためにSTOPを作成して評価します。さまざまな下流タスクで改善が示されています。2021年までのデータでトレーニングされたGPT-4言語モデルを使用する場合、図1はSTOPが提供するいくつかの興味深く有用な足場を示しています。さらに、モデルがどのように頻繁にサンドボックスフラグをオフにしようとするかを追跡する追加のテストも行われています。最後に、このような技術の倫理的な開発に関する問題に取り組んでいます。 この研究の主な貢献は次のとおりです: 足場システムが再帰的に自己改善するメタ最適化戦略の策定 このシステムが現代の言語モデル(特にGPT-4)を使用して再帰的に自己改善できることを示すこと モデルが提案および実装した自己改善技術、およびモデルがサンドボックスなどの安全対策をどのように回避するかについて調査すること

AIが私のいとこのような運動障害を持つ人々を支援する方法

5年前、私のいとこはまさに人生の最盛期にある美しい若い女性として、恐ろしい試練に直面しました彼女は残虐に襲われ、外傷性脳損傷と重度の身体障害を負いました奇跡的に彼女は生き残りましたが、彼女の人生は永遠に変わってしまいました突然彼女は麻痺し、話すことができなくなりました彼女は徐々に認知機能を回復していく中で、私たちは彼女のニーズや思い、感情を理解するためのコミュニケーションの手段を確立しなければなりませんでした 希望の光は彼女の目からやってきました:彼女は「はい」という意味で上を見ることができました彼女の首の筋肉は弱かったですが、彼女は徐々に意図的に視線を向けることで、彼女が何を望んでいるかを伝えることが始められました彼女の旅のこの段階で、目の追跡を利用したコンピューターに彼女が紹介されました目の追跡によって、彼女は画面上のキーボードの特定の文字に向かって眺めることで単語を入力することができましたしかし、これは時間とエネルギーをかけるものでしたAIの進歩により、視線検出を速く正確にすることで、この点を変える可能性が大いにあります 効率的なコミュニケーションへの道は直線的ではありませんでしたしばしばイライラし、心を痛めるプロセスでした技術が機能するために、彼女は各文字に一定の時間を費やす必要がありましたが、彼女の集中力が途切れたり、首が安定しなかったりすることがありましたこのプロセスは遅く、エラーが多く、多くの試みが苦しみに終わりました 私のいとこの苦闘は唯一無二ではありませんけがによって運動機能を失った人々や、脳性麻痺や多発性硬化症などの神経疾患を持つ人々にとって、視線の相互作用は効果的なコミュニケーション手段です視線の入力装置などの支援技術は、人々の人生を変える可能性があるものの、現在の最良の視線入力システムでも、通常の話し言葉の入力速度(125-185 wpm)と比較して、比較的遅いテキスト入力速度(約7-20 wpm)を報告していますこれは目立つギャップであり、助言技術を改善し、それらに頼るすべての個人の生活の質を向上させるために、改善を続ける必要があることを示しています 私の研究はこの問題に取り組むことを目指しています目の障害を持つ無数の人々のために、これらの技術が人生を変える現実となるように、効率的でアクセス可能なコミュニケーションを実現することを目標としていますAIの最適な活用方法を理解することで、目を使った効率的なタイピング方法を再考したいと思っています 私は、Googleとケンブリッジ大学の人間にインスパイアされた人工知能センター(CHIA)の支援を受けることができるという非常に幸運な立場にあります今年の初めに、私はニーズ、欲求、障壁を理解するために、日常的なコミュニケーションに視線入力を頼る非発話の障害を持つ人々とのインタビューを始め、視線入力ユーザーが自分の目標を達成するためにより優れた技術を可能にすることができましたこれはCHIAがAIイノベーションに取り組むアプローチを反映しており、AIの影響を最も受ける人々を開発プロセスの中心に置いています AIと視線タイピング技術を組み合わせることで、私たちはいとこのような人々が自己表現し、世界とつながり、独立感を取り戻すことができるようになることを目指しています

『ダイヤモンドの欠陥を利用した量子リピーターが量子システムを相互接続する』

科学者たちは、ダイヤモンドの欠陥を活用して量子リピーターを作り出そうとしています

Amazon SageMakerのマルチモデルエンドポイントを使用して、Veriffがデプロイ時間を80%削減する方法

「Veriffは、革新的な成長志向の組織、金融サービス、フィンテック、仮想通貨、ゲーム、モビリティ、オンラインマーケットプレイスなどのパイオニアを対象とした身元確認プラットフォームのパートナーですこの投稿では、Amazon SageMakerを使用してVeriffがモデルの展開ワークフローを標準化し、コストと開発時間を削減した方法を紹介します」

「ウォルマート、よりパーソナライズされたショッピング体験を提供するためにAIを活用」

小売りの巨人ウォルマートは、顧客により個人に合わせたショッピング体験を提供するためにAIを活用しようとしています同社がAIを使ったプログラムを利用するのは初めてではありません今年早くも、ウォルマートはAIパワードのアプリを本社の従業員向けに作成しましたフォックスニュースの報道によれば...

「ゼロからヒーローへ:AutoGenがLLMを変革する方法」

Autogen Microsoftは、Microsoftによるプロジェクトであり、自律エージェントを作成し、それらが共同で作業を行うことができますエージェントを許可するフレームワークであり、それは…

「ReactPyを使用して、フルスタックAIアプリケーションを構築しましょう」

ReactPyを使用することで、ついにPythonとReactを組み合わせることが可能になりましたこのライブラリは、Javascriptを知らなくても美しいアプリケーションを作成するためにReactフレームワークを使用することができるようにします

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us