Learn more about Search Results ML - Page 285

Google Researchにおける責任あるAI:パーセプションの公平性

Google ResearchのPerception Fairnessチームの共同リーダーであるSusanna RiccoとUtsav Prabhuが投稿しました。 Googleの責任あるAI研究は、異なるバックグラウンドと専門知識を持つチーム間、研究者と製品開発者間、そして最終的には広範なコミュニティとの協力の基盤の上に築かれています。パーセプションフェアネスチームは、コンピュータビジョンと機械学習(ML)のフェアネスに関する深い専門知識と、Googleをはじめとする製品にパワーを与える知覚システムを構築する研究者との直接的なつながりを組み合わせることで進歩を推進しています。私たちはGoogleのAI原則に基づいて、システムを包括的に設計するために協力して取り組んでいます。 パーセプションフェアネス研究は、Googleの製品をパワーにする最新の基盤と生成モデルを含む高度なマルチモーダルモデルの設計、開発、展開にわたります。 私たちのチームのミッションは、特に基盤モデルと生成AIに関連するマルチモーダルMLシステムにおける公平性と包括性のフロンティアを推進することです。これには、分類、ローカリゼーション、キャプション付け、検索、ビジュアルな質問応答、テキストから画像またはビデオの生成、生成画像とビデオの編集などの中核技術コンポーネントが含まれます。私たちは、これらのアプリケーションにおいて公平性と包括性を最優先のパフォーマンス目標とすることができると信じています。私たちの研究は、開発サイクル全体でこれらの目標を積極的に設計するための新しい分析と緩和策を開放することに焦点を当てています。私たちは、次のような核心の問いに答えます:MLをどのように使用して、人種、文化、社会的アイデンティティの人々の知覚を責任を持ってモデル化し、公平性と包括性を促進することができるのか?どのようなシステムのバイアス(例:特定の肌の色の人物の画像でのパフォーマンスの低下)を計測することができ、これらの指標を使用してより良いアルゴリズムを設計することができるのか?より包括的なアルゴリズムとシステムを構築し、障害が発生した場合に迅速に対応するにはどうすればよいのか? メディアにおける人々の表現の測定 画像やビデオを編集、キュレーション、または作成することができるMLシステムは、世界中の視聴者の信念を形成または強化することができます。これには、ステレオタイプの強化、人々のグループの傷つけや消去などの表現上の害を減らすための研究は、コンテンツと社会的な文脈の両方を深く理解することにかかっています。これは、異なる観察者が自分自身や自分のコミュニティをどのように捉え、他者がどのように表現されているかにかかっています。責任を持って行われるべき社会的カテゴリの研究とその方法については、この分野で大いに議論があります。私たちの研究は、社会学と社会心理学に基づき、人間の知覚に合致し、問題の主観性を受け入れ、微妙な測定と緩和を可能にするスケーラブルなソリューションに向けて取り組んでいます。例として、私たちはMonk Skin Toneスケールを使用した画像の肌のトーンの人間の知覚と注釈の違いに関する研究を行っています。 私たちのツールは、大規模なコンテンツコレクションにおける表現を研究するためにも使用されています。Media Understanding for Social Exploration(MUSE)プロジェクトを通じて、私たちは学術研究者、非営利団体、主要な消費者ブランドと提携して、主流メディアや広告コンテンツのパターンを理解しています。この研究は、2017年に最初に発表され、ハリウッド映画のジェンダー平等を分析した共著研究で始まりました。それ以来、私たちは分析のスケールと深さを増してきました。2019年には、270万本以上のYouTube広告に基づく調査結果を公開しました。最新の研究では、12年以上にわたる人気のある米国のテレビ番組における知覚される性別プレゼンテーション、知覚される年齢、肌のトーンの交差点での表現を調査しています。これらの研究は、コンテンツクリエーターや広告主に洞察を提供し、私たち自身の研究をさらに進めています。 メディアコレクションにおける表現パターンを明らかにするためにスケールで分析できるコンピュータシグナルのイラスト(実際のデータではありません)。[ビデオコレクション/ゲッティイメージズ] 進んでいくにつれて、私たちはMLの公平性に焦点を当てる概念と、それが責任を持って適用される領域を拡大しています。人々の写真の写実的なイメージを超えて、私たちはイラストや抽象的な人型のキャラクターの表現をモデル化するツールの開発に取り組んでいます。さらに、人間の姿が全くない画像さえも含めて、コミュニティや文化の表現をモデル化するツールを開発しています。最後に、描かれているのは誰だけでなく、それらがどのように描かれているかについても考える必要があります。周囲の画像コンテンツ、関連するテキスト、そして広範な文化的文脈を通じて伝えられる物語は何かを推論する必要があります。 知覚システムのバイアス特性の分析 高度なMLシステムの構築は複雑であり、製品の動作を決定するさまざまな利害関係者が情報を提供しています。全体的な品質は、ユーザーエクスペリエンスのプロキシとしてテストデータセット上の要約統計(全体的な正確度など)を使用してこれまでに定義され、測定されてきました。しかし、すべてのユーザーが同じ方法で製品を経験するわけではありません。 知覚の公平性は、要約統計を超えた微妙なシステムの振る舞いの実測を可能にし、これらの指標をシステムの品質に直接関連付けて製品の動作とローンチの意思決定に重要な役割を果たします。これは思っているよりもはるかに難しいことです。複雑なバイアスの問題(例:交差するサブグループ間のパフォーマンスの不均衡やステレオタイプの強化のインスタンス)を重要なニュアンスを失うことなく、わずかな数の指標に凝縮することは非常に困難です。また、公平性の指標と他の製品の指標(ユーザー満足度、正確性、レイテンシなど)の相互作用のバランスを取ることも課題です。これらはしばしば相反するとされながらも互換性があるとされるものです。広範なユーザーの満足度は、公平性と包含の目標を達成することに一致しているにもかかわらず、研究者が自分の仕事を「正確性と公平性のトレードオフの最適化」と表現するのは一般的です。 私たちは、Open Imagesの一部としてMIAPデータセットを構築し、複雑なシステムの社会的に関連する概念の知覚とバイアスの検出の研究を活用して、コンピュータビジョンにおけるMLの公平性研究を推進するリソースを作成しました。オリジナルの写真クレジット…

PythonとDashを使用してダッシュボードを作成する

この記事では、PythonとDashを使用してNetflixのダッシュボードを構築し、地図、グラフ、チャートを使用してコンテンツの配信と分類を視覚化する方法について説明しています

Googleの研究者たちは、RO-ViTを紹介しますこれは、オープンボキャブラリー検出の改善のため、リージョンに意識を向けた方法でビジョントランスフォーマーを事前トレーニングするためのシンプルなAI手法です

最近の進歩により、コンピュータは人間の視覚のように、世界から視覚情報を解釈し理解することができるようになりました。画像と動画から情報を処理、分析、抽出することを含みます。コンピュータビジョンは、視覚解釈を必要とするタスクの自動化を実現し、手作業の介入を減らすことができます。オブジェクト検出は、画像やビデオフレーム内の複数の興味深いオブジェクトを識別し、位置を特定するコンピュータビジョンのタスクです。 オブジェクト検出は、シーン内に存在するオブジェクトを判別し、それらが画像内のどこに位置しているかに関する情報を提供することを目指しています。ほとんどの現代のオブジェクト検出器は、領域とクラスラベルの手動注釈に依存していますが、これにより語彙サイズが制限され、さらなるスケーリングが高価になります。 代わりに、画像レベルの事前学習とオブジェクトレベルのファインチューニングのギャップを埋めるために、ビジョン-言語モデル(VLM)を使用することができます。ただし、そのようなモデルの事前学習プロセスでオブジェクト/領域の概念を適切に活用する必要があります。 Google Brainの研究者らは、画像レベルの事前学習とオブジェクトレベルのファインチューニングのギャップを埋めるためのシンプルなモデルを提案しています。彼らは、領域に意識を持たせたオープンボキャブラリービジョントランスフォーマー(RO-ViT)を提案しています。 RO-ViTは、オープンボキャブラリーオブジェクト検出のために、ビジョントランスフォーマーを領域に意識した方法で事前学習するためのシンプルな手法です。通常の事前学習では、画像全体の位置埋め込みが必要ですが、研究者は、全画像の位置埋め込みの代わりに、ランダムに領域の位置埋め込みを切り取り、リサイズすることを提案しています。これを「切り取られた位置埋め込み」と呼びます。 研究チームは、焦点損失を使用した画像テキストの事前学習が既存のソフトマックスCE損失よりも効果的であることを示しています。また、さまざまな新しいオブジェクト検出技術も提案しています。彼らは、既存のアプローチでは、オブジェクトの候補のステージで新しいオブジェクトを見逃すことがよくあると主張しています。なぜなら、候補はよりバランスが取れる必要があるからです。 チームは、モデルRO-ViTが最先端のLVISオープンボキャブラリー検出ベンチマークを達成していると述べています。その統計によると、イメージテキスト検索ベンチマークの12メトリックのうち9つでそれを達成しているとのことです。これは、学習された表現が領域レベルで有益であり、オープンボキャブラリー検出で非常に効果的であることを反映しています。 オブジェクト検出技術の進歩に伴い、責任ある開発、展開、規制が重要になります。その正の影響を最大化し、潜在的なリスクを軽減するためです。全体として、オブジェクト検出技術の持続的な進歩は、産業の革新、安全性と生活の質の向上、かつてはSFと考えられていたイノベーションを実現することによって、より明るい未来に貢献することが期待されています。 論文とGoogleブログをチェックしてください。この研究に関しては、このプロジェクトの研究者によるものです。また、最新のAI研究ニュース、クールなAIプロジェクトなどを共有している29k+のML SubReddit、40k+のFacebookコミュニティ、Discordチャンネル、Emailニュースレターにもぜひ参加してください。 私たちの業績が気に入ったら、ニュースレターも気に入るでしょう。 この記事はMarkTechPostで最初に公開されました。Googleの研究者は、オープンボキャブラリー検出を改善するために、リージョンに意識した方法でビジョントランスフォーマーを事前学習する単純なAI手法、RO-ViTを紹介しました。

「Amazon LexとAmazon Kendra、そして大規模な言語モデルを搭載したAWSソリューションのQnABotを使用して、セルフサービス型の質問応答を展開してください」

「Amazon Lexによるパワーを利用したAWSのQnABotソリューションは、オープンソースのマルチチャネル、マルチ言語の会話型チャットボットですQnABotを使用すると、自己サービスの会話型AIを迅速にコンタクトセンター、ウェブサイト、ソーシャルメディアチャネルに展開することができ、コストを削減し、ホールド時間を短縮し、顧客体験とブランドの評価を向上させることができますこの記事では、QnABotの新しい生成型AI機能を紹介し、これらの機能を使用するためのチュートリアルを作成、展開、カスタマイズする方法について説明しますまた、関連するユースケースについても議論します」

VoAGIニュース、8月30日:Generative AIで構築された7つのプロジェクト • NumpyとPandasを超えて:あまり知られていないPythonライブラリ

「ジェネラティブAIを用いた7つのプロジェクト • NumpyとPandasを超えて:知名度の低いPythonライブラリの可能性を引き出す • データサイエンスにおけるChatGPTのコードインタプリタの5つの活用方法 • GPT-4 8つのモデルを1つに;秘密が明らかに」

「リアルタイムデータのためのPythonでのChatGPT APIの使用方法」

「ChatGPTが未知のトピックに回答するようにしたいですか? ここでは、わずかなコード行でAIパワードのアプリを構築する方法について、ステップバイステップのチュートリアルをご紹介します」

「AWS 上の生成型 AI を使用して、放射線学のレポートの所見から自動的に印象を生成します」

この投稿では、AWSサービスを使用して、公開されているLLMsを放射線学報告の要約のために微調整する戦略を示していますLLMsは、自然言語の理解と生成において卓越した能力を示しており、さまざまなドメインやタスクに適応できる基礎モデルとして機能します事前学習済みモデルを使用することには、重要な利点があります計算コストを削減し、炭素フットプリントを削減し、ゼロからモデルをトレーニングする必要がなく、最先端のモデルを使用できます

「Auto-GPT&GPT-Engineer:今日の主要なAIエージェントについての詳細ガイド」

「ChatGPTとAuto-GPT&GPT-Engineerなどの自律型AIエージェントの包括的な分析に没入してください機能、セットアップガイドを探索し、労働市場への影響を理解してください」

ODSC APAC 2023はオンデマンドで視聴可能になりました

先週、世界中から集まった何千人ものデータサイエンティストがODSC APAC Virtualで学び、成長し、つながるために集まりました今回のカンファレンスが終了したので、トップセッションのいくつかをオンデマンドで共有することを楽しみにしています以下でチェックしてくださいレコメンダーシステムを活用して最大限の効果を発揮する...

ウィスコンシン大学マディソン校の研究者たちは、「エベントフルトランスフォーマー:最小限の精度損失でコスト効果のあるビデオ認識手法」というタイトルで、イベントフルトランスフォーマーに基づくビデオ認識の費用対効果の高い手法を提案しています

最近、言語モデリングを目的としたTransformerは、ビジョン関連のタスクのアーキテクチャとしても研究されています。オブジェクトの識別、画像の分類、ビデオの分類などのアプリケーションにおいて最先端のパフォーマンスを発揮し、さまざまな視覚認識の問題において優れた精度を示しています。ビジョンTransformerの主な欠点の1つは、高い処理コストです。ビジョンTransformerは、通常の畳み込みニューラルネットワーク(CNN)に比べて、数百GFlopsの処理が1枚の画像に対して必要となることもあります。ビデオ処理にかかるデータ量の多さは、これらの費用をさらに増加させます。この興味深い技術の潜在能力は、リソースが少ないデバイスや低遅延が必要なデバイスで使用することを妨げる高い計算要件によって制約されています。 ビデオデータと一緒に使用する場合、ビジョンTransformerのコストを削減するために、連続する入力間の時間的冗長性を活用する最初の手法の1つが、ウィスコンシン大学マディソン校の研究者によって提案されました。フレームごとまたはクリップごとにビデオシーケンスに適用されるビジョンTransformerを考えてみてください。このTransformerは、フレームごとのモデル(オブジェクト検出など)や時空間モデルの過渡的なステージ(初期の因子分解モデルなど)のようなものかもしれません。彼らは、時間を超えて複数の異なる入力(フレームまたはクリップ)にTransformerが適用されると考えています。これは、言語処理とは異なり、1つのTransformer入力が完全なシーケンスを表すものです。自然な動画は高い程度の時間的冗長性を持ち、フレーム間の変動が少ない傾向があります。しかし、これにもかかわらず、このような状況でも、Transformerなどの深層ネットワークは各フレームで頻繁に「ゼロから」計算されます。 この方法は効率的ではありません。なぜなら、それによって以前の結論からの潜在的に有用なデータが捨てられてしまうからです。彼らの主な洞察は、以前のタイムステップの中間計算を再利用することで冗長なシーケンスをより良く活用できるということです。知的推論。ビジョンTransformer(および深層ネットワーク全般)の推論コストは、設計によって決まることがよくあります。ただし、実際のアプリケーションでは、利用可能なリソースは時間とともに変化する可能性があります(たとえば、競合するプロセスや電源の変更など)。そのため、計算コストをリアルタイムに変更できるモデルが必要です。本研究では、適応性が主な設計目標の1つであり、計算コストに対してリアルタイムの制御を提供するためにアプローチが作成されています。映画の中で計算予算をどのように変更するかの例については、図1(下部)を参照してください。 図1:この戦略は、連続するモデル入力間の時間的なオーバーラップを利用しています。(上)各Transformerブロック内で、時間の経過に伴って大幅な変更が加えられたトークンのみを検出および更新します。 (下)このソリューションは、効率性を向上させるだけでなく、実行時に計算コストを細かく制御することも可能です。 以前の研究では、CNNの時間的冗長性と適応性に関して調査されてきました。しかし、TransformerとCNNの間には重要なアーキテクチャの違いがあるため、これらのアプローチは通常、Transformerのビジョンには互換性がありません。特に、Transformerは複数のCNNベースの手法から逸脱した、新しい基本的な手法である自己注意を導入しています。しかし、このような障害にもかかわらず、ビジョンTransformerには大きな可能性があります。特に、時空間的な冗長性を考慮に入れることで獲得されるCNNのスパース性を実際の高速化に転送することは難しいです。これを行うには、スパース構造に大きな制約を課すか、特別な計算カーネルを使用する必要があります。一方、トークンベクトルの操作に焦点を当てたTransformerの性質により、スパース性をより短い実行時間に転送することはより簡単です。イベントを持つTransformer。 効果的で適応性のある推論を可能にするために、彼らはイベントフルTransformerという新しいタイプのTransformerを提案しています。イベントフルという言葉は、シーンの変化に応じて疎な出力を生成するセンサーであるイベントカメラを指すために作られました。イベントフルTransformerは、時間の経過に伴うトークンレベルの変化を追跡するために、各タイムステップでトークンの表現と自己注意マップを選択的に更新します。ゲーティングモジュールは、更新されるトークンの量をランタイムで制御するためのイベントフルTransformerのブロックです。彼らのアプローチは、さまざまなビデオ処理アプリケーションと共に動作し、再トレーニングなしで既存のモデルに使用することができます。彼らの研究は、最先端のモデルから作成されたイベントフルTransformerが、計算コストを大幅に削減しながら元のモデルの精度をほぼ保持することを示しています。 彼らのソースコードは、イベントフルトランスフォーマーを作成するためのPyTorchモジュールが公開されています。Wisionlabのプロジェクトページは、wisionlab.com/project/eventful-transformersにあります。CPUとGPUでは、壁時計の速度向上が示されています。彼らのアプローチは、標準的なPyTorchオペレータに基づいているため、技術的な観点からは最適とは言えないかもしれません。彼らは、オーバーヘッドを減らすための作業(ゲーティングロジックのための融合CUDAカーネルの構築など)を行うことで、速度向上比率がさらに高まる可能性があると確信しています。さらに、彼らのアプローチには、ある程度避けられないメモリオーバーヘッドが生じます。当然のことながら、一部のテンソルをメモリ上に保持することは、以前の時間ステップからの計算の再利用に必要です。 論文をチェックしてください。この研究に関する全てのクレジットは、このプロジェクトの研究者に帰属します。また、最新のAI研究ニュースや素敵なAIプロジェクトなどを共有している2.9万人以上のML SubReddit、4万人以上のFacebookコミュニティ、Discordチャンネル、およびメールニュースレターにも参加するのを忘れないでください。 私たちの活動が気に入ったなら、ニュースレターも気に入るはずです。 この投稿は、「ミニマルな精度損失を伴うコスト効果的なビデオ認識手法であるイベントフルトランスフォーマーについて、ウィスコンシン大学マディソン校の研究者が提案しました」という記事です。 (翻訳元:MarkTechPost)

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us