Learn more about Search Results H3 - Page 195

BITEとは 1枚の画像から立ち姿や寝そべりのようなポーズなど、困難なポーズでも3D犬の形状とポーズを再構築する新しい手法

生物学や保全、エンターテインメントや仮想コンテンツの開発など、多くの分野で3D動物の形状や態度を捕捉してモデリングすることは有益です。動物を静止させたり、特定の姿勢を維持したり、観察者と物理的接触をしたり、協力的な何かをする必要はないため、カメラは動物を観察するための自然なセンサーです。Muybridge氏による有名な「馬の運動」の連続写真のように、写真を使用して動物を研究する歴史は長いです。しかし、以前の3D人間の形状や態度に関する研究とは異なり、最近では動物の独特な形状と位置に変化できる表現豊かな3Dモデルが開発されています。ここでは、単一の写真から3D犬再構築の課題に焦点を当てます。 犬は、四肢のような関節の変形が強く、品種間の広い形状変化があるため、モデル種として選ばれます。犬は定期的にカメラに捉えられます。したがって、様々な姿勢、形状、および状況が簡単に利用できます。人と犬をモデリングすることには同様の困難があるかもしれませんが、それらは非常に異なる技術的障壁を持っています。多くの3Dスキャンとモーションキャプチャデータがすでに利用可能であり、SMPLやGHUMのような堅牢な関節モデルを学習することが可能になっています。 それに対して、動物の3D観察を収集することは困難であり、現在は、すべての想定される形状と位置を考慮に入れた同様に表現豊かな3D統計モデルを学習するためにより多くのデータが必要です。SMALは、おもちゃのフィギュアから学習された、四足動物のパラメトリックモデルであり、犬を含む動物を写真から3Dで再現することが現在可能になりました。しかし、SMALは、猫からカバまで多くの種に対して一般的なモデルであり、さまざまな動物の多様な体型を描写できますが、大きな耳の範囲などの犬の品種の独特で微細な詳細を描写することはできません。この問題を解決するために、ETH Zurich、Max Planck Institute for Intelligent Systems、Germany、IMATI-CNR、Italyの研究者たちは、正しく犬を表現する最初のD-SMALパラメトリックモデルを提供しています。 また、人と比較して、犬は比較的少量のモーションキャプチャデータしか持っておらず、そのデータのうち座ったり寝そべったりする姿勢はめったにキャプチャされません。そのため、現在のアルゴリズムでは、特定の姿勢で犬を推測することが困難です。たとえば、歴史的データから3Dポーズの事前に学習すると、立ち上がったり歩いたりする姿勢に偏ってしまいます。一般的な制約を使用することで、この事前情報を弱めることができますが、ポーズの推定は非常に未解決となります。この問題を解決するために、彼らは、(地形)動物をモデリングする際に見落とされていた物理的タッチに関する情報を利用しています。つまり、重力の影響を受けるため、地面に立ったり、座ったり、寝転がったりすることができます。 複雑な自己遮蔽のある困難な状況では、彼らは地面接触情報を使用して複雑な犬のポーズを推定する方法を示しています。人間のポーズ推定において地面面制限が使用されてきましたが、四足動物にとっては潜在的な利点が大きいです。四本足は、より多くの地面接触点、座ったり寝そべったりしたときにより多くの体部位が隠れ、より大きな非剛体変形を示唆しています。以前の研究のもう一つの欠点は、再構築パイプラインがしばしば2D画像で訓練されていることです。対応する2D画像と共に3Dデータを収集することは困難です。そのため、再投影すると視覚的証拠に近くなりますが、視野方向に沿って歪んでいる位置や形状を予測することがあります。 異なる角度から見ると、3D再構築が誤った場合があります。対応するデータがないため、遠くまたは隠れた体の部分をどこに配置すべきかを決定するための十分な情報がないためです。彼らは再び、地面接触のシミュレーションが有益であることを発見しました。結合された2Dと3Dデータを手動で再構築(または合成)する代わりに、より緩い3D監視方法に切り替えて、地面接触ラベルを取得します。アノテーターには、犬の下の地面が平らかどうかを指示し、平らである場合は3D動物の地面接触点を追加で注釈するように求めます。これは、アノテーターに実際の写真を提示することで実現されます。 図1 は、BITEが単一の入力画像から犬の3D形状と姿勢を推定できるようになったことを示しています。このモデルは、様々な品種やタイプ、そして訓練ポーズの範囲外である困難なポーズ、たとえば地面に座ったり寝そべったりすることができます。 彼らは、単一の画像から表面を分類し、接点をかなり正確に検出するようにネットワークを教育できることがわかりました。これらのラベルはトレーニングだけでなく、テスト時にも使用できます。最新の最先端モデルであるBARCに基づいて、再構築システムはBITEと呼ばれています。彼らは、新しいD-SMAL犬モデルを初期の荒い適合ステップとして使用してBARCを再トレーニングします。その後、結果の予測を最近作成したリファインメントネットワークに送信し、接地損失を使用してカメラの設定と犬のスタンスの両方を改善するためにトレーニングします。テスト時にも接地損失を使用して、テスト画像に完全に自律的に適合を最適化することができます(図1を参照)。これにより、再構築の品質が大幅に向上します。BARCポーズ事前に対するトレーニングセットにそのようなポーズが含まれていなくても、BITEを使用して(局所的に平面的な)地面に正しく立つ犬を取得したり、座ったり横たわったりといった姿勢で現実的に再構築したりすることができます。3D犬再構築に関する先行研究は、主観的な視覚評価または写真に戻って2D残差を評価することによって評価されており、深度に関連する不正確さを投影しています。彼らは、客観的な3D評価の欠如を克服するために、実際の犬をさまざまな視点から3Dスキャンして、3D真実値を持つ半合成データセットを開発しました。彼らは、この新しいデータセットを使用して、BITEとその主要な競合他社を評価し、BITEがこの分野の新しい標準を確立することを示しています。 彼らの貢献の要約は以下の通りです: 1. SMALから開発された、新しい、犬種固有の3DポストureおよびフォームモデルであるD-SMALを提供します。 2.同時に地面の局所平面を評価するためのニューラルモデルであるBITEを作成します。BITEは、信じられる地面接触を促進します。 3.モデルを使用する前に、(必然的に小さい)先行モデルでエンコードされたものとは非常に異なる犬の位置を回復することが可能であることを示します。 4. StanfordExtraデータセットを使用して、単眼カメラによる3Dポストure推定の最先端を改善します。 5.実際の犬のスキャンに基づく半合成3Dテストコレクションを提供し、真の3D評価への移行を促進します。

ExcelとPower BI – 意思決定においてどちらが優れているか?

現代の急速なビジネス環境においては、組織の成功のためには情報をもとにした意思決定が不可欠です。人気のあるビジネスインテリジェンスツールとそのユニークな機能を理解することが、真のポテンシャルを引き出す上で重要です。MS ExcelとPower BIの両方は、データ分析と意思決定に関する印象的な機能を提供しています。ただし、最適な選択を決定するには、具体的な要件に応じて決定する必要があります。この記事では、MS ExcelとPower BIの強みと特定のユースケースについて掘り下げ、ビジネスニーズに合わせてどちらのツールを選択するかをお手伝いします。 MS Excelとは? Microsoft Excelは、データの整理、操作、分析、可視化が可能な強力かつ使いやすいツールです。データ処理、クリーニング、変換などの重要な機能を提供しています。データ分析と可視化には、データ分析ツール、ピボットテーブル、グラフなどの組み込み機能があります。また、Goal Seek、Solver、Decision Trees、Sensitivity analysisなどの機能により、要約されたデータに基づいて情報をもとにした意思決定が可能です。Power PivotやQueryは、データモデリングや変換を容易にすることで、意思決定に重要な役割を果たしています。Excelは、データを分析し、効果的な意思決定を行うための多目的なツールです。 Power BIとは? Power BIは、Excelと同等の性能を持ち、データ変換、意思決定、さまざまなデータソースへの接続、統合、可視化、プレゼンテーションなどの機能を提供するMicrosoftが提供する別の意思決定テーブルです。Power BIには、動的でインタラクティブなレポートやリアルタイムダッシュボードを作成する機能など、独自の特徴があります。また、データモデリング、異なるデータ間の関係の形成、データ内の依存関係の検索なども含まれます。 さらに、Power Queryを介したデータクエリは、直感的なグラフィカルインターフェースを使用して、クリーニング、整形、および変換などのデータ処理アクションを実行する興味深い機能です。Microsoftの製品として、包括的で使いやすいビジネスインテリジェンスツールとしてのコア機能とサービスを提供します。 Excelの最良の機能 1. データの整理に使用できるスプレッドシート ソートおよびフィルタリング:ソートおよびフィルタリング機能を使用して、データを簡単に整理できます。…

AIのダークサイドを明らかにする:プロンプトハッキングがあなたのAIシステムを妨害する方法

LLMsによるハッキングを防止し、データを保護するために、AIシステムを保護してくださいこの新興脅威に対するリスク、影響、予防策を学んでください

ChatGPTの哲学コース:このAI研究は、対話エージェントのLLMの振る舞いを探究します

2023年はLLMの年です。ChatGPT、GPT-4、LLaMAなど、新しいLLMモデルが続々と注目を集めています。これらのモデルは自然言語処理の分野を革新し、さまざまなドメインで増え続ける利用に遭遇しています。 LLMには、対話を行うなど、人間のような対話者との魅力的な幻想を生み出す幅広い行動を示す驚くべき能力があります。ただし、LLMベースの対話エージェントは、いくつかの点で人間とは大きく異なることを認識することが重要です。 私たちの言語スキルは、世界との具体的なやり取りを通じて発達します。私たちは個人として、社会化や言語使用者のコミュニティでの浸透を通じて認知能力や言語能力を獲得します。このプロセスは赤ちゃんの場合はより早く、成長するにつれて学習プロセスは遅くなりますが、基礎は同じです。 一方、LLMは、与えられた文脈に基づいて次の単語またはトークンを予測することを主な目的とした、膨大な量の人間が生成したテキストで訓練された非具体的なニューラルネットワークです。彼らのトレーニングは、物理的な世界の直接的な経験ではなく、言語データから統計的なパターンを学ぶことに焦点を当てています。 これらの違いにもかかわらず、私たちはLLMを人間らしく模倣する傾向があります。これをチャットボット、アシスタントなどで行います。ただし、このアプローチには難しいジレンマがあります。LLMの行動をどのように説明し理解するか? LLMベースの対話エージェントを説明するために、「知っている」「理解している」「考えている」などの用語を人間と同様に使用することは自然です。ただし、あまりにも文字通りに受け取りすぎると、このような言葉は人工知能システムと人間の類似性を誇張し、その深い違いを隠すことになります。 では、どのようにしてこのジレンマに取り組むことができるでしょうか? AIモデルに対して「理解する」や「知っている」という用語をどのように説明すればよいでしょうか? それでは、Role Play論文に飛び込んでみましょう。 この論文では、効果的にLLMベースの対話エージェントについて考え、話すための代替的な概念的枠組みや比喩を採用することを提案しています。著者は2つの主要な比喩を提唱しています。1つ目の比喩は、対話エージェントを特定のキャラクターを演じるものとして描写するものです。プロンプトが与えられると、エージェントは割り当てられた役割やペルソナに合わせて会話を続けるようにします。その役割に関連付けられた期待に応えることを目指します。 2つ目の比喩は、対話エージェントをさまざまなソースからのさまざまなキャラクターのコレクションとして見るものです。これらのエージェントは、本、台本、インタビュー、記事など、さまざまな材料で訓練されており、異なるタイプのキャラクターやストーリーラインに関する多くの知識を持っています。会話が進むにつれて、エージェントは訓練データに基づいて役割やペルソナを調整し、キャラクターに応じて適応して対応します。 自己回帰サンプリングの例。出典:https://arxiv.org/pdf/2305.16367.pdf 最初の比喩は、対話エージェントを特定のキャラクターとして演じるものとして描写します。プロンプトが与えられると、エージェントは割り当てられた役割やペルソナに合わせて会話を続けるようにします。その役割に関連付けられた期待に応えることを目指します。 2つ目の比喩は、対話エージェントをさまざまなソースからのさまざまなキャラクターのコレクションとして見るものです。これらのエージェントは、本、台本、インタビュー、記事など、さまざまな材料で訓練されており、異なるタイプのキャラクターやストーリーラインに関する多くの知識を持っています。会話が進むにつれて、エージェントは訓練データに基づいて役割やペルソナを調整し、キャラクターに応じて適応して対応します。 対話エージェントの交代の例。出典:https://arxiv.org/pdf/2305.16367.pdf このフレームワークを採用することで、研究者やユーザーは、人間にこれらの概念を誤って帰属させることなく、欺瞞や自己認識などの対話エージェントの重要な側面を探求することができます。代わりに、焦点は、役割演技シナリオでの対話エージェントの行動や、彼らが模倣できる様々なキャラクターを理解することに移ります。 結論として、LLMに基づく対話エージェントは人間らしい会話をシミュレートする能力を持っていますが、実際の人間の言語使用者とは大きく異なります。役割プレイヤーやシミュレーションの組み合わせなどの代替的な隠喩を使用することにより、LLMベースの対話システムの複雑なダイナミクスをより理解し、その創造的な可能性を認識しながら、人間との根本的な相違を認識できます。

データサイエンティストとは具体的に何をする人なのでしょうか?

この様々な職務記述の羅列からも明らかなように、データサイエンティストの役割が実際に日々何を含むのかを明確に把握するのは非常に困難であることがあります既存の多くの記事は、...

SeabornとMatplotlibを使用して美しい年齢分布グラフを作成する方法(アニメーションを含む)

今日は、matplotlibとseabornを使って上記のような美しい年齢分布グラフを作成する方法を紹介したいと思います年齢分布グラフは、人口統計の視覚化に優れています...

Light & WonderがAWS上でゲーミングマシンの予測保守ソリューションを構築した方法

この記事は、ライトアンドワンダー(L&W)のアルナ・アベヤコーン氏とデニス・コリン氏と共同執筆したものですライトアンドワンダーは、ラスベガスを拠点とするクロスプラットフォームゲーム会社であり、ギャンブル製品やサービスを提供していますAWSと協力して、ライトアンドワンダーは最近、業界初の安全なソリューション「Light & Wonder Connect(LnW Connect)」を開発しました[…]

Google Researchにおける責任あるAI 社会的善のためのAI

Google Research、AI for Social GoodのソフトウェアエンジニアであるJimmy TobinとKatrin Tomanekが投稿しました。 GoogleのAI for Social Goodチームは、研究者、エンジニア、ボランティア、その他のメンバーが、ポジティブな社会的インパクトに焦点を合わせたチームです。私たちの使命は、公衆衛生、アクセシビリティ、危機対応、気候とエネルギー、自然と社会の各分野で、現実世界での価値を実現することによって、AIの社会的な利益を示すことです。私たちは、未開発なコミュニティに対してポジティブな変化をもたらす最良の方法は、変化をもたらす人々やその組織と協力することだと信じています。 このブログ記事では、AI for Social Good内のチームであるProject Euphoniaが行った作業について説明します。このチームは、障害のある人々のための自動音声認識(ASR)の改善を目的としています。通常の発話を持つ人々にとって、ASRモデルの単語エラー率(WER)は10%未満になることがありますが、吃音、失語症、失行症などの障害のある人々の場合、エチオロジーと重症度に応じてWERは50%または90%に達することがあります。この問題に対処するために、私たちは1,000人以上の参加者と協力して、1,000時間以上の障害のある音声サンプルを収集し、個人化されたASRが障害のある人々のパフォーマンスギャップを埋めるための実現可能な道であることを示しました。私たちは、レイヤー凍結技術を使用して、3〜4分のトレーニング音声で個人化が成功することを示しました。 この作業は、個人化された音声モデルを必要とする人々にとって有益であるProject Relateの開発につながりました。GoogleのSpeechチームと共同で構築されたProject Relateは、典型的な音声の理解が難しい人々が自分自身のモデルをトレーニングできるようにするものです。人々はこれらの個人化されたモデルを使用して、より効果的にコミュニケーションを取り、より独立した生活を送ることができます。ASRをよりアクセス可能で使いやすくするために、デジタルアシスタント技術、ディクテーションアプリ、および会話で使用するために、GoogleのUniversal Speech Model(USM)を調整する方法について説明します。 課題に対処する Project Relateのユーザーと緊密に連携して作業を行うことで、個人化されたモデルは非常に有用であることが明らかになりましたが、多くのユーザーにとって、数十または数百の例を記録することは困難です。さらに、個人化されたモデルは、自由形式の会話では常にうまく機能しなかったこともわかりました。…

ディープフェイクビデオを出し抜く

「真実を探し求める時、現実を歪めることが驚くほど簡単になっている」という言葉を訳すと、「真実を求める際に、現実を驚くほど歪めることが簡単になっている」となります

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us