Learn more about Search Results 比較 - Page 255
- You may be interested
- MITの研究者たちは「MechGPT」を導入しま...
- 「InVideoレビュー:2023年11月の最高のAI...
- 「ゼロからの実験オーケストレーション」
- 「AIのための機会の議題」
- 自律型AIエージェントについて知る必要性
- Google Researchがジェネレーティブな無限...
- ペンシルベニア大学の研究者たちは、腎臓...
- 一貫性のあるAIビデオエディターが登場し...
- AI Pin iPhoneを置き換えるかもしれないデ...
- 「シームレスM4Tに出会ってください:Meta...
- 「ToolLLMをご紹介します:大規模言語モデ...
- 「注目のAI GitHubリポジトリ:2023年11月...
- 「この男性は誰でもバイラルにすることが...
- 「「AI-トクラシー」がどのように生まれる...
- 「BERT vs GPT:NLPの巨人たちの比較」
Pythonの依存関係管理:どのツールを選ぶべきですか?
あなたのデータサイエンスプロジェクトが拡大するにつれて、依存関係の数も増えますプロジェクトの環境を再現可能かつメンテナンス可能に保つために、効率的な依存関係を使用することが重要です...
GPTとBERT:どちらが優れているのか?
生成AIの人気の高まりに伴い、大規模言語モデルの数も増加していますこの記事では、GPTとBERTの2つのモデルを比較しますGPT(Generative...
LLMsによる非構造化データから構造化データへの変換
大規模な言語モデルを使用して、文書から洞察を抽出して分析と大規模な機械学習に活用する方法を学びましょうこのウェビナーとライブチュートリアルに参加して、始め方を学びましょう
このAI論文は、自律走行車のデータセットを対象とし、コンピュータビジョンモデルのトレーニングの匿名化の影響を研究しています
画像匿名化とは、プライバシー保護のために画像から機密情報を変更または削除することです。プライバシー規制に準拠するために重要ですが、匿名化はしばしばデータ品質を低下させ、コンピュータビジョンの開発を妨げます。データ劣化、プライバシーとユーティリティのバランス、効率的なアルゴリズムの作成、モラルと法的問題の調整など、いくつかの課題が存在します。プライバシーを確保しながらコンピュータビジョンの研究とアプリケーションを改善するために、適切な妥協点を見つける必要があります。 画像の匿名化に関する以前のアプローチには、ぼかし、マスキング、暗号化、クラスタリングなどの従来の方法が含まれています。最近の研究では、生成モデルを使用してアイデンティティを置き換えることにより、現実的な匿名化に焦点が当てられています。しかし、多くの方法には匿名性の正式な保証がなく、画像の他の手がかりでアイデンティティが明らかになることがあります。さまざまな影響を持つタスクによって、コンピュータビジョンモデルに与える影響を探究した限られた研究が行われています。公開された匿名化されたデータセットはまれです。 最近の研究では、ノルウェー科学技術大学の研究者が、自律型車両の文脈での重要なコンピュータビジョンタスク、特にインスタンスセグメンテーションおよび人物姿勢推定に注目しました。彼らはDeepPrivacy2に実装されたフルボディと顔の匿名化モデルの性能を評価し、現実的な匿名化アプローチと従来の方法の効果を比較することを目的としました。 記事で評価された匿名化の影響を評価するために提案された手順は次のとおりです。 一般的なコンピュータビジョンデータセットの匿名化。 匿名化されたデータを使用してさまざまなモデルをトレーニングする。 元の検証データセットでモデルを評価する。 著者らは、ぼかし、マスクアウト、現実的な匿名化の3つのフルボディと顔の匿名化テクニックを提案しています。インスタンスセグメンテーション注釈に基づいて匿名化領域を定義します。従来の方法にはマスキングアウトとガウスぼかしがあり、現実的な匿名化にはDeepPrivacy2からの事前トレーニング済みモデルが使用されます。著者らはまた、ヒストグラム均等化と潜在最適化を介してフルボディ合成のグローバルコンテキストの問題にも取り組んでいます。 著者らは、COCOポーズ推定、Cityscapesインスタンスセグメンテーション、BDD100Kインスタンスセグメンテーションの3つのデータセットを使用して匿名化されたデータでトレーニングされたモデルを評価する実験を実施しました。顔の匿名化技術はCityscapesとBDD100Kデータセットにおいてほとんど性能に差がありませんでした。しかし、COCOポーズ推定において、マスクアウトとぼかしの両方が人体との相関関係により性能の大幅な低下を引き起こしました。フルボディの匿名化は、従来の方法でも現実的な方法でも、元のデータセットと比較して性能が低下しました。現実的な匿名化はより優れていましたが、キーポイント検出のエラー、合成の制限、グローバルコンテキストの不一致により、結果が低下しました。著者らはまた、モデルサイズの影響を探究し、COCOデータセットの顔の匿名化において、大きなモデルほど性能が低下することがわかりました。フルボディの匿名化においては、標準的および多変量切り捨て法の両方が性能の向上につながりました。 結論として、この研究は、自律型車両のデータセットを使用してコンピュータビジョンモデルをトレーニングする際に匿名化が及ぼす影響を調査しました。顔の匿名化はインスタンスセグメンテーションにほとんど影響を与えず、フルボディの匿名化は性能を大幅に低下させました。現実的な匿名化は従来の方法よりも優れていましたが、本物のデータの完全な代替品ではありません。モデルのパフォーマンスを損なわずにプライバシーを保護することが重要であることが示されました。この研究は注釈に依存しており、モデルアーキテクチャに制限があるため、匿名化技術を改善し、合成の制限に対処するためのさらなる研究が求められています。自律型車両での人物の合成における課題も指摘されました。 論文をチェックしてください。最新のAI研究ニュース、クールなAIプロジェクトなどを共有する、25k以上のML SubReddit、Discordチャンネル、およびメールニュースレターに参加することをお忘れなく。上記の記事に関する質問や、何か見落としていることがある場合は、[email protected]までメールでお問い合わせください。
BITEとは 1枚の画像から立ち姿や寝そべりのようなポーズなど、困難なポーズでも3D犬の形状とポーズを再構築する新しい手法
生物学や保全、エンターテインメントや仮想コンテンツの開発など、多くの分野で3D動物の形状や態度を捕捉してモデリングすることは有益です。動物を静止させたり、特定の姿勢を維持したり、観察者と物理的接触をしたり、協力的な何かをする必要はないため、カメラは動物を観察するための自然なセンサーです。Muybridge氏による有名な「馬の運動」の連続写真のように、写真を使用して動物を研究する歴史は長いです。しかし、以前の3D人間の形状や態度に関する研究とは異なり、最近では動物の独特な形状と位置に変化できる表現豊かな3Dモデルが開発されています。ここでは、単一の写真から3D犬再構築の課題に焦点を当てます。 犬は、四肢のような関節の変形が強く、品種間の広い形状変化があるため、モデル種として選ばれます。犬は定期的にカメラに捉えられます。したがって、様々な姿勢、形状、および状況が簡単に利用できます。人と犬をモデリングすることには同様の困難があるかもしれませんが、それらは非常に異なる技術的障壁を持っています。多くの3Dスキャンとモーションキャプチャデータがすでに利用可能であり、SMPLやGHUMのような堅牢な関節モデルを学習することが可能になっています。 それに対して、動物の3D観察を収集することは困難であり、現在は、すべての想定される形状と位置を考慮に入れた同様に表現豊かな3D統計モデルを学習するためにより多くのデータが必要です。SMALは、おもちゃのフィギュアから学習された、四足動物のパラメトリックモデルであり、犬を含む動物を写真から3Dで再現することが現在可能になりました。しかし、SMALは、猫からカバまで多くの種に対して一般的なモデルであり、さまざまな動物の多様な体型を描写できますが、大きな耳の範囲などの犬の品種の独特で微細な詳細を描写することはできません。この問題を解決するために、ETH Zurich、Max Planck Institute for Intelligent Systems、Germany、IMATI-CNR、Italyの研究者たちは、正しく犬を表現する最初のD-SMALパラメトリックモデルを提供しています。 また、人と比較して、犬は比較的少量のモーションキャプチャデータしか持っておらず、そのデータのうち座ったり寝そべったりする姿勢はめったにキャプチャされません。そのため、現在のアルゴリズムでは、特定の姿勢で犬を推測することが困難です。たとえば、歴史的データから3Dポーズの事前に学習すると、立ち上がったり歩いたりする姿勢に偏ってしまいます。一般的な制約を使用することで、この事前情報を弱めることができますが、ポーズの推定は非常に未解決となります。この問題を解決するために、彼らは、(地形)動物をモデリングする際に見落とされていた物理的タッチに関する情報を利用しています。つまり、重力の影響を受けるため、地面に立ったり、座ったり、寝転がったりすることができます。 複雑な自己遮蔽のある困難な状況では、彼らは地面接触情報を使用して複雑な犬のポーズを推定する方法を示しています。人間のポーズ推定において地面面制限が使用されてきましたが、四足動物にとっては潜在的な利点が大きいです。四本足は、より多くの地面接触点、座ったり寝そべったりしたときにより多くの体部位が隠れ、より大きな非剛体変形を示唆しています。以前の研究のもう一つの欠点は、再構築パイプラインがしばしば2D画像で訓練されていることです。対応する2D画像と共に3Dデータを収集することは困難です。そのため、再投影すると視覚的証拠に近くなりますが、視野方向に沿って歪んでいる位置や形状を予測することがあります。 異なる角度から見ると、3D再構築が誤った場合があります。対応するデータがないため、遠くまたは隠れた体の部分をどこに配置すべきかを決定するための十分な情報がないためです。彼らは再び、地面接触のシミュレーションが有益であることを発見しました。結合された2Dと3Dデータを手動で再構築(または合成)する代わりに、より緩い3D監視方法に切り替えて、地面接触ラベルを取得します。アノテーターには、犬の下の地面が平らかどうかを指示し、平らである場合は3D動物の地面接触点を追加で注釈するように求めます。これは、アノテーターに実際の写真を提示することで実現されます。 図1 は、BITEが単一の入力画像から犬の3D形状と姿勢を推定できるようになったことを示しています。このモデルは、様々な品種やタイプ、そして訓練ポーズの範囲外である困難なポーズ、たとえば地面に座ったり寝そべったりすることができます。 彼らは、単一の画像から表面を分類し、接点をかなり正確に検出するようにネットワークを教育できることがわかりました。これらのラベルはトレーニングだけでなく、テスト時にも使用できます。最新の最先端モデルであるBARCに基づいて、再構築システムはBITEと呼ばれています。彼らは、新しいD-SMAL犬モデルを初期の荒い適合ステップとして使用してBARCを再トレーニングします。その後、結果の予測を最近作成したリファインメントネットワークに送信し、接地損失を使用してカメラの設定と犬のスタンスの両方を改善するためにトレーニングします。テスト時にも接地損失を使用して、テスト画像に完全に自律的に適合を最適化することができます(図1を参照)。これにより、再構築の品質が大幅に向上します。BARCポーズ事前に対するトレーニングセットにそのようなポーズが含まれていなくても、BITEを使用して(局所的に平面的な)地面に正しく立つ犬を取得したり、座ったり横たわったりといった姿勢で現実的に再構築したりすることができます。3D犬再構築に関する先行研究は、主観的な視覚評価または写真に戻って2D残差を評価することによって評価されており、深度に関連する不正確さを投影しています。彼らは、客観的な3D評価の欠如を克服するために、実際の犬をさまざまな視点から3Dスキャンして、3D真実値を持つ半合成データセットを開発しました。彼らは、この新しいデータセットを使用して、BITEとその主要な競合他社を評価し、BITEがこの分野の新しい標準を確立することを示しています。 彼らの貢献の要約は以下の通りです: 1. SMALから開発された、新しい、犬種固有の3DポストureおよびフォームモデルであるD-SMALを提供します。 2.同時に地面の局所平面を評価するためのニューラルモデルであるBITEを作成します。BITEは、信じられる地面接触を促進します。 3.モデルを使用する前に、(必然的に小さい)先行モデルでエンコードされたものとは非常に異なる犬の位置を回復することが可能であることを示します。 4. StanfordExtraデータセットを使用して、単眼カメラによる3Dポストure推定の最先端を改善します。 5.実際の犬のスキャンに基づく半合成3Dテストコレクションを提供し、真の3D評価への移行を促進します。
MetaのAIが参照メロディに基づいて音楽を生成する方法
2023年6月13日、Meta(以前のFacebook)は、生成音楽モデルであるMusicGenをリリースし、音楽とAIコミュニティに衝撃を与えましたこのモデルは、GoogleのMusicLMを超えるだけでなく...
ExcelとPower BI – 意思決定においてどちらが優れているか?
現代の急速なビジネス環境においては、組織の成功のためには情報をもとにした意思決定が不可欠です。人気のあるビジネスインテリジェンスツールとそのユニークな機能を理解することが、真のポテンシャルを引き出す上で重要です。MS ExcelとPower BIの両方は、データ分析と意思決定に関する印象的な機能を提供しています。ただし、最適な選択を決定するには、具体的な要件に応じて決定する必要があります。この記事では、MS ExcelとPower BIの強みと特定のユースケースについて掘り下げ、ビジネスニーズに合わせてどちらのツールを選択するかをお手伝いします。 MS Excelとは? Microsoft Excelは、データの整理、操作、分析、可視化が可能な強力かつ使いやすいツールです。データ処理、クリーニング、変換などの重要な機能を提供しています。データ分析と可視化には、データ分析ツール、ピボットテーブル、グラフなどの組み込み機能があります。また、Goal Seek、Solver、Decision Trees、Sensitivity analysisなどの機能により、要約されたデータに基づいて情報をもとにした意思決定が可能です。Power PivotやQueryは、データモデリングや変換を容易にすることで、意思決定に重要な役割を果たしています。Excelは、データを分析し、効果的な意思決定を行うための多目的なツールです。 Power BIとは? Power BIは、Excelと同等の性能を持ち、データ変換、意思決定、さまざまなデータソースへの接続、統合、可視化、プレゼンテーションなどの機能を提供するMicrosoftが提供する別の意思決定テーブルです。Power BIには、動的でインタラクティブなレポートやリアルタイムダッシュボードを作成する機能など、独自の特徴があります。また、データモデリング、異なるデータ間の関係の形成、データ内の依存関係の検索なども含まれます。 さらに、Power Queryを介したデータクエリは、直感的なグラフィカルインターフェースを使用して、クリーニング、整形、および変換などのデータ処理アクションを実行する興味深い機能です。Microsoftの製品として、包括的で使いやすいビジネスインテリジェンスツールとしてのコア機能とサービスを提供します。 Excelの最良の機能 1. データの整理に使用できるスプレッドシート ソートおよびフィルタリング:ソートおよびフィルタリング機能を使用して、データを簡単に整理できます。…
Paellaを紹介します:安定した拡散よりもはるかに高速に高品質の画像を生成できる新しいAIモデル
過去2〜3年で、人工知能(AI)を使用してテキストから画像を生成する方法に関する研究の質と量が驚異的に増加しています。この分野で最も画期的で革命的な作品の1つは、最先端の生成モデルである拡散モデルを参照しています。これらのモデルは、深層学習アルゴリズムの力を利用して、テキストの記述を使用して高品質の画像を生成する方法を完全に変革しました。また、拡散に加えて、他の多くの強力な技術が存在し、テキスト入力から写真のようなリアルなビジュアルコンテンツを生成するエキサイティングなパスが提供されています。ただし、これらの最先端の技術によって達成された例外的な結果には、特定の制限があります。新興の生成AI技術の多くは、拡散モデルに依存しており、トレーニングと画像生成に複雑なアーキテクチャと相当な計算リソースが必要です。これらの高度な手法はまた、推論速度を低下させ、リアルタイムの実装には不適切です。さらに、これらの技術の複雑さは、可能にする進歩に直接関連しており、これらのモデルの内部動作を把握する一般の人々にとって課題を提供し、ブラックボックスモデルとして認識される状況を引き起こしています。 この前述の懸念に対処するために、ドイツのTechnische Hochschule IngolstadtとWand Technologiesの研究チームは、新しいテキスト条件付き画像生成技術を提案しました。この革新的な技術は拡散に似ていますが、高品質の画像をはるかに速く生成します。この畳み込みベースのモデルの画像サンプリング段階は、わずか12ステップで実行でき、それでも例外的な画像品質を発揮します。このアプローチは、その卓越したシンプルさと、既存の最先端の技術に欠ける利点を楽しむためにモデルを条件付けることができることで際立っています。提案された技術の固有の単純さは、そのテキストから画像への技術を理解し、実装することができる、異なるバックグラウンドを持つ人々によって容易に利用できるようになりました。研究者は、実験評価を通じて自分たちの手法を検証するために、驚異的な10億のパラメーターを持つテキスト条件付きモデル「Paella」をトレーニングしました。チームはまた、彼らのコードとモデルの重みをMITライセンスの下でオープンソース化し、彼らの仕事に関する研究を促進するようにしました。 拡散モデルは、トレーニングインスタンスからノイズの異なるレベルを順次除去する学習プロセスを経ます。純粋なノイズが提示されると、モデルは数百ステップにわたってノイズを反復的に減算して画像を生成します。ドイツの研究者が考案した技術は、これらの拡散モデルの原則から大いに影響を受けています。拡散モデルと同様に、Paellaは、画像を表すトークンからさまざまな程度のノイズを除去し、新しい画像を生成するためにそれらを使用します。このモデルは、LAION-5B美的データセットからの9億の画像テキストペアでトレーニングされました。Paellaは、事前にトレーニングされた畳み込みニューラルネットワークに基づくエンコーダーデコーダーアーキテクチャを使用し、事前トレーニング中に学習された8,192トークンのセットから選択された256トークンを使用して256×256の画像を表すことができます。研究者たちは、トレーニングフェーズ中に自分たちの例にノイズを追加するために、このリストにいくつかのランダムに選択されたトークンを含めました。 研究者は、画像のテキスト記述に基づいてテキスト埋め込みを生成するために、画像とテキストの説明の間に接続を確立するCLIP(Contrastive Language-Image Pretraining)モデルを利用しました。次に、U-Net CNNアーキテクチャを使用して、テキスト埋め込みと前のイテレーションで生成されたトークンを使用して、元のトークンセットの完全なセットを生成するモデルのトレーニングが行われました。この反復プロセスは12回繰り返され、前回の反復で生成されたトークンの一部を徐々に置き換えていきます。残りの生成されたトークンのガイダンスの下で、U-Netは各ステップでノイズを徐々に減らしていきます。推論中、CLIPは与えられたテキストプロンプトに基づいて埋め込みを生成し、U-Netはランダムに選択された256トークンのセットに対して12ステップですべてのトークンを再構築しました。最後に、デコーダーは生成されたトークンを使用して画像を生成しました。 研究効果を評価するために、研究者たちはFréchet inception distance(FID)メトリックを使用して、PaellaモデルとStable Diffusionモデルから得られた結果を比較しました。結果はわずかにStable Diffusionに有利でしたが、Paellaは速度の点で大きなアドバンテージを持っています。この研究は、以前に考慮されていなかったアーキテクチャを完全に再構成することに焦点を当てたため、以前の取り組みとは異なります。結論として、Paellaは、既存のモデルに比べて小さなモデルサイズと少ないサンプリングステップで高品質の画像を生成でき、それでも顕著な成果を達成できます。研究チームは、ジェネラティブAIの分野が時間とともにますます注目を集める中、非技術的な分野を含むさまざまなバックグラウンドを持つ個人が簡単に採用できるシンプルなセットアップを提供するアプローチのアクセシビリティを強調しています。
Netflix株の時系列分析(Pandasによる)
はじめに データの時系列分析は、この場合はNetflixの株式などの数字の集まりだけではありません。Pandasと組み合わさることで、複雑な世界の物語を魅力的に紡ぐ織物のようなものです。神秘的な糸のように、出来事の起伏や流れ、トレンドの上昇や下降、そしてパターンの出現を捉えます。それは、私たちの現実を形作る隠されたつながりや相関関係を明らかにし、過去の生き生きとした描写を提供し、未来の一端を垣間見るものです。 時系列分析は単なるツール以上のものです。それは知識と洞察を得るためのゲートウェイであります。時間に関するデータの秘密を解き明かし、生の情報を貴重な洞察に変える力を与え、情報をもとに妥当な決定を下し、リスクを軽減し、新しい機会を活用する手助けをします。 このエキサイティングな冒険に一緒に乗り出し、時系列分析の魅力的な領域に飛び込んでみましょう! 学習目標 時系列分析の概念を紹介し、そのさまざまな分野での重要性を強調し、実際の例を示して、時系列分析の実用的な応用を紹介します。 Pythonとyfinanceライブラリを使用してNetflixの株式データをインポートする方法を実演することで、時系列データを取得し、分析のために準備するための必要な手順を学びます。 最後に、シフト、ローリング、およびリサンプリングなどの時系列分析で使用される重要なPandas関数に焦点を当て、時系列データを効果的に操作および分析するための方法を示します。 この記事は、Data Science Blogathonの一環として公開されました。 時系列分析とは何ですか? 時系列とは、連続的かつ等間隔の時間間隔で収集または記録されたデータのシーケンスです。 時系列分析は、時間によって収集されたデータポイントを分析する統計的技術です。 これには、データの視覚化、統計モデリング、予測方法などの技術が含まれます。 順次データのパターン、トレンド、依存関係を研究し、洞察を抽出し、予測を行うことが含まれます。 時系列データの例 株式市場データ:歴史的な株価を分析してトレンドを特定し、将来の価格を予測する。 天気データ:時間の経過に伴って温度、降水量、その他の変数を研究して、気候パターンを理解する。 経済指標:GDP、インフレ率、失業率を分析して、経済のパフォーマンスを評価する。 売上データ:時間の経過に伴って売上高を調べ、パターンを特定し、将来の売上高を予測する。 ウェブトラフィック:ウェブトラフィックメトリックを分析して、ユーザーの行動を理解し、ウェブサイトのパフォーマンスを最適化する。 時系列の構成要素 時系列の4つの構成要素があります。それらは次のとおりです。…
データサイエンティストとは具体的に何をする人なのでしょうか?
この様々な職務記述の羅列からも明らかなように、データサイエンティストの役割が実際に日々何を含むのかを明確に把握するのは非常に困難であることがあります既存の多くの記事は、...
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.