Search Results いくつかの

Pythonの依存関係管理：どのツールを選ぶべきですか？

あなたのデータサイエンスプロジェクトが拡大するにつれて、依存関係の数も増えますプロジェクトの環境を再現可能かつメンテナンス可能に保つために、効率的な依存関係を使用することが重要です...

注目すべきプラグイン：データ分析を自動化するChatGPTプラグイン

このChatGPTプラグインを使用して、EDAプロセスを高速化してください

Data science

このAI論文は、自律走行車のデータセットを対象とし、コンピュータビジョンモデルのトレーニングの匿名化の影響を研究しています

画像匿名化とは、プライバシー保護のために画像から機密情報を変更または削除することです。プライバシー規制に準拠するために重要ですが、匿名化はしばしばデータ品質を低下させ、コンピュータビジョンの開発を妨げます。データ劣化、プライバシーとユーティリティのバランス、効率的なアルゴリズムの作成、モラルと法的問題の調整など、いくつかの課題が存在します。プライバシーを確保しながらコンピュータビジョンの研究とアプリケーションを改善するために、適切な妥協点を見つける必要があります。画像の匿名化に関する以前のアプローチには、ぼかし、マスキング、暗号化、クラスタリングなどの従来の方法が含まれています。最近の研究では、生成モデルを使用してアイデンティティを置き換えることにより、現実的な匿名化に焦点が当てられています。しかし、多くの方法には匿名性の正式な保証がなく、画像の他の手がかりでアイデンティティが明らかになることがあります。さまざまな影響を持つタスクによって、コンピュータビジョンモデルに与える影響を探究した限られた研究が行われています。公開された匿名化されたデータセットはまれです。最近の研究では、ノルウェー科学技術大学の研究者が、自律型車両の文脈での重要なコンピュータビジョンタスク、特にインスタンスセグメンテーションおよび人物姿勢推定に注目しました。彼らはDeepPrivacy2に実装されたフルボディと顔の匿名化モデルの性能を評価し、現実的な匿名化アプローチと従来の方法の効果を比較することを目的としました。記事で評価された匿名化の影響を評価するために提案された手順は次のとおりです。一般的なコンピュータビジョンデータセットの匿名化。匿名化されたデータを使用してさまざまなモデルをトレーニングする。元の検証データセットでモデルを評価する。著者らは、ぼかし、マスクアウト、現実的な匿名化の3つのフルボディと顔の匿名化テクニックを提案しています。インスタンスセグメンテーション注釈に基づいて匿名化領域を定義します。従来の方法にはマスキングアウトとガウスぼかしがあり、現実的な匿名化にはDeepPrivacy2からの事前トレーニング済みモデルが使用されます。著者らはまた、ヒストグラム均等化と潜在最適化を介してフルボディ合成のグローバルコンテキストの問題にも取り組んでいます。著者らは、COCOポーズ推定、Cityscapesインスタンスセグメンテーション、BDD100Kインスタンスセグメンテーションの3つのデータセットを使用して匿名化されたデータでトレーニングされたモデルを評価する実験を実施しました。顔の匿名化技術はCityscapesとBDD100Kデータセットにおいてほとんど性能に差がありませんでした。しかし、COCOポーズ推定において、マスクアウトとぼかしの両方が人体との相関関係により性能の大幅な低下を引き起こしました。フルボディの匿名化は、従来の方法でも現実的な方法でも、元のデータセットと比較して性能が低下しました。現実的な匿名化はより優れていましたが、キーポイント検出のエラー、合成の制限、グローバルコンテキストの不一致により、結果が低下しました。著者らはまた、モデルサイズの影響を探究し、COCOデータセットの顔の匿名化において、大きなモデルほど性能が低下することがわかりました。フルボディの匿名化においては、標準的および多変量切り捨て法の両方が性能の向上につながりました。結論として、この研究は、自律型車両のデータセットを使用してコンピュータビジョンモデルをトレーニングする際に匿名化が及ぼす影響を調査しました。顔の匿名化はインスタンスセグメンテーションにほとんど影響を与えず、フルボディの匿名化は性能を大幅に低下させました。現実的な匿名化は従来の方法よりも優れていましたが、本物のデータの完全な代替品ではありません。モデルのパフォーマンスを損なわずにプライバシーを保護することが重要であることが示されました。この研究は注釈に依存しており、モデルアーキテクチャに制限があるため、匿名化技術を改善し、合成の制限に対処するためのさらなる研究が求められています。自律型車両での人物の合成における課題も指摘されました。論文をチェックしてください。最新のAI研究ニュース、クールなAIプロジェクトなどを共有する、25k以上のML SubReddit、Discordチャンネル、およびメールニュースレターに参加することをお忘れなく。上記の記事に関する質問や、何か見落としていることがある場合は、[email protected]までメールでお問い合わせください。

MetaのAIが参照メロディに基づいて音楽を生成する方法

2023年6月13日、Meta（以前のFacebook）は、生成音楽モデルであるMusicGenをリリースし、音楽とAIコミュニティに衝撃を与えましたこのモデルは、GoogleのMusicLMを超えるだけでなく...

大規模言語モデルに関するより多くの無料コース

大規模言語モデルについて学びたいですか？ DeepLearning.AI、Google Cloud、Udacityなどの無料のコースで、すぐに始めましょう

Natural language processing

ExcelとPower BI – 意思決定においてどちらが優れているか？

現代の急速なビジネス環境においては、組織の成功のためには情報をもとにした意思決定が不可欠です。人気のあるビジネスインテリジェンスツールとそのユニークな機能を理解することが、真のポテンシャルを引き出す上で重要です。MS ExcelとPower BIの両方は、データ分析と意思決定に関する印象的な機能を提供しています。ただし、最適な選択を決定するには、具体的な要件に応じて決定する必要があります。この記事では、MS ExcelとPower BIの強みと特定のユースケースについて掘り下げ、ビジネスニーズに合わせてどちらのツールを選択するかをお手伝いします。 MS Excelとは？ Microsoft Excelは、データの整理、操作、分析、可視化が可能な強力かつ使いやすいツールです。データ処理、クリーニング、変換などの重要な機能を提供しています。データ分析と可視化には、データ分析ツール、ピボットテーブル、グラフなどの組み込み機能があります。また、Goal Seek、Solver、Decision Trees、Sensitivity analysisなどの機能により、要約されたデータに基づいて情報をもとにした意思決定が可能です。Power PivotやQueryは、データモデリングや変換を容易にすることで、意思決定に重要な役割を果たしています。Excelは、データを分析し、効果的な意思決定を行うための多目的なツールです。 Power BIとは？ Power BIは、Excelと同等の性能を持ち、データ変換、意思決定、さまざまなデータソースへの接続、統合、可視化、プレゼンテーションなどの機能を提供するMicrosoftが提供する別の意思決定テーブルです。Power BIには、動的でインタラクティブなレポートやリアルタイムダッシュボードを作成する機能など、独自の特徴があります。また、データモデリング、異なるデータ間の関係の形成、データ内の依存関係の検索なども含まれます。さらに、Power Queryを介したデータクエリは、直感的なグラフィカルインターフェースを使用して、クリーニング、整形、および変換などのデータ処理アクションを実行する興味深い機能です。Microsoftの製品として、包括的で使いやすいビジネスインテリジェンスツールとしてのコア機能とサービスを提供します。 Excelの最良の機能 1. データの整理に使用できるスプレッドシートソートおよびフィルタリング：ソートおよびフィルタリング機能を使用して、データを簡単に整理できます。…

ChatGPTの大きなサプライズ：OpenAIがAIマーケットプレイスを作成

OpenAIがAIマーケットプレイスで新たな領域に進出大人気チャットボットChatGPTの創造者であるOpenAIが再び話題に。The Informationの独占報道によると、同社は革新的なマーケットプレイスを立ち上げ、AI業界を革命化する計画を立てています。この新しいプラットフォームにより、開発者はOpenAIの最先端の技術を活用したAIモデルを展示し、販売することが可能となります。また読む：OpenAIの画期的なソリューション：AIモデルの論理性を確保し、幻覚を排除する現実世界のアプリケーションに合わせたAIの調整 ChatGPTを活用する企業は、そのオペレーションを変革する可能性に驚嘆しています。テクノロジーを特定のユースケースにカスタマイズすることができるため、ビジネスはその力を利用して、金融詐欺の防止、市場の洞察の提供などに活用することができます。OpenAIはこの需要を認識し、開発者が他の企業に提供できるカスタマイズされたAIモデルを提供するプラットフォームを作成することで、それを活用する計画を立てています。また読む：OpenAI、すべてのPlusユーザー向けのChatGPTプラグインをリリース | 有効にする方法を学ぶ OpenAI CEOが野心的な計画を発表最近ロンドンで開催された開発者向けのミートアップで、OpenAI CEOのSam Altman氏は、同社のマーケットプレイスコンセプトに関する驚くべき発表を行い、The Informationの報告書がAltman氏の開示に光を当て、参加者全員の関心と興奮を引き起こしました。OpenAIはこの大胆な冒険で、AIの景色に重大な影響を与えることになります。また読む：Sam Altman氏がインドのAI未来を描く、ナレンドラ・モディ首相との高い賭けのミーティングテックジャイアントのアプリストアに挑戦する者 OpenAIの計画が実現すれば、確立されたテックジャイアントのアプリストアに大きな挑戦を与えることになるかもしれません。SalesforceやMicrosoftなどの業界リーダーは、さまざまなソフトウェアソリューションに対応した独自のアプリストアを運営しています。しかし、OpenAIのマーケットプレイスにより、開発者は顧客に直接AIモデルを展示する機会を得ることができ、OpenAIの革新的なテクノロジーの到達範囲を拡大する可能性があります。また読む：MicrosoftとOpenAIがAI統合で対立著名企業がOpenAIのマーケットプレイスを注目 The Informationは、いくつかの影響力のある企業がOpenAIのマーケットプレイスへの参加に関心を示していることも明らかにしました。機器保守や修理を顧客に導くことに特化した有名な製造ソフトウェアプロバイダのAquantは、ChatGPTを活用したAIモデルをプラットフォームで提供することを検討していると報じられています。さらに、人気のある教育アプリメーカーであるKhan Academyは、革新的なAIモデルを展示するためにマーケットプレイスを活用する可能性を探っています。…

Voxel51 は、コンピュータビジョンデータセット分析のための Python コードを生成するために GPT-3.5 の能力を活用する AI アシスタントである VoxelGPT をオープンソース化しました

データ中心のコンピュータビジョンと機械学習ソフトウェアの有名なイノベーターであるVoxel51は、最近VoxelGPTを立ち上げ、コンピュータビジョンの分野で驚くべきブレークスルーを実現しました。GPT-3.5の力とFiftyOneの多目的コンピュータビジョンクエリ言語を活用することで、VoxelGPTはコンピュータビジョンエンジニア、研究者、組織が高品質のデータセットを編集し、高性能のモデルを開発し、AIプロジェクトを概念実証から製品化まで迅速に移行することを可能にします。 VoxelGPTは、自然言語クエリと実用的なPythonコードのシームレスな統合を提供します。この変革的な機能により、ユーザーは1行のコードを書くことなく、データセット内の画像やビデオを簡単にフィルタリング、ソート、意味的にスライスし、洞察を得ることができます。従来のノーコードおよびローコードソリューションとは異なり、VoxelGPTはFiftyOneの高度なクエリと視覚化の簡易性を組み合わせ、ユーザーが好みのツールやライブラリの柔軟性を活用しながら、コンピュータビジョンのワークフローを加速します。 VoxelGPTには、コンピュータビジョンのワークフローを簡素化し、時間とリソースを節約するいくつかの重要な機能があります。 1. コンピュータビジョンデータセットを検索する：ユーザーは自然言語クエリを使用してデータセットを検索し、ランダムサンプルを取得したり、偽の楽観的な予測を行った一意の画像を特定することができます。 2. コンピュータビジョン、機械学習、データサイエンスの質問をする：VoxelGPTは、基本的なコンセプトの洞察や一般的なデータ品質の問題に対する解決策を提供する包括的な教育リソースです。ユーザーは、画像中のオブジェクト検出、データセットの冗長性を減らす方法などについて質問することができます。 3. ドキュメンテーション、API仕様、チュートリアルを検索する：VoxelGPTは、FiftyOneドキュメンテーションの完全なコレクションへのアクセスを提供し、FiftyOne関連の質問に素早く答えるのに役立ちます。カスタムデータセットをFiftyOneにロードする方法、COCO形式でデータセットをエクスポートする方法、ポイントクラウドの2D画像を生成する方法などのトピックを迅速に取り上げることができます。 Voxel51は、データの透明性と明確性を提唱し、高品質のデータセットとコンピュータビジョンモデルを構築するためのオープンソースおよび商用ソフトウェアソリューションを提供しています。数千人のエンジニアや科学者が、機械学習のワークフローのためにその提供を広く採用しています。自動車、ロボット、セキュリティ、小売、ヘルスケアなど多様なセクターのエンタープライズ顧客は、Voxel51が提供する協調プラットフォームであるFiftyOne Teamsに依存して、データセットとモデルの安全な共同作業を行っています。データ中心のAIソリューションを提供することにコミットするVoxel51は、世界にデータ中心のAIをもたらすビジョンを共有する卓越した個人のチームを拡大し続けています。

Paellaを紹介します：安定した拡散よりもはるかに高速に高品質の画像を生成できる新しいAIモデル

過去2〜3年で、人工知能（AI）を使用してテキストから画像を生成する方法に関する研究の質と量が驚異的に増加しています。この分野で最も画期的で革命的な作品の1つは、最先端の生成モデルである拡散モデルを参照しています。これらのモデルは、深層学習アルゴリズムの力を利用して、テキストの記述を使用して高品質の画像を生成する方法を完全に変革しました。また、拡散に加えて、他の多くの強力な技術が存在し、テキスト入力から写真のようなリアルなビジュアルコンテンツを生成するエキサイティングなパスが提供されています。ただし、これらの最先端の技術によって達成された例外的な結果には、特定の制限があります。新興の生成AI技術の多くは、拡散モデルに依存しており、トレーニングと画像生成に複雑なアーキテクチャと相当な計算リソースが必要です。これらの高度な手法はまた、推論速度を低下させ、リアルタイムの実装には不適切です。さらに、これらの技術の複雑さは、可能にする進歩に直接関連しており、これらのモデルの内部動作を把握する一般の人々にとって課題を提供し、ブラックボックスモデルとして認識される状況を引き起こしています。この前述の懸念に対処するために、ドイツのTechnische Hochschule IngolstadtとWand Technologiesの研究チームは、新しいテキスト条件付き画像生成技術を提案しました。この革新的な技術は拡散に似ていますが、高品質の画像をはるかに速く生成します。この畳み込みベースのモデルの画像サンプリング段階は、わずか12ステップで実行でき、それでも例外的な画像品質を発揮します。このアプローチは、その卓越したシンプルさと、既存の最先端の技術に欠ける利点を楽しむためにモデルを条件付けることができることで際立っています。提案された技術の固有の単純さは、そのテキストから画像への技術を理解し、実装することができる、異なるバックグラウンドを持つ人々によって容易に利用できるようになりました。研究者は、実験評価を通じて自分たちの手法を検証するために、驚異的な10億のパラメーターを持つテキスト条件付きモデル「Paella」をトレーニングしました。チームはまた、彼らのコードとモデルの重みをMITライセンスの下でオープンソース化し、彼らの仕事に関する研究を促進するようにしました。拡散モデルは、トレーニングインスタンスからノイズの異なるレベルを順次除去する学習プロセスを経ます。純粋なノイズが提示されると、モデルは数百ステップにわたってノイズを反復的に減算して画像を生成します。ドイツの研究者が考案した技術は、これらの拡散モデルの原則から大いに影響を受けています。拡散モデルと同様に、Paellaは、画像を表すトークンからさまざまな程度のノイズを除去し、新しい画像を生成するためにそれらを使用します。このモデルは、LAION-5B美的データセットからの9億の画像テキストペアでトレーニングされました。Paellaは、事前にトレーニングされた畳み込みニューラルネットワークに基づくエンコーダーデコーダーアーキテクチャを使用し、事前トレーニング中に学習された8,192トークンのセットから選択された256トークンを使用して256×256の画像を表すことができます。研究者たちは、トレーニングフェーズ中に自分たちの例にノイズを追加するために、このリストにいくつかのランダムに選択されたトークンを含めました。研究者は、画像のテキスト記述に基づいてテキスト埋め込みを生成するために、画像とテキストの説明の間に接続を確立するCLIP（Contrastive Language-Image Pretraining）モデルを利用しました。次に、U-Net CNNアーキテクチャを使用して、テキスト埋め込みと前のイテレーションで生成されたトークンを使用して、元のトークンセットの完全なセットを生成するモデルのトレーニングが行われました。この反復プロセスは12回繰り返され、前回の反復で生成されたトークンの一部を徐々に置き換えていきます。残りの生成されたトークンのガイダンスの下で、U-Netは各ステップでノイズを徐々に減らしていきます。推論中、CLIPは与えられたテキストプロンプトに基づいて埋め込みを生成し、U-Netはランダムに選択された256トークンのセットに対して12ステップですべてのトークンを再構築しました。最後に、デコーダーは生成されたトークンを使用して画像を生成しました。研究効果を評価するために、研究者たちはFréchet inception distance（FID）メトリックを使用して、PaellaモデルとStable Diffusionモデルから得られた結果を比較しました。結果はわずかにStable Diffusionに有利でしたが、Paellaは速度の点で大きなアドバンテージを持っています。この研究は、以前に考慮されていなかったアーキテクチャを完全に再構成することに焦点を当てたため、以前の取り組みとは異なります。結論として、Paellaは、既存のモデルに比べて小さなモデルサイズと少ないサンプリングステップで高品質の画像を生成でき、それでも顕著な成果を達成できます。研究チームは、ジェネラティブAIの分野が時間とともにますます注目を集める中、非技術的な分野を含むさまざまなバックグラウンドを持つ個人が簡単に採用できるシンプルなセットアップを提供するアプローチのアクセシビリティを強調しています。

メリーランド大学カレッジパーク校の新しいAI研究では、人間の目の反射から3Dシーンを再構成することができるAIシステムが開発されました

人間の目は素晴らしい器官であり、視覚を可能にし、重要な環境データを保管することができます。通常、目は2つのレンズとして使用され、光をその網膜を構成する感光細胞に向けて誘導します。しかし、他人の目を見ると、角膜から反射された光も見ることができます。カメラを使用して他人の目を写真に撮ると、イメージングシステム内の一対のミラーに自分の目を変えます。観察者の網膜に届く光と彼らの目から反射する光は同じ源から来るため、彼らのカメラは観察している環境に関する詳細を含む写真を提供するはずです。以前の実験では、2つの目の画像が、観察者が見ている世界の全景表現を回復させました。リライト、焦点オブジェクトの推定、グリップ位置の検出、個人認識などのアプリケーションは、後続の調査でさらに研究されています。現在の3Dビジョンとグラフィックスの開発により、単一の全景環境マップを再構築するだけでなく、観察者の現実を3次元で復元できるかどうか熟考しています。頭が自然に動くと、目が複数のビューから情報をキャプチャし、反映することを知っています。メリーランド大学の研究者たちは、過去の画期的な業績と最新のニューラルレンダリングの最新の進歩を融合させた、観察者の環境の3D再構築のための全く新しい技術を提供しています。彼らの方法は、静止したカメラを使用し、目の画像からマルチビューの手掛かりを抽出します。通常のNeRFキャプチャセットアップでは、マルチビュー情報を取得するために移動カメラが必要です（しばしばカメラ位置の推定に続きます）。概念的には単純ですが、実際には、目の画像から3D NeRFを再構築することは困難です。最初の困難は、ソース分離です。彼らは、人間の目の複雑な虹彩のテクスチャと反射を区別する必要があります。これらの複雑なパターンにより、3D再構築プロセスが不明瞭になります。通常、正常なキャプチャでは、場面のクリーンな写真に対して、虹彩のテクスチャが混在することはありません。この構成により、再構築技術はより困難になり、ピクセルの相関が崩れます。角膜のポーズの推定は、2つ目の困難を提示します。画像観察から正確に位置を特定することが困難であり、小さく、難解な目です。ただし、それらの位置と3D方向の正確さは、マルチビュー再構築にとって重要です。これらの困難を克服するために、この研究の著者は、虹彩テクスチャを全体的な輝度場から区別しやすくするために、2つの重要な要素を追加して、目の画像でNeRFをトレーニングするためにNeRFを再利用しました。短い放射線を使用したテクスチャ分解（a）およびアイポーズの微調整（b）です。彼らは、現実的なテクスチャを持つ人工的な角膜から反射をキャプチャする写真で複雑な屋内環境の合成データセットを作成して、彼らの技術のパフォーマンスと効果を評価します。彼らはまた、いくつかのアイテムで実際に収集された人工および実際の眼球画像の研究を行い、彼らの方法論のいくつかの設計決定を支援します。これらが彼らの主な貢献です。 •彼らは、過去の画期的な業績と最新のニューラルレンダリングの最新の進歩を融合させた、観察者の環境の3D再構築のための全く新しい技術を提供しています。 •彼らは、目の画像で虹彩テクスチャを分解するための放射状事前分布を導入することで、再構築された輝度場の品質を大幅に向上させています。 •彼らは、アイボールのノイズのあるポーズ推定を減らす角膜ポーズの微調整プロセスを開発することにより、人間の目から特徴を収集する特別な問題を解決しています。これらの進展により、視線外の3Dシーンを明らかにし、キャプチャするためのアクシデンタルイメージングの広い範囲で研究・開発の新しい機会が生まれました。彼らのウェブサイトには、彼らの開発を実証するいくつかのビデオがあります。図1は、目の反射を使用して放射輝度場を再構築することを示しています。人間の目は非常に反射します。被写体の目の反射だけを使用して、移動する頭を記録する一連のフレームから彼らが見ている3Dシーンを再構築して表示することができることを示しています。

Learn more about Search Results いくつかの - Page 309