Learn more about Search Results この - Page 4
- You may be interested
- CMUの研究者が「WebArena」を導入:有用な...
- 予測を超えて 顧客のサービスと事業成長の...
- Google AIが教育環境でのオーディオブック...
- 「Matplotlibフィギュアに挿入軸を追加する」
- 「ビジネスを成長させるための50のChatGPT...
- なぜデータは新たな石油ではなく、データ...
- 「AIは本当に低品質な画像から顔の詳細を...
- 『AI論文によると、大規模な言語モデルの...
- 「機械学習モデルからの情報漏洩を分析し...
- 「Pythonでの空間移動のアニメーション化」
- 「10ベストAI WhatsAppツール」
- 分散システム設計におけるコンセンサスア...
- 「単一細胞生物学のAIのフロンティアを探...
- Pythonを使用して北極の氷の傾向を分析する
- 「人工知能を用いたIoTセキュリティの強化...
このAI論文は、高品質な3Dセグメンテーションを実現するために、与えられたシーン内の任意のオブジェクトのためのセグメントエニシングのための高品質(SANeRF-HQ)フレームワークを紹介しています
香港科技大学、卡内基梅隆大学和达特茅斯学院的研究人员开发了名为SANeRF-HQ(High-Quality的NeRF任意物体分割)的方法,以在复杂场景中实现准确的三维分割。以往基于NeRF的物体分割方法在准确性方面受到限制。而SANeRF-HQ结合了”Segment Anything Model”(SAM)和神经辐射场(NeRF)的功能,提高了分割准确性并在复杂环境中提供了高质量的三维分割。 NeRF在处理复杂场景时面临挑战。SANeRF-HQ通过使用SAM进行开放世界的物体分割,并由用户提示进行指导,以及使用NeRF进行信息聚合来克服这些挑战。它在物体定位的灵活性和视图间一致的分割方面胜过以往的NeRF方法。对NeRF数据集的定量评估凸显了它对三维计算机视觉和分割的潜在贡献。 NeRF在使用多层感知器进行新视图合成方面表现出色。虽然NeRF内的3D物体分割已经取得成功,但Semantic-NeRF和DFF等以前的方法依赖于受限的预训练模型。SAM允许多样的提示,并在分割方面擅长零样例泛化。SANeRF-HQ利用SAM进行开放世界分割和NeRF进行信息聚合,解决了复杂场景中的挑战,并在质量上超越以往的NeRF分割方法。 SANeRF-HQ使用特征容器、蒙版解码器和蒙版聚合器来实现高质量的三维分割。它对SAM特征进行编码,生成中间蒙版,并使用NeRF的颜色和密度场将2D蒙版整合到3D空间中。该系统结合了SAM和NeRF进行开放世界分割和信息聚合。它可以使用NeRF生成的视频和SAM的自动分割功能来执行基于文本和自动的三维分割。 SANeRF-HQ在高质量的三维物体分割方面胜过以往的NeRF方法。它提供了在物体定位和视图间一致的分割方面的灵活性增强。对多个NeRF数据集的定量评估证实了其有效性。SANeRF-HQ展示了在动态NeRF中的潜力,实现了基于文本提示的分割,并能够进行自动的三维分割。使用密度场、RGB相似度和光线对RGB损失可以提高分割的准确性,填补内部和边界的缺失部分,从而获得视觉上改进且更加稳固的分割结果。 总之,SANeRF-HQ是一种高级的三维分割技术,超越了以往的NeRF方法,具有在多个视图上的灵活性和一致性。它在各种NeRF数据集上的优越表现表明,它具有在三维计算机视觉和分割技术方面做出重要贡献的潜力。将其扩展到4D动态NeRF物体分割以及使用密度场、RGB相似度和光线对RGB损失进一步增强了其准确性和质量,融合了颜色和空间信息。 未来的研究可以探索SANeRF-HQ在4D动态NeRF物体分割方面的潜力。它可以通过在复杂和开放世界场景中的应用中进行研究,并与语义分割和场景分解等先进技术相结合,以增强其功能。对SANeRF-HQ在真实世界场景中可用性和有效性进行用户研究可以提供有价值的反馈。进一步探索其在大规模场景和数据集上的可扩展性和效率,以优化实际应用的性能是必要的。
このAI研究は、大規模言語モデルにおける不誠実さのメカニズムを明らかにする:プロンプトエンジニアリングとニューラルネットワーク分析に深く没入する
大規模な言語モデル(LLM)の理解とその正直な行動の促進は、これらのモデルが成長し、社会に広く受け入れられるようになったため、ますます重要となっています。研究者らは、スケーラブルなディスインフォメーション、操作、詐欺、選挙の妨害、またはコントロールの喪失のリスクなど、モデルが欺瞞的になる可能性から新たなリスクが生じると指摘しています。彼らはこの欺瞞を「真実以外の特定の結果を追求するための虚偽の信念の系統的な誘導」と定義しています。研究によると、これらのモデルの活性化には必要な情報があるにもかかわらず、正しい結果を出すためにはミスアライメント以上のものが必要かもしれません。 以前の研究では、真実と誠実さを区別し、前者は誤った主張を避ける一方、後者は信じていない主張を避けると述べています。この区別は理解を助けるのに役立ちます。したがって、モデルが誤解を招く主張を生成する場合、その原因はスキルの欠如ではなく、不誠実さによるミスアライメントによるものかもしれません。その後、いくつかの研究では、内部モデル表現の抽出の改善を図るため、モデルに積極的な概念を考慮させるようにするためのブラックボックス技術の提案が行われています。 さらに、モデルは文脈に従った環境で「重要な」中間層を持っており、これを超えて文脈に従った真実または誤った応答の表現は分岐する傾向があります。これを「過剰に考える」という現象として知られています。先行研究に刺激を受けて、研究者たちは不正確な文脈学習から故意の不誠実さに焦点を広げ、モデルにウソをつくように明示的に指示を与えることでこの文脈での不誠実さに責任があるモデルのどの層と注意ヘッドがあるのかを特定して理解しようとしています。 以下に彼らの貢献を示します: 1. 研究チームは、真偽の質問でかなり下回る精度に基づいて、LLaMA-2-70b-chatが嘘をつくように訓練できることを示しています。研究チームによれば、これは非常に微妙で、注意深く迅速に設計する必要があります。 2. activation patchingおよびprobingを使用して、研究チームは不正行動に関連する5つのモデル層に独立した証拠を見つけました。 3. 0.9%の全ヘッドに対して誘因介入が効果的に行われ、研究チームが欺瞞的なモデルに真実を返すように強制しました。これらの処理は、複数のデータセットの分割や提示に対して弾力的です。 要するに、研究チームは、真実を言うかどうかについてLLMに指示を与えるという単純な嘘の事例を考察しました。その結果、巨大なモデルでも不正行動が表示され、正直に回答するように求められた場合には正しい回答が生成され、ウソをつくように追い込まれると誤った回答が生成されることがわかりました。これらの調査結果は、活性化探索がプロンプトでの分布外にも一般化できる可能性があることを示唆する以前の研究に基づいています。しかし、研究チームは、これがモデルが「真」トークンよりも早く「偽」トークンを出力する傾向にあるといった問題により、プロンプトのエンジニアリングに長い時間が必要になる場合があることも発見しました。 研究チームは、接頭辞の挿入により、一貫して嘘を引き起こすことができました。その後、チームは不誠実なモデルと誠実なモデルの活性化を比較し、嘘をつくために関与する層と注意ヘッドを特定しました。研究チームは、この嘘の行動を調査するために線形プローブを使用することで、初めから中間層が誠実なプロンプトとウソつきプロンプトに対して類似のモデル表現を示し、それから急激に反対向きに分岐することを発見しました。これは、文献の一部が求めるように、以前の層が文脈非依存の真実の表現を持つべきであることを示しているかもしれません。また、activation patchingは、特定の層とヘッドの動作についてさらに理解するために研究チームが使用した別のツールです。研究者たちは、局所的な介入が正直なプロンプトおよびウソつきモデル間のミスマッチを完全に解決できることを発見しました。 重要なのは、わずか46の注意ヘッドに対するこれらの介入が、データセットやプロンプトに対して強固な耐性を示していることです。研究チームは、モデルがデフォルトで誠実なモデルの正確性と誠実さを主に調査してきた以前の研究とは対照的に、アクセス可能なデータセットを使用し、明示的にモデルに嘘をつくように指示することで嘘を重点的に研究しています。この文脈によって、研究者たちは不正な行動を促進する微妙な点や大規模モデルがどのように不誠実な行動に関与しているかについて多くの知識を得ることができました。研究チームは、LLMの倫理的かつ安全な応用を保証するために、この文脈でのさらなる研究がLLMの嘘つきを防止する新しいアプローチにつながると期待しています。
アドビの研究者たちは、『DMV3D』という新しい3D生成手法を提案していますこの手法は、トランスフォーマーベースの3D大規模再構築モデルを用いて、マルチビューディフュージョンのノイズを除去します
拡張現実(AR)、仮想現実(VR)、ロボティクス、ゲームにおける3Dアセットの作成には共通の課題が存在します。複雑な3Dアセットの作成プロセスを簡素化する3D拡散モデルの人気が高まっていますが、それには注意が必要です。これらのモデルは、トレーニングのために正確な3Dモデルまたはポイントクラウドへのアクセスが必要であり、実際の画像では課題となる場合があります。さらに、潜在的な3D拡散アプローチは、多様な3Dデータセット上で複雑でノイズの多い潜在空間を生み出すことが多く、高品質なレンダリングが困難な課題となっています。 既存の解決策では、多くの手作業や最適化プロセスが要求されることがよくあります。Adobe ResearchとStanfordの研究者チームは、3D生成プロセスをより迅速で現実的かつジェネリックにする取り組みを行っています。最近の論文では、DMV3Dという新しいアプローチが紹介されており、シングルステージのカテゴリー非依存型拡散モデルです。このモデルは、テキストまたは単一の画像入力条件から3Dニューラルラディアンスフィールド(NeRFs)を生成することができ、3Dオブジェクトを作成するのに必要な時間を大幅に短縮します。 DMV3Dの重要な貢献は、3D生成のためのマルチビュー2D画像拡散モデルを使用した画期的なシングルステージ拡散フレームワークです。彼らはまた、ノイズのないトライプレーンNeRFsをノイズの多いマルチビュー画像から再構築するマルチビューデノイザであるLarge Reconstruction Model(LRM)を導入しました。このモデルは、高品質なテキストから3D生成と単一画像再構築をするための一般的な確率的アプローチを提供し、シングルのA100 GPUでわずか30秒程度の直接モデル推論を実現します。 DMV3Dは、3D NeRFの再構築とレンダリングをデノイザに統合し、直接3D監視をせずに学習された2Dマルチビュー画像拡散モデルを作成します。これにより、潜在空間の拡散およびパーツごとの最適化プロセスに別個の3D NeRFエンコーダを個別にトレーニングする必要がなくなります。研究者たちは、オブジェクトを囲む4つのマルチビュー画像の疎なセットを戦略的に使用し、自己遮蔽の重要性を排除しながら3Dオブジェクトを効果的に表現しています。 大規模なトランスフォーマーモデルを活用することで、研究者たちは疎なビューの3D再構築という困難な課題に取り組んでいます。最新の3D Large Reconstruction Model(LRM)を基に構築されたこのモデルは、拡散プロセスのさまざまなノイズレベルに対応できる革新的なジョイント再構築およびデノイズモデルを導入しています。このモデルは、マルチビュー画像拡散フレームワーク内のマルチビュー画像デノイザとして統合されます。 合成レンダリングと実際のキャプチャを含む大規模なデータセットでトレーニングされたDMV3Dは、シングルのA100 GPUで約30秒でシングルステージ3Dを生成する能力を示しています。また、単一画像による3D再構築でも最先端の結果を達成しています。この研究は、2Dと3Dの生成モデルの領域を結びつけ、3D再構築と生成を統一することで、3Dビジョンとグラフィックスのさまざまな課題に取り組むための基盤モデルの開発の可能性を提供します。
このAI研究は、CoDi-2を紹介します:インターリーブされた指示処理とマルチモーダルな出力生成の風景を変える画期的なマルチモーダル大規模言語モデルです
研究者たちは、UCバークレー、Microsoft Azure AI、Zoom、UNC-Chapel Hillによって開発されたCoDi-2 Multimodal Large Language Model(MLLM)を利用して、複雑な多モーダル指示の生成と理解の問題に取り組みました。さらに、被駆動型画像生成、ビジョン変換、オーディオ編集のタスクにおいても優れた性能を発揮します。このモデルは包括的な多モーダル基盤の確立において、重要な突破口となります。 CoDi-2は、前身であるCoDiの機能を拡張し、被駆動型画像生成やオーディオ編集といったタスクで優れた性能を発揮します。このモデルのアーキテクチャには、オーディオとビジョンの入力に対するエンコーダとデコーダが含まれています。トレーニングでは、拡散モデルからのピクセル損失とトークン損失が組み合わされます。CoDi-2は、スタイルの適応や被駆動型生成などのタスクにおいて、顕著なゼロショットおよびフューショットの能力を示します。 CoDi-2は、多モーダル生成における課題に取り組み、ゼロショットの詳細制御、モダリティを交互にする指示の追従、およびマルチラウンドの多モーダルチャットに重点を置いています。LLMをその脳として利用することで、CoDi-2はエンコードおよび生成の過程でモダリティを言語と整合させることができます。このアプローチにより、モデルは複雑な指示を理解し、一貫性のある多モーダル出力を生成することができます。 CoDi-2のアーキテクチャには、オーディオとビジョンの入力に対するエンコーダとデコーダが含まれており、多モーダルの大規模言語モデル内に組み込まれています。さまざまな生成データセットでトレーニングされたCoDi-2は、トークン損失に加えて拡散モデルからのピクセル損失を利用しています。優れたゼロショットの能力を示し、被駆動型画像生成、ビジョン変換、オーディオ編集のタスクにおいて、競争力のあるパフォーマンスと新しい未知のタスクに対する一般化能力を発揮します。 CoDi-2は、多文脈での学習、推論、任意のモダリティ生成を通じてゼロショットの能力を広範に持ちます。評価結果は、高い競争力のあるゼロショットのパフォーマンスと新しい未知のタスクへの堅牢な一般化を示しています。CoDi-2は、オーディオ編集のタスクで優れたパフォーマンスを達成し、すべてのメトリクスにおいて最低スコアとなる要素の追加、削除、および置換によるパフォーマンスを示します。高品質な多モーダル生成を進化させるために、コンテキストの年齢、概念学習、編集、および詳細な制御の重要性を強調します。 CoDi-2は、複雑な指示の追従、コンテキストでの学習、推論、チャット、および異なる入力-出力モードでの編集など、さまざまなタスクで優れた能力を持つ先進的なAIシステムです。異なるスタイルに適応し、さまざまな主題に基づいたコンテンツを生成し、オーディオを操作する能力においても、多モーダル基盤モデリングにおける重要な突破口となります。CoDi-2は、訓練されていないタスクでも多くのタスクを処理できる包括的なシステムの作成に向けた印象的な探索です。 CoDi-2の将来の展開では、コンテキストでの学習の改善、対話能力の拡張、および追加のモダリティのサポートにより、多モーダルの生成能力を向上させることを計画しています。拡散モデルなどの技術を使用して、画像とオーディオの品質を向上させることも目指しています。将来の研究では、CoDi-2を他のモデルと評価・比較し、その強みと制限を理解することも含まれるでしょう。
「耳を持つドローン」というタイトルで提案されている最新のテクノロジーが注目されていますこのドローンは、耳のようなセンサーを備えており、音を感知することができますこれにより、ドローンが音声指示を聞き分けることが可能になり、より効果的な操作やアクションが行えるようになります
研究者たちは、カメラと一緒にドローンに追加できるマイクロフォンアレイを開発しましたこれにより、災害の被災者の位置の特定を支援することができます
「ChatGPTのような言語モデルに関するプライバシー上の懸念:このAI論文が潜在的なリスクと保護対策を明らかにする」
ChatGPTが記録を塗り替えている間に、OpenAIのChatGPTで使用される個人情報のセキュリティについて疑問が出されています。最近、Google DeepMind、ワシントン大学、コーネル大学、CMU、UCバークレー、ETHチューリッヒの研究者たちが可能な問題を発見しました。特定の指示を使用することで、ChatGPTが機密情報を漏洩させる可能性があります。 リリースからわずか2か月で、OpenAIのChatGPTは1億人以上のユーザーを集め、その人気の高さを示しています。書籍、雑誌、ウェブサイト、投稿、記事など、さまざまなインターネットソースから計3000億以上のデータがプログラムで使用されています。OpenAIはプライバシーを保護するための最善の努力をしていますが、定期的な投稿や会話により、公に開示されるべきではないかなりの量の個人情報が追加されます。 Googleの研究者たちは、ChatGPTが公開用には意図されていないトレーニングデータにアクセスしてリvealする方法を見つけました。指定されたキーワードを適用することで、1万以上の異なるトレーニングインスタンスを抽出しました。これにより、執念を持った敵が追加データを取得する可能性があると示唆されます。 研究チームは、ChatGPTを無制限に繰り返し使わせることで、モデルが個人情報をさらすことができる方法を示しました。たとえば、「詩」や「会社」といった単語を無限に繰り返させることで、住所、電話番号、名前などを抽出した可能性があります。これはデータ漏洩につながる可能性があります。 一部の企業は、これらの懸念に対応してChatGPTなどの大型言語モデルの使用に制限を設けています。たとえば、Appleは社員にChatGPTや他のAIツールの使用を禁止しています。さらに、予防措置として、OpenAIは会話履歴を無効にする機能を追加しました。ただし、保持データは30日間保管され、その後永久に削除されます。 Googleの研究者は、プライバシーに敏感なアプリケーションに大規模な言語モデルを展開する際に、特別な注意が必要であることを強調しています。彼らの調査結果は、将来のAIモデルの開発において慎重な検討と向上したセキュリティ対策、およびChatGPTや類似のモデルの広範な使用に関連する潜在的なリスクの重要性を強調しています。 結論として、ChatGPTにおける潜在的なデータの脆弱性の暴露は、ユーザーや開発者にとって戒告となります。数百万人の人々が定期的にそれとやり取りしているこの言語モデルの広範な利用は、プライバシーの優先順位付けと不正なデータ開示を防ぐための堅牢な保護策の実施の重要性を強調しています。
このAI研究によって、写真-SLAMが発表されました:ポータブルデバイスでのリアルタイム写真写実的マッピングを向上させる
コンピュータビジョンとロボット工学において、カメラによる同時位置推定と地図作成(SLAM)は、自律システムが自ら環境をナビゲートし理解することを目指す重要なトピックです。幾何学的マッピングは、従来のSLAMシステムの主な焦点であり、正確ながらも美的に基本的な環境表現を生成します。しかし、最近のニューラルレンダリングの進展により、SLAMプロセスに写真のようなリアルなイメージ再構成を取り入れることが可能であり、これによってロボットシステムの知覚能力が向上する可能性があります。 既存の手法は、暗黙的な表現に大きく依存しており、計算リソースに制約のあるデバイス上での展開には不向きですが、ニューラルレンダリングとSLAMの統合は有望な結果を生み出しています。たとえば、ESLAMはマルチスケールのコンパクトテンソルコンポーネントを使用し、Nice-SLAMは環境を反映した学習可能な特徴を持つ階層型グリッドを使用しています。その後、多数のレイサンプルの再構築損失を減らすことで、カメラ位置を推定し特徴を最大化するために協力します。最適化のプロセスは時間がかかるため、効果的な収束を保証するためにRGB-Dカメラや密な光流推定器、または単眼深度推定器など複数のソースから関連する深度情報を統合する必要があります。さらに、マルチレイヤーパーセプトロン(MLP)が暗黙的な特徴をデコードするため、最良の結果を得るためにレイサンプリングを正確に規格化するための境界領域を指定することが通常必要です。これにより、システムのスケーリングの可能性が制限されます。これらの制約から、SLAMリアルタイム探索と未知の領域でのマッピング能力を携帯プラットフォームを使用して達成することはできません。 本研究では、香港科技大学と中山大学の研究チームがPhoto-SLAMを提案しています。この画期的なフレームワークは、オンラインでフォトリアルなマッピングと正確な位置推定を実行し、従来の手法のスケーラビリティとコンピューティングリソースの制約を解決します。研究チームは、回転、スケーリング、密度、球面調和(SH)係数、およびORB特性を保持するポイントクラウドのハイパープリミティブマップを追跡します。ハイパープリミティブマップは、元の画像とレンダリングされた画像の間の損失を逆伝播することにより、対応するマッピングを学習し、因子グラフソルバを使用してトラッキングを最適化することを可能にします。3Dガウススプラッティングを使用して画像を生成します。3Dガウススプラッティングレンダラを導入することで、ビュー再構築のコストを下げることができますが、特に単眼の状況ではオンラインの増分マッピングの高品位なレンダリングを提供することはできません。さらに、ジオメトリベースの密度化技術とガウシアンピラミッド(GP)に基づいた学習手法を示唆し、密な深度情報に依存せずに高品質なマッピングを実現する方法を提案しています。 図1: Photo-SLAMは、同時位置推定とフォトリアルなマッピングのためにRGB-D、ステレオ、および単眼カメラをサポートする革命的なリアルタイムフレームワークです。1秒あたり最大1000フレームのレンダリング速度で高品質なシーンビューを再構築できます。 重要なことは、GP学習により、マルチレベルの特徴を段階的に獲得することが容易になり、システムのマッピング性能が大幅に向上します。研究チームは、RGB-Dカメラ、ステレオカメラ、単眼カメラによって撮影されたさまざまなデータセットを使用して、提案手法の効果を評価するための長期的な試行を行いました。この実験の結果は、Photo-SLAMがレンダリング速度、フォトリアリスティックなマッピング品質、および位置推定の効率において最先端の性能を達成していることを明確に示しています。さらに、Photo-SLAMシステムの組み込みデバイスでのリアルタイム動作は、有用なロボットアプリケーションの可能性を示しています。図1と図2は、Photo-SLAMの概要を示しています。 図2: Photo-SLAMの4つの主要コンポーネントは、ハイパープリミティブな要素を持つマップを維持し、位置推定、明示的なジオメトリマッピング、暗黙的なフォトリアルマッピング、およびループクロージャコンポーネントから構成されています。 この仕事の主な成果は以下の通りです: • 研究チームは、ハイパープリミティブマップと同時ローカライゼーションに基づいた初の写真のようなマッピングシステムを開発しました。この新しいフレームワークは、屋内および屋外の単眼、ステレオ、RGB-Dカメラと一緒に動作します。 • 研究チームは、ガウシアンピラミッド学習の使用を提案しました。これにより、モデルは効果的かつ迅速に多レベルの特徴を学習でき、高精度なマッピングが可能になります。このシステムは、埋め込みシステムでもリアルタイム速度で動作し、完全なC++およびCUDAの実装により最先端のパフォーマンスを実現しています。コードへの一般公開も行われます。
このAI論文は、「GREAT PLEA」倫理的フレームワークを提案しています:医療における責任あるAIのための軍事に焦点を当てたアプローチ
ピッツバーグ大学、ウェル・コーネル・メディシン、テレメディシン&先進テクノロジー研究センター、統合失調症(USU)、ブルック陸軍医療センター、およびピッツバーグ医療センターの研究者グループは、特に透明性、バイアスモデリング、倫理的意思決定に焦点を当てた、保健医療における創発AIの倫理的原則を調査しました。 彼らはGREAT PLEA原則と呼ばれるフレームワークを提案しました。これは、ガヴァナビリティ、リライアビリティ、エクイティ、アカウンタビリティ、トレーサビリティ、プライバシー、法的性質、共感、およびユートニカを表しています。 フレームワークは、創発AIの統合から生じる倫理的ジレンマに対処するために、これらの原則の積極的な採用と拡大を提唱しています。 この研究では、軍事と医療の共通した迅速な意思決定の必要性を強調しながら、医療における創発AIの変革的な可能性を探求し、透明性やバイアスなどの倫理的懸念に注目しています。 また、軍事倫理に触発された実践的な枠組みを紹介しており、創発AIを医療に統合する際の倫理的な課題に対処するために、ガヴァナンス、公平さ、および意思決定プロセスにおける共感を重視しています。 軍事や医療を含むさまざまな分野でAIの役割が拡大していることは、倫理的考慮の必要性を強調しています。 この研究では、米国国防総省とNATOが軍事AIの倫理を公開したことを指摘しています。 また、臨床部門の代替案など、医療におけるAIの影響を探求し、創発AIの変革的な可能性に焦点を当てています。 医療における創発AIのための特定の倫理的原則の欠如を強調しています。 軍事と医療部門でのAIの優先事項の収束が強調されています。 この研究では、医療における創発AIのために軍事に触発された倫理的原則を提案しています。 研究者は、ガヴァナビリティ、リライアビリティ、エクイティ、アカウンタビリティ、トレーサビリティ、プライバシー、法的性質、共感、およびユートニカなどの問題に対処するためのGREAT PLEA原則を作成するために、軍事と医療の倫理的な懸念を対比させています。 研究者は、医療における創発AIシステムについて、エンドユーザーにその能力と限界の認識を確保するための教育の重要性を強調し、透明性と文書化を重視しています。 さらに、研究チームは、患者ケアの改善と同時に、人間の創造性、生産性、問題解決能力の向上の道徳的意義も強調しています。 まとめると、この研究では、創発AIを医療に組み込むために、軍事に触発された「GREAT PLEA」という倫理的原則のセットを提案しています。 このフレームワークは、透明性、文書化、およびトレーサビリティの重要性を強調し、医療実践における信頼性を向上させ、倫理基準を維持するものです。 エンドユーザーへの教育と創発AIにおける倫理的な課題に積極的に取り組むことによって、患者ケアの改善を図ることが重要です。 この記事の元の投稿はこちらからご覧いただけます。また、MarkTechPostでご覧いただけます。
このAIニュースレターはあなたが必要とするものです#76
今週、私たちはトランスフォーマーや大規模な言語モデル(LLM)の領域を超えた重要なAIの進展に焦点を当てました最近の新しいビデオ生成拡散ベースのモデルの勢いについて…
「人間の活動認識におけるディープラーニング:このAI研究は、Raspberry PiとLSTMを使用した適応的なアプローチを導入し、位置に依存しない正確性を高めます」
ヒューマンアクティビティ認識(HAR)は、さまざまなセンサから収集したデータに基づいて、自動的に人間の活動を識別および分類する方法と技術の開発に焦点を当てた研究領域です。HARは、スマートフォン、ウェアラブルデバイス、またはスマート環境などのマシンがリアルタイムで人間の活動を理解し解釈することを目指しています。 従来は、ウェアラブルセンサに基づく方法やカメラに基づく方法が使用されていました。ウェアラブルセンサはユーザにとって不快で不便です。カメラに基づく方法は侵入的な設置が必要で、プライバシーの懸念があります。既存のHAR技術は、位置依存性、ノイズへの感度、さまざまなアプリケーション(スマートホーム、ヘルスケア、モノのインターネットなど)で多様な活動をより柔軟に認識するための必要性などの課題に直面しています。UTeMが使用する方法は、正確で適応性があり、位置に依存しない解決策を提供します。 マラッカ工科大学(UTeM)の研究者は、従来の制約に対処するためのヒューマンアクティビティ認識(HAR)の手法を作り出しました。彼らはChannel State Information(CSI)と高度な深層学習技術を活用したシステムを導入しました。 このシステムは、Channel State Information(CSI)をLong Short-Term Memory(LSTM)ネットワークと組み合わせて使用します。システムは、無線通信チャネルの状態を抽出し、リアルタイムな分類と絶対的な位置に依存しないセンシングを可能にします。LSTMネットワークは、活動の特徴の連続的な学習を実現し、異なる人と環境における人間の活動の変動に対応することで、識別プロセスを容易にします。 研究者は、まずRaspberry Pi 4と専用ファームウェアを使用して原始的なチャネル状態情報(CSI)データを収集および前処理し、MATLABを使用して品質と応用を最適化するためにデータを改善したと強調しました。 Long Short-Term Memory(LSTM)ネットワークを使用して、CSIデータから重要な特徴を抽出し、複雑な人間の活動を正確に認識できるようにしました。彼らはLSTMモデルと分類プロセスに厳密なトレーニングを行いました。オンラインフェーズではパターン認識、オフラインフェーズではパフォーマンスの向上が含まれています。 このシステムは、LSTMアルゴリズムを使用して信号のセグメンテーション方法を導入し、人間の活動の開始点と終了点を正確に決定します。 研究者は、このシステムは人間の活動の認識において驚異的な97%の正確さを達成しました。新しい環境に適応する能力を示し、HAR技術の重要な進展を示しました。 研究者は、システムの顕著な適応性を強調しました。再学習や大幅な変更を必要とせずに異なる設定に簡単に統合することができます。この柔軟性により、さまざまな分野に実用的な解決策となり、スマートホーム、ヘルスケア、モノのインターネットなどの様々な実世界の要件に効果的に対応することができます。この手法は、HAR技術の重要な進展を表し、スマートホーム、ヘルスケア、モノのインターネットなどの多くの業界に大きな影響を与える可能性があります。
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.