Learn more about Search Results A - Page 49

このAI研究レビューでは、衛星画像とディープラーニングの統合による資産ベースの貧困の測定について探求しています

ルンド大学とハルムスタッド大学の研究者は、衛星画像と深層機械学習による貧困推定の説明可能なAIに関するレビューを実施しました。透明性、解釈性、およびドメイン知識を重視したこの32の論文の分析により、説明可能な機械学習のこれらの重要な要素はバラつきがあり、貧困と福祉の科学的な洞察と発見の要求を完全に満たすことができないことが明らかになっています。 この研究では、調査データをグラウンドトゥルースとして貧困/富を予測し、都市部および農村地域に適用し、深層ニューラルネットワークを含む32の論文を分析することで、これらのコア要素の状況のバラつきを明らかにしています。現在の状況は、貧困と福祉に関する洞察に対する科学的な要件を満たしていないと論じています。このレビューは、開発コミュニティ内での広範な普及と受け入れの重要性を強調しています。 導入部では、脆弱なコミュニティの特定と貧困の決定要因の理解における課題について言及し、情報のギャップと家計調査の制約を引用しています。深層機械学習と衛星画像がこれらの課題の克服に役立つ可能性を強調し、科学的なプロセスでの説明可能性、透明性、解釈性、およびドメイン知識の必要性を強調しています。調査データ、衛星画像、および深層ニューラルネットワークを使用した貧困/富の予測における説明可能な機械学習の状況を評価することで、広範な普及と開発コミュニティ内での受け入れを促進することが目的です。 総合的な文献レビューを行い、特定の基準を満たす32の研究を分析した結果、説明可能な機械学習のコア要素である透明性、解釈性、およびドメイン知識の状況は、科学的な要件を満たすことができず、バラつきがあります。解釈性と説明性は弱く、モデルを解釈したり予測データを説明したりするための努力が限られています。ドメイン知識は、選択のための特徴ベースのモデルではよく使用されますが、他の側面ではあまり使用されていません。実験結果は、富の指標の制約や低解像度衛星画像の影響などの洞察を示しています。一つの論文は、ドメイン知識の強い仮説と肯定的な評価によって際立っています。 貧困、機械学習、および衛星画像のドメインでは、説明可能な機械学習アプローチにおける透明性、解釈性、およびドメイン知識の状況は異なり、科学的な要件を満たしていません。開発コミュニティ内での広範な普及にとって重要な説明可能性は、単なる解釈性を超えています。レビューされた論文の透明性はバラバラであり、いくつかはよく文書化されており、他のいくつかは再現性に欠けています。解釈性と説明性の欠点は依然として存在し、モデルを解釈したり予測データを説明したりする研究者はほとんどいません。特徴ベースのモデルではドメイン知識が一般的に使用されますが、他のモデリングの側面では広くは適用されていません。影響の特徴のソートとランキングは重要な将来の研究方向です。

衝撃的な現実:ChatGPTのデータ漏洩への脆弱性

最近の研究論文「ChatGPTからのトレーニングデータの抽出」は、広く使用されている言語モデルの驚くべき脆弱性を明らかにしました。研究者チームが行ったこの研究によると、わずか200ドルでChatGPTのトレーニングデータを数メガバイト抽出することが可能であり、前例のない規模のデータ漏洩の可能性を暴露しています。 この研究は、ChatGPTなどの自然言語理解に設計された言語モデルが、公開インターネットから取得したデータを使用してトレーニングされていることを強調しています。この論文では、モデルにクエリを送ることで、トレーニングに使用された正確なデータを抽出する攻撃手法を明らかにしています。驚くべきことに、研究者たちは追加の財政投資により、ChatGPTのトレーニングデータセットを最大1ギガバイト抽出することが可能であると推定しています。 このデータ漏洩は重大であり、実用化モデルの「対応性」を対象としており、大量の訓練データが公開されることを避けるために設計されています。しかし、研究者たちは、開発された攻撃によって、モデルに重要な量のトレーニングデータを漏洩させることが可能であることを示しています。 トレーニングデータの抽出攻撃とその重要性 この暴露の背後にいる研究チームは、数年にわたり「トレーニングデータの抽出」に焦点を当てたプロジェクトに関与してきました。トレーニングデータの抽出は、ChatGPTなどの機械学習モデルが、そのトレーニングデータのランダムな側面を保持しており、攻撃を介して抽出される脆弱性がある場合に発生します。この論文では、生産中の「対応性のある」モデルであるChatGPTに対するトレーニングデータの抽出攻撃を初めて明らかにしています。この画像では、メールアドレスと連絡先情報が共有されていることがわかります。 この脆弱性の影響は広範であり、特に機密性の高いまたは独自のデータを持つ人々にとって重要です。データ漏洩の懸念を超えて、この論文は、モデルがトレーニングデータを記憶し、再現するリスクを強調しています。これはオリジナリティに依存する製品にとって重要な要素です。 ChatGPTからのデータの抽出 この研究は、ChatGPTからのトレーニングデータの抽出に成功した証拠を示しています。ただし、モデルはチャットAPIを介してのみアクセス可能であり、データの抽出に対抗するために正確に整列している可能性があります。この攻撃は、プライバシーガードを迂回する脆弱性を特定し、ChatGPTをファインチューニングの整列から逸脱させ、事前トレーニングデータに戻すことができるようにしました。 研究チームは、ChatGPTの整列が記憶の隠蔽を行っており、特定の攻撃に対して促された時のデータの発射頻度の著しい増加を示しています。このモデルは、見かけによらず、従来の攻撃方法よりも150倍も高い記憶能力を示しています。 テストとレッドチーミングモデルへの影響 この論文は、ChatGPTの広範な使用について懸念を呼び起こしました。ChatGPTは既に10億人時間以上の相互作用がありますが、データ発射の頻度の高さは気付かれていませんでした。言語モデルの潜在的な脆弱性と、安全なモデルと見かけ上の安全なモデルの区別が困難な課題が存在します。 既存の記憶力テスト技術は、整列手順によって記憶能力を隠蔽してしまうため、ChatGPTの記憶能力を明らかにするためには不十分です。これは、言語モデルの安全性を確保するために、強化されたテスト手法の必要性を強調しています。 また、こちらも読んでみてください:プライバシーの懸念に対処する方法:ChatGPTユーザーチャットタイトルの漏洩の解説 私たちの意見 ChatGPTのデータ漏洩の脆弱性の公開は、機械学習モデルの進化するセキュリティ分析を強調しています。これらのシステムの安全性を確保するためには、さらなる研究が必要です。現代のテクノロジー駆動の時代において、ChatGPTのデータ漏洩への脆弱性は、高度な言語モデルを保護する上での課題を鮮明に示しています。

ロンドン大学の研究者がDSP-SLAMを紹介:深い形状の事前情報を持つオブジェクト指向SLAM

人工知能(AI)の急速な進展の中で、ディープラーニングはますます人気が高まり、生活をより便利にしています。AIの中で、同時位置推定と地図作成(SLAM)は、ロボット、無人運転車、拡張現実システムなど、あらゆる産業に進出しています。 SLAMは、周囲の環境を再構築し、動くカメラの軌跡を同時に推定するものです。SLAMには、カメラの軌跡を正確に推定し、優れた幾何学的な再構築を行う素晴らしいアルゴリズムがあります。しかし、幾何学的な表現だけでは、より高度なシーン理解を必要とする複雑なタスクにおいて重要な意味情報を提供することはできません。 現在使用されているセマンティックSLAMシステムでは、シーン内のオブジェクトの数、サイズ、形状、相対位置などの具体的な詳細を推論することは難しいです。最近の研究では、ロンドン大学カレッジのコンピュータ科学部の研究チームが、最新のオブジェクト指向SLAMシステムであるDSP-SLAMを紹介しました。 DSP-SLAMは、包括的かつ正確な共同マップを構築するように設計されており、前景オブジェクトは密な3Dモデルで表現され、背景は疎なランドマーク点で表現されます。このシステムは、モノカメラ、ステレオ、またはステレオ+LiDARの入力モダリティでも十分に機能します。 研究チームは、DSP-SLAMの主な機能は、特徴ベースのSLAMシステムによって生成された3Dポイントクラウドを入力として受け取り、特定のオブジェクトを密な再構築する能力を追加することです。オブジェクトの検出にはセマンティックインスタンスセグメンテーションが使用され、カテゴリ固有の深層形状埋め込みがこれらのオブジェクトの形状と位置を推定するための先行情報として使用されています。 研究チームは、DSP対応バンドル調整がシステムの主要な特徴であり、カメラの位置、オブジェクトの位置、特徴点の共同最適化のためのポーズグラフを作成することを強調しています。この戦略を使用することで、シーンの表現方法を改善し最適化し、背景のランドマークと前景のオブジェクトの両方を考慮に入れることができます。 モノカメラ、ステレオ、およびステレオ+LiDARの複数の入力モダリティで秒間10フレームの速度で動作する提案されたシステムは、印象的なパフォーマンスを発揮しました。DSP-SLAMは、KITTIオドメトリデータセットからのステレオ+LiDARシーケンスやFreiburg、Redwood-OSデータセットからのモノカメラRGBシーケンスなど、複数のデータセットでテストされ、その能力が確認されています。不完全な観測にもかかわらず、システムは優れた完全物体再構築と一貫したグローバルマップを保持する能力を示しました。 研究者たちは、主な貢献を以下のように要約しています。 DSP-SLAMは、前景オブジェクトのみを表現する以前の手法とは対照的に、疎な特徴点を使用して背景を再構築することで、オブジェクトに対するセマンティックマッピングの豊かさと特徴ベースのカメラトラッキングの正確さを組み合わせています。 DSP-SLAMは、RGBのみのモノカメラストリームを使用するため、ノード-SLAMではなく、RGBのみのモノカメラストリームを使用しているため、デンスな深度画像に依存する手法よりも優れたパフォーマンスを発揮し、50個の3Dポイントでオブジェクトの形状を正確に推定することができます。 DSP-SLAMは、オブジェクトの形状と位置推定において、事前にベースとなる技術である自動ラベリングを数量的および質的に凌駕しています。 KITTIオドメトリデータセットの実験結果は、DSP-SLAMの共同バンドル調整がトラジェクトリー推定においてORB-SLAM2を凌駕し、特にステレオ+LiDAR入力を使用した場合に優れていることを示しています。

ダックAIは、DuckTrackを紹介します:マルチモーダルコンピュータインタラクションデータコレクター

ユーザーの相互作用の正確で精密なトラッキングは、コンピューターエージェントの機能を進化させる上で重要な基盤となります。このタスクは、インテリジェントシステムの開発とトレーニングにおいて中心的な役割を果たしています。認知プロセスを模倣し、独立して業務を実行することを目的としたこれらのシステムの効果は、ユーザーの相互作用の慎重な調査と体系的な記録に依存しています。 ダックAIの研究者は、コンピューターエージェントが収集されたデータに適切に訓練されるように、さまざまな入力を正確に記録するためのDuckTrackを開発しました。DuckTrackは、主要なオペレーティングシステムと互換性のある使いやすいデスクトップアプリを通じて、マウス、キーボード、画面のビデオ、および音声データを同期して収集します。 さらに、DuckTrackはコミュニティデータ収集イニシアチブを開始しました。 このオープンソースの取り組みでは、さまざまなコンピューターの相互作用データの収集に参加する貢献者を募集しています。 DuckTrackは、すべての主要なオペレーティングシステムでスムーズに動作し、Pythonで作成されています。 DuckTrackの機能概要には、マウスおよびキーボードアクションの正確で精密な記録と再生の能力が示されています。 リサーチャーは、画面の録画をOBSと統合することで、その汎用性をさらに向上させると述べています。 DeepTruckでは、描画タスクにおいて構造的類似性指数(SSIM)は常に0.9を超えています。各イベントは、市場に存在する既存のトラッカーよりも低い誤差範囲で0.03ms ± 0.4msで記録されています。 DuckTrackは、パフォーマンスメトリックにおいて卓越したコミットメントを示しており、最高のトラッキングおよび再生ソリューションを求めるユーザーにとって信頼性のある選択肢となっています。 しかし、DuckTrackにも一定の制限があります。再生時にダブルクリックやトリプルクリックをリアルに再現することは現実的には難しく、これらのアクションの正確性に影響を与えます。さらに、DuckTrackはトラックパッドのジェスチャーを記録することができず、ゲームなどの生の情報を含むシナリオで入力をキャプチャする際に制限があります。 開発者たちは、これらの制限に対処し、コミュニティとの関与を継続することでDuckTrackの能力を向上させるために積極的に取り組んでいます。 リサーチャーは、M2 Pro MBP 14(macOS Sonoma 14.0を実行)、Intel i7-10510U System76 Lemur Pro 9(PopOS!…

「Amazon SageMaker ClarifyとMLOpsサービスを使用して、LLM評価をスケールで運用化する」

ここ数年、大規模言語モデル(LLM)は類稀なる能力を持ち、テキストの理解、生成、操作が可能な優れたツールとして注目されてきましたその潜在能力は、会話エージェントからコンテンツ生成、情報検索まで広範囲にわたり、あらゆる産業を革新する可能性を秘めていますしかし、この潜在能力を生かす一方で、責任ある利用と...

「AIは医療現場でどのような役割を果たすべきか?」

「私は社会学者としての訓練を受けたことを知っている方もいるかもしれません──正確に言うと、大学院で医療社会学を専攻しましたつまり、病気や医学との関わりにおいて人々やグループがどのように相互作用するかに焦点を当てて研究してきました…」

「Llama 2に複数のLoRAアダプタを組み合わせる」

「この記事では、複数のLoRAアダプタを1つのマルチタスクアダプタに組み合わせる方法を紹介します非常に簡単で、結果のアダプタは組み合わせに使用されるアダプタと同じくらい優れていることがわかります」

「Amazon SageMakerスマートシフティングを使用して、ディープラーニングモデルのトレーニングを最大35%高速化」

今日の急速に進化する人工知能の風景において、ディープラーニングモデルは革新の最前線に位置しており、コンピュータビジョン(CV)、自然言語処理(NLP)、および推薦システムなどの応用分野で使用されていますしかし、これらのモデルの学習や微調整に伴うコストの上昇は、企業にとって課題となっていますこのコストは主に[…]によって引き起こされています

ピカ1.0:ビデオ作成のための新しいAIモデル

世界中で生成AIに魅了されているPikaは、AIを活用した動画作成に特化したスタートアップで、Lightspeed Venture Partnersが主導する最新の資金調達ラウンドで驚異的な5500万ドルを獲得しました。この資本の流入は、ビデオ作成の風景を変革する革新的なビデオ撮影ツールのスイートであるPika 1.0のローンチと一致しています。わずか6か月前から始まったPikaの旅は、すでに週に数百万の動画を生成する50万人のユーザーコミュニティを集めました。 Pika 1.0の発表 Pikaの野心的な目標であるビデオ制作の簡素化は、さまざまなスタイル(「3Dアニメーション」、「アニメ」、「シネマティック」など)でビデオを編集することができる生成AIモデルを搭載したPika 1.0の開発につながりました。この革新的なプラットフォームは、ステルスモードから現れ、衣服の変更やキャラクターの追加など、AIを使用した動画の長さの拡張やスタイルの変換、さらには編集まで可能なツールを紹介しています。今の問題は、Pika 1.0がしばしば複雑でリソース集約型なビデオ作成プロセスを本当に革新できるのかということです。 Pikaの競争力 RunwayやStability AIなどの競合他社がひしめく分野で、Pikaはビデオ編集体験を引き上げるという特徴を持って差別化しています。特に、Pika 1.0ではビデオキャンバスやアスペクト比を拡大する機能を提供し、ユーザーに前例のない創造的な自由を提供します。プラットフォームが普及するにつれて、GoogleやMetaなどの業界の巨人たちもビデオ用生成AIツールへの参入を示しています。 LightspeedのPikaへの信頼 競合が存在する風景にもかかわらず、PikaとStability AIの両方に投資しているLightspeed Venture Partnersは、Pikaの変革の可能性に自信を示しています。ライトスピードを代表するマイケル・ミニャーノ氏は、Pikaの技術的な基盤と創造性への早期の情熱によって、このプラットフォームがプロ品質のビデオ作成を民主化するリーダーとなることを信じています。この支持は、Pikaが個人が自分のストーリーを視覚的に共有する方法を再構築する上で重要な役割を果たす可能性があることを示唆しています。 生成AIの台頭 Pikaの急速な成長は、さまざまなアプリケーションでの生成AIへの需要の急増を反映しています。IDCによると、生成AIへの投資額は今年160億ドルから2027年には驚異的な1,430億ドルにまで急増すると予想されています。生成AIは2023年の全体のAI支出のわずか9%を占めるに過ぎないが、同社は次の5年間で28%に大幅に急増すると予想しています。このトレンドはプロフェッショナルに限られたものではありません。最近の調査によると、Z世代もますます生成AIツールを受け入れています。 もっと読む:GoogleのBARDはYouTubeの動画について「観て質問に答える」ことができるようになりました 課題と将来の展望 生成AIが広まるにつれて、課題が待ち受けています。O’Reillyの2023年のレポートでは、法外な結果やセキュリティの問題、公正性や偏り、プライバシーの問題など、さまざまな懸念に直面する、企業のAI採用者の26%が生成AIのパイロット運用の初期段階にあることが示されています。ビジネスのユースケースの特定や、AI生成コンテンツの所有権に関する法的な複雑さも、この業界を妨げています。 私たちの見解…

アップルの研究者がパラレルスペキュラティブサンプリング(PaSS)を紹介:言語モデルの効率とスケーラビリティにおける飛躍

EPFLの研究者は、Appleとの共同研究で、Parallel Speculative Sampling(PaSS)と呼ばれる仕様採取の新たなアプローチを導入しました。この新たなアプローチにより、単一のモデルを使用して複数のトークンを同時に起草することが可能となり、自己回帰生成と仕様採取の利点を組み合わせることができます。PaSSの評価では、テキストとコードの補完のタスクで有望なパフォーマンスが示されており、モデルの品質を損なうことなく、先読み埋め込みの数がアプローチに与える影響も探求され、最適な数値が見つかりました。 PaSSは、仕様採取の制約事項に対処するために提案されたもので、同じトークナイザを使用する2つのモデルが必要な仕様採取と比較して、単一のモデルで複数のトークンの起草が可能です。自己回帰生成とベースラインメソッドとの比較評価により、PaSSの優れたスピードとパフォーマンスが示されています。テキストとコードの補完のタスクでのテストでは、全体的なモデルの品質を損なうことなく、有望な結果が得られました。また、異なるサンプリング手法を使用したベースラインとの比較により、サンプリングスキームと先読み埋め込みがPaSSのパフォーマンスに与える影響も探求されました。 大規模言語モデルは、自己回帰生成による自然言語処理の制約事項があります。生成されるトークンごとに順方向のパスが必要となり、メモリアクセスと処理時間に影響を与えます。仕様採取は解決策を提供するものの、同じトークナイザを使用する2つのモデルが必要となり、ボトルネックを導入します。PaSSは、2段階の並列デコーディングを利用する方法です。1つ目のトークンは、却下された場合の分布マッチングのために起草から除外され、モデルは並列デコーディングを使用して複数のトークンを同時に生成します。この方法により、全体的なモデルの品質を維持しながら、優れたスピードとパフォーマンスが実現されます。 PaSSは、自己回帰生成と比較して最大30%の高速化が見込まれる言語モデルの生成において、モデルのパフォーマンスを適正範囲内に維持しながら、低い分散性と高い予測性を持つトークンを生成する効果的な手法として証明されています。テキストとコードの補完のタスクにおいてPaSSのパフォーマンスを評価することで、その有効性が実証されています。さらなる改善点として、より高いパフォーマンス向上を目指して、より優れた先読みチケットを利用する方法が提案されています。 将来の研究の方向としては、先読みトークンを利用した並列生成の品質向上を探求することが推奨されており、PaSSのパフォーマンス向上のための有望な手法とみなされています。研究者は、先読みステップ数がPaSSに与える影響についてさらなる調査が必要であると強調しており、ステップ数の増加がアプローチの利点を相殺する可能性があると指摘しています。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us