Search Results arXiv

「NeRFたちが望むヒーローではないが、NeRFたちに必要なヒーロー：CopyRNeRFは、NeRFの著作権を保護するAIアプローチです」

もし、コンピュータグラフィックスの領域での進化に注目していれば、ニューラル放射場 (NeRFs) についてはお馴染みかもしれません。NeRFsは、3Dシーンやオブジェクトの表現のための有望な技術として登場しました。異なる視点からキャプチャされた画像のコレクションを使用して、シーンの外観を深層ニューラルネットワークでモデル化します。 NeRFsは、新しい視点の高品質な合成や現実的なレンダリング、さらにはスパースで非正規サンプリングされたデータからのシーンの再構築を実現することができます。複雑な照明効果を処理する能力があるため、多くの応用がある技術として広く研究されています。ですので、2Dではなく3Dで周囲の景色をキャプチャすることが可能になり、記憶の奥深くに入り込むことができます。キャプチャについて話すと、著作権という大きな問題があることをおそらくご存知かもしれません。特にプロフェッショナルな方々は、美しい写真や素晴らしいイラストをキャプチャするためにかけた時間と努力を著作権で保護する傾向があります。これにより、彼らは自分たちの時間に対するクレジットを得ることができます。 NeRFsに関連する著作権の側面について考えたことはありますか？デジタルアセットを著作権で保護することはよく知られた方法です。写真を撮影すれば、それを著作権で保護することができます。ビデオを録画すれば、それを著作権で保護することができます。しかし、NeRFsにはどうなるのでしょうか？デジタルなNeRFを保護し、未承認の使用や盗難を防ぐにはどうすればいいのでしょうか？それでは、CopyRNeRFと出会いましょう。 NeRFモデルを学習し、知的財産を保護することは大きな課題です。直感的な解決策の1つは、既存の透かし付け手法を使用してレンダリングされたサンプルに直接著作権メッセージや透かしを埋め込むことです。ただし、この方法はレンダリングされたサンプルのみを保護し、コアなNeRFモデルを保護しません。これはNeRFが従来のメディアフォーマットと異なる点です。出力だけでなく、モデル自体もプロジェクトする必要があります。 CopyRNeRFは、この問題に対処するために提案されています。著作権情報がモデルのウェイトに埋め込まれるようにすることで、著作権メッセージをモデル自体に埋め込みます。この透かし付けプロセスにより、著作権情報は保護されたモデルのみでアクセス可能となります。透かし付けの基準を満たすために、CopyRNeRFは透明性と頑健性の両方に焦点を当てています。埋め込まれたメッセージが視覚的な歪みを引き起こさないようにすることと、様々な歪みの下で信頼性のあるメッセージの抽出を可能にすることです。 CopyRNeRFはモデルの所有権を保護できます。出典: https://arxiv.org/pdf/2307.11526.pdf 2D画像に透かしを使用する以前の試みは、NeRFモデルへの効果的な伝達に失敗し、透かしの抽出の頑健性が損なわれていました。その代わりに、CopyRNeRFでは、一部のモデルを基にした透かし付きのカラー表現を使用してレンダリングすることが含まれています。これにより、基本的な表現が保持され、レンダリングされたサンプルにおいて透明性が確保されます。さらに、空間情報が透かし付きのカラー表現に組み込まれるため、異なる視点からのNeRFモデルのレンダリングにおいて埋め込まれたメッセージが一貫していることが保証されます。 CopyRNeRFの概要。出典: https://arxiv.org/pdf/2307.11526.pdf さらに、透かしの抽出の頑健性を強化するために、モデルの最適化中に歪みに強いレンダリングが使用されます。歪み層により、ぼやけ、ノイズ、回転などの厳しい歪みの下でも信頼性のある透かしの抽出が可能となります。さらに、ランダムサンプリング戦略は、異なるレンダリング方法やサンプリング戦略に対する保護されたモデルの頑健性を高めます。

「自己教師あり学習とトランスフォーマー？ – DINO論文の解説」

「一部の人々は、Transformerのアーキテクチャを愛し、それをコンピュータビジョンの領域に歓迎しています他の人々は、新しいプレイグラウンドに新しい子供がいることを受け入れたくありませんさて、何が起こるのか見てみましょう...」

ChatGPTと高度なプロンプトエンジニアリング：AIの進化を推進する

「高度なプロンプト工学について学び、テクノロジーとのコミュニケーションにおける役割、ChatGPTなどのツールの応用について学ぶ」

「LLMは強化学習を上回る- SPRINGと出会う LLM向けの革新的なプロンプティングフレームワークで、コンテキスト内での思考計画と推論を可能にするために設計されました」

SPRINGは、マルチタスクの計画と推論を必要とする対話型環境で強化学習アルゴリズムを上回るLLMベースのポリシーです。カーネギーメロン大学、NVIDIA、アリエル大学、マイクロソフトの研究者グループは、ゲームの文脈で人間の知識を理解し推論するためにLarge Language Models (LLMs)の使用を調査しました。彼らは、学術論文を研究し、それに基づいて知識を正当化するために、SPRINGと呼ばれる2段階のアプローチを提案しています。 SPRINGの詳細について第1段階では、著者たちはHafner (2021)のオリジナル論文のLaTeXソースコードを読み取り、事前知識を抽出しました。彼らはLLMを使用して、ゲームメカニクスや論文に記載された望ましい動作などの関連情報を抽出しました。次に、Wu et al. (2023)と類似のQA要約フレームワークを使用して、抽出した知識に基づいてQA対話を生成しました。これにより、SPRINGは多様な文脈情報を扱うことができるようになりました。第2段階では、LLMを使用して複雑なゲームを解決するための文脈に基づいた思考の連鎖推論に焦点を当てました。質問をノードとし、質問間の依存関係をエッジとして表す有向非巡回グラフ（DAG）を推論モジュールとして構築しました。たとえば、質問「各アクションに対して要件は満たされていますか？」は、DAG内で質問「トップ5のアクションは何ですか？」にリンクされ、後者の質問から前者への依存関係が確立されます。 LLMの回答は、DAGをトポロジカル順序でトラバースすることで各ノード/質問ごとに計算されます。DAGの最後のノードは最適なアクションに関する質問を表し、LLMの回答は直接環境アクションに変換されます。実験と結果 Hafner (2021)によって導入されたCrafter Environmentは、深さ7のテックツリーで構成された22の実績を持つオープンワールドサバイバルゲームです。このゲームは、上から見た観察と17のオプションからなる離散的なアクション空間で表されます。観察には、プレイヤーの現在のインベントリ状態（体力、食べ物、水、休息レベル、アイテムなど）に関する情報も提供されます。著者たちは、CrafterベンチマークでSPRINGと人気のあるRL手法を比較しました。その後、アーキテクチャの異なるコンポーネントについての実験と分析を行い、LLMの文脈における「推論」能力に各部分が与える影響を調査しました。出典: https://arxiv.org/pdf/2305.15486.pdf 著者たちは、Hafner et al. (2023)による最も優れたRL手法と比較して、Hafner…

現代の自然言語処理（NLP）：詳細な概要パート4：最新の展開

現在の世界では、ウェブに接続している人なら誰でもChatGPTというツールを聞いたことがあり、それがあちこちで混乱を引き起こし、中には日常のさまざまなタスクに使用しようと試みた人もいます...

「Pythia 詳細な研究のための16個のLLMスイート」

Pythiaは、Eleuther AIによる16の大規模言語モデルのスイートですトレーニングとスケーリング中に自己回帰的な大規模言語モデルを理解し、分析するのに役立ちます

Artificial Intelligence

「糖尿病網膜症の段階を予測して眼の盲目を防ぐ」

はじめに糖尿病性網膜症は、網膜の血管に変化を引き起こす眼の状態です。無治療のまま放置すると、視力の喪失につながります。そのため、糖尿病性網膜症の段階を検出することは、目の失明を防ぐために重要です。このケーススタディは、糖尿病性網膜症の症状から目の失明を検出することについてのもので、データはさまざまな撮影条件で眼底カメラ（眼の後ろを写真に撮るカメラ）を使用して、さまざまな訓練された臨床専門家によって田舎の地域から収集されました。これらの写真は、2019年にKaggleが行ったコンペティション（APTOS 2019 Blindness Detection）で糖尿病性網膜症の段階を検出するために使用され、私たちのデータは同じKaggleのコンペティションから取得されました。この糖尿病性網膜症の早期検出は、治療を迅速化し、視力の喪失のリスクを大幅に減らすのに役立ちます。訓練された臨床専門家の手作業による介入は、特に発展途上国では時間と労力がかかります。したがって、このケーススタディの主な目的は、効率的な技術を使用して状態の重症度を検出し、失明を防止することです。私たちは、深層学習の技術を実装して、状態の分類に効果的な結果を得るために取り組んでいます。学習目標糖尿病性網膜症の理解：眼の状態と視力への影響について学び、早期検出の重要性を強調します。深層学習の基礎：深層学習の基礎を探求し、糖尿病性網膜症の診断における関連性を理解します。データの前処理と拡張：ディープラーニングモデルのトレーニングのためにデータセットを効果的に準備し、強化する方法を理解します。モデルの選択と評価：重症度分類のためのディープラーニングモデルの選択と性能評価の方法を学びます。実用的な展開：Flaskを使用して最適なモデルの展開と実世界での予測を実現します。この記事はデータサイエンスブログマラソンの一環として公開されました。ビジネスの問題ここでは、人の状態の重症度が5つのカテゴリに分類されます。つまり、人は重症度レベルのいずれか1つで認識されます。ビジネスの制約事項医療分野では正確性と解釈可能性が非常に重要です。間違った予測は人々の命を奪う可能性があるため、厳格なレイテンシの心配はありませんが、結果については正確でなければなりません。データセットの説明データセットには、訓練された臨床専門家が各画像を糖尿病性網膜症の重症度に基づいて以下のように分類した3,662枚のラベル付き網膜画像が含まれています。 0 — 糖尿病性網膜症なし 1 —…

「MLOpsの全機械学習ライフサイクルをカバーする：論文要約」

このAIの論文は、MLOpsの分野に関する包括的な調査を提供しています。MLOpsは、機械学習のライフサイクル全体を自動化することに焦点を当てた新興の学問です。この調査は、MLOpsのパイプライン、課題、ベストプラクティスなど、幅広いトピックをカバーしています。モデルの要件分析、データの収集、データの準備、特徴量エンジニアリング、モデルのトレーニング、評価、システムの展開、モデルの監視など、機械学習プロセスのさまざまなフェーズについて詳しく説明しています。さらに、ビジネス価値、品質、人間の価値、倫理など、ライフサイクル全体での重要な考慮事項についても議論されています。この論文は、MLOpsの包括的な調査を提示し、機械学習のライフサイクルを自動化することの重要性を強調しています。調査では、MLOpsのパイプライン、課題、ベストプラクティス、および機械学習プロセスのさまざまなステージについて取り上げています。この論文は以下の図でまとめられています: https://arxiv.org/abs/2304.07296: 機械学習プロセスモデルの要件分析機械学習プロジェクトを始めるために、ステークホルダーはモデルの要件を分析し特定する必要があります。このセクションでは、ビジネス価値、モデルの品質、人間の価値（プライバシー、公正性、セキュリティ、責任）、倫理の4つの基本的な側面について説明しています。ステークホルダーは目的を定義し、価値と問題を特定するためのツールを評価し、要件を優先順位付けし、関連するステークホルダーを巻き込み、必要な機能を決定することが推奨されています。データの収集と準備データの準備フェーズは、機械学習タスクに適した高品質のデータを確保するために重要な役割を果たします。このセクションでは、データの収集、データの発見、データの拡張、データの生成、およびETL（抽出、変換、読み込み）プロセスについて取り上げています。データの品質チェック、データのクリーニング、データの統合、データのマッチング、および探索的データ分析（EDA）を行うことの重要性を強調しています。特徴量エンジニアリング特徴量エンジニアリングは、予測モデリングの性能向上に重要です。このセクションでは、特徴量の選択と抽出、特徴量の構築、特徴量のスケーリング、データのラベリング、特徴量の補完などの技術を強調しています。各技術に関連する特定のアルゴリズムとメソッドも説明されており、Principal Component Analysis（PCA）、Independent Component Analysis（ICA）、およびStandardization and Normalizationも含まれています。モデルのトレーニングモデルのトレーニングフェーズでは、監視された学習、非監視学習、半教師あり学習、強化学習など、さまざまなタイプの機械学習モデルがカバーされています。このセクションでは、特定の問題に適したモデルを選択するモデル選択についても議論されています。また、クロスバリデーション、ブートストラップ、ランダム分割などのモデル選択の方法も探求されています。ハイパーパラメータのチューニング、つまりモデルのパラメータを最適化するプロセスも取り上げられています。モデルの評価モデルの評価は、さまざまなメトリックを使用してモデルのパフォーマンスを評価することに焦点を当てています。このセクションでは、精度、適合率、再現率、Fスコア、ROC曲線下面積（AUC）などの一般的な評価メトリックを紹介しています。モデルのパフォーマンスだけでなく、ビジネス価値も考慮することの重要性を強調しています。システムの展開システムの展開には、適切なMLモデルオペレーティングプラットフォームの選択、システムの統合、システム統合テストの実施、およびシステムのエンドユーザーへのリリースが含まれます。カナリア展開やブルーグリーン展開などの展開戦略も説明されています。MLシステムの展開に関連する課題も議論されており、スムーズな展開プロセスのためのヒントも提供されています。モデルの監視…

大規模言語モデルの挙動を監視する7つの方法

自然言語処理の世界では、大規模言語モデル（LLM）の使用による急速な進化が見られています彼らの印象的なテキスト生成およびテキスト理解能力を通じて、LLMは...

RepVGG 構造的再パラメータ化の詳細な説明

「これらの1x1の畳み込みがさらに3x3の畳み込みにパラメータ化され、アイデンティティショートカットが1x1の畳み込みに変換される詳細について、私は詳細に掘り下げますこの記事は…」

Learn more about Search Results arXiv - Page 17