Learn more about Search Results A - Page 206

「野心的なAI規制に対する力強いプロセス:オックスフォード研究からの3ステップソリューション」

「もしアカウンタブルマネージャーやプロダクトオーナー、プロジェクトマネージャー、もしくはデータサイエンティストで、AIプロジェクトに関与している場合、Oxford ResearchはあなたをAI規制の重要な関係者として特定しました先行スタートを切りましょう…」

PageRankアルゴリズム:詳細な概要

1996年にラリー・ページとセルゲイ・ブリンによって導入されたPageRankアルゴリズムは、検索エンジンの機能に大きな影響を与えましたその核心原理は、ウェブページの重要性を評価することに基づいています

「LangChainのチェーンとGPTモデルを使用して、終わりのないコンテンツのアイデアを生成する方法:ステップバイステップガイド」

幸運にも、2023年3月には、Open AIがGPT-4やGPT-3.5などの最も強力なモデルのためのAPIをリリースしましたそれが本当のゲームチェンジャーでしたそれ以来、機会は無限です今では、以下のことができます...

「ジェネラティブAIが語りの技術を変革する方法」

はじめに 太古の昔から、物語は私たちの心と思考を捉え、感情を引き起こし、創造性を刺激し、重要なメッセージを明らかにしてきました。しかし、AIの力によって、人間の物語作りの限界を超え、AIに物語の共同執筆を許すことができると想像できたらどうでしょうか。本記事では、「AIによる物語のナレーションの変革」という興味深い世界を探求し、モデルが創造性を解き放つ様子を見ていきます。 学習目標 ジェネレーティブAIモデルの基本原理を学び、文脈とパターンを活用して一貫した物語を生成する方法を理解する。 AIと共に物語を作り上げるプロセスを探求し、AIが生成したコンテンツを導く魅力的なプロンプトの作成から、人間の創造性と機械の提案がシームレスに融合したストーリーの共同執筆までを体験する。 AIと人間の創造性が融合することで進化する文学の景観について洞察を得る。AIが著者と協力して伝統的な物語の枠組みを超え、文化的多様性を促進し、新たな物語のパラダイムを築く未来をイメージする。 この記事はデータサイエンスブログマラソンの一環として公開されました。 アプローチの理解 人間の創造性と人工知能の驚くべき相互作用により、現代の物語作りが変革を遂げています。AIによるストーリー制作の概念がこの進化の中心にあり、ジェネレーティブAIモデルが注目を集めています。AIとの「ナレーション」の道に踏み出す前に、この新しい技術の基本的なアイデアを理解することが重要です。ジェネレーティブAIモデルのアーキテクチャは、大規模なデータセットでの集中的なトレーニングに基づいています。さまざまなテキストソースに触れることで、モデルは人間のような応答を模倣し、自然に流れる文章を生成する能力を獲得します。 AIのストーリーテリングにおいては、文脈が重要です。これらのモデルは単なる文章作成ツール以上であり、文脈に即したストーリーテラーです。プロンプトや未完成の文を使ってAIの創造的な流れを指示し、ビジョンに合致する一貫した物語を展開させます。AIはトレーニングと入力に基づいて最も可能性の高い次のフレーズを予測します。AIは言語とストーリーの基準を理解する助手のような存在です。テキストを作成する際、AIは豊富な文学の知識を活用し、単語を結びつけてシームレスなストーリーテリングの一部として織り交ぜます。この機械学習と言語の微妙なニュアンスの組み合わせにより、AIは異なる文章スタイル、ジャンル、トーンを模倣することができます。 さらに、AIのストーリーテリングは著者ではなく共同創造に関わるものです。AIの能力を理解し、その出力を誘導することで、作家は創造的な声を補完し、拡大するためにその潜在能力を活用することができます。人間の創造性と機械生成のコンテンツのこのコラボレーションにより、伝統的な枠組みを超えたユニークなストーリーテリングの枠組みが作られます。 創造的なコラボレーション:AIと共に物語を作り上げる 人工知能は、物語作りにおける協力的な創造の前例のない機会を提供します。”創造的なコラボレーション”では、人間の著者とAIが結びつき、伝統的な物語の枠組みを超えた物語を生み出すプロセスが紹介されます。 完璧なプロンプトの作成 作家はキャラクターの紹介、場所、テーマ、感情のニュアンスを含むプロンプトを作成することで、自分の想像力とAIの推薦との間でダイナミックな相互作用を生み出します。次のシナリオを考えてみてください。「絵の中の目が彼を…についていく」。AIはこのキューを検出し、設定された文脈に一致する応答を構築するためにトレーニングを活用します。人間の創造性とAIが生成した情報の調和した組み合わせにより、物語の旅はさまざまな視点の融合を通じて進化します。 共同執筆の実践 次のシナリオを考えてみてください:あなたは物語の最初の数行を紹介し、今度はAIが追加する番です。AIは確立した基盤に基づいて次の文を推奨します。このやり取りは続き、それぞれの相互作用が物語のキャンバスに新たな層を加えていきます。その秘訣は、人間の文章からAIの提案へのシームレスな移行にあります。作業を進める中で、AIのアイデアに対して返信し、物語を自分が望む方向に形作っていきます。このダイナミックな相互作用により、人間の知性とAIによる創造性の両方を取り込んだ物語が生まれます。 物語の新たなフロンティア:視点の融合 「クリエイティブコラボレーション」は、人間の作者がAIの共同作者と協力して、魅力的で興味深く、想像力のフロンティアを押し広げる物語を作り出すという、物語の新たなフロンティアを象徴しています。 AIモデルが改善されるにつれて、創造的な関係はより深まり、作者は以前は到達不可能と考えられていたジャンル、スタイル、視点を探求することができます。 AIとの物語作成 常に変化する物語の世界において、人工知能との調和したコラボレーションによって育まれる魅力的で変革的な現象が浮かび上がります。 「AIとの物語作成」という概念は、人間の想像力の素晴らしさとAIのテキスト生成能力を組み合わせた画期的な手法を紹介し、人間と機械の創造性の境界を優雅に越えた物語の誕生をもたらします。 この複雑に絡み合う人間の創造性とAIの計算的な洗練が見せるこの共同作業は、物語の進化における新たな章を明らかにします。…

メリーランド大学とMeta AIの研究者は、「OmnimatteRF」という新しいビデオマッティング手法を提案していますこの手法は、動的な2D前景レイヤーと3D背景モデルを組み合わせたものです

ビデオを複数のレイヤーに分割し、それぞれにアルファマットを持たせ、それらのレイヤーを元のビデオに再構成することは、「ビデオマッティング」として知られる課題です。レイヤーを交換したり、合成する前に個別に処理したりすることができるため、ビデオ編集業界では多くの用途があり、数十年にわたって研究されてきました。主題のマスクのみが必要なアプリケーションには、ビデオ制作におけるロトスコーピングやオンラインミーティングでの背景のぼかしなどが含まれます。ただし、興味のあるアイテムだけでなく、影や反射などの関連するエフェクトも含むビデオマットを作成できる能力は一般的に望まれています。これにより、最終的なカットムービーのリアリズムが向上し、手作業での二次効果のセグメンテーションの手間が減少する可能性があります。 オブジェクトの除去など、クリーンな背景の再構築が望まれるアプリケーションでは、前景オブジェクトの関連する影響を除外することが役立ちます。その利点にもかかわらず、この問題の不適切性により、標準のマッティング問題よりも研究が少なくなっています。 オムニマットは、この問題に対処するための迄今最も有望な取り組みです。オムニマットは、前景の移動するアイテムとそれらが生み出す効果を記録するRGBAレイヤーです。オムニマットは背景をホモグラフィでモデル化するため、背景が平面的であるか、単一のモーションのタイプが回転であるビデオにのみ効果的です。 D2NeRFは、2つの輝度場を利用してシーンのダイナミックな部分と静的な部分を別々にモデル化することで、この問題を解決しようとする試みです。すべての処理は3次元で行われ、システムは多くのカメラ移動がある複雑なシナリオを処理することができます。また、マスク入力は必要なく、完全に自己監督型です。ラフなマスクなどのビデオ上で定義された2Dガイダンスをどのように組み合わせるかは明確ではありませんが、静止した背景からすべての移動アイテムを効果的にセグメンテーションします。 メリーランド大学とメタによる最近の研究では、3Dの背景モデルと2Dの前景レイヤーを組み合わせることで両者の利点を結びつけるアプローチを提案しています。 3Dでは作成が難しいオブジェクト、アクション、効果は、軽量の2Dの前景レイヤーで表現することができます。同時に、3Dの背景モデリングは、複雑なジオメトリや回転ではないカメラの動きを処理することができるため、2Dのアプローチよりもさまざまな種類のムービーを処理することが可能になります。研究者たちはこの技術を「オムニマットRF」と呼んでいます。 実験結果は、個別のパラメータ修正を必要とせずに、幅広い範囲のビデオで強力なパフォーマンスを発揮することを示しています。D2NeRFは、背景の3D環境での背景分離を客観的に分析するためにKubricsを使用してレンダリングされた5つのビデオのデータセットを作成しました。これらのセットは、一部の移動アイテムがしっかりとした影を作り出す比較的整理された内部設定です。さらに、チームは複雑なアニメーションと照明条件を持つオープンソースのBlenderムービーを基にした5つのビデオを生成し、より困難で現実的なシナリオに対応しています。どちらのデータセットも、過去の調査と比較して優れたパフォーマンスを示しています。 背景モデルは、常に影の中にある部分の色を正確に復元することはできません。アニメーションレイヤーにはアルファチャネルがあるため、背景の元の色を保持しながら加算のみの影を記録することが可能であるはずです。ただし、現在の文脈では、この問題を解決するのは困難です。

「見えないものを拡大する:この人工知能AIの手法は、3Dで微妙な動きを可視化するためにNeRFを使用します」

私たちは、身体の微妙な動きから地球の大規模な動きまで、動きに満ちた世界に生きています。しかし、これらの動きの多くは肉眼では見えないほど小さいものです。コンピュータビジョンの技術を使用して、これらの微妙な動きを抽出し、拡大することで、より見やすく理解しやすくすることができます。 最近、ニューラル放射フィールド(NeRF)が3Dシーンの再構築とレンダリングにおける強力なツールとして登場しました。 NeRFは、画像のコレクションから3Dシーンの外観を表現するために訓練することができ、その後、任意の視点からシーンをレンダリングするために使用することができます。 NeRFは、画像のコレクションから3Dシーンの外観を表現します。 NeRFは、3Dポイントから対応する色と輝度へのマッピング関数を学習することによって動作します。この関数は、任意の視点からシーンをレンダリングするために使用することができます。これらのモデルは、複雑な3Dシーンの外観を非常に効果的に表現することが示されています。これらは、物体、シーン、さらには人物のリアルな3Dモデルをレンダリングするために使用されています。 NeRFは、仮想現実、拡張現実、コンピュータグラフィックスの新しいアプリケーションの開発にも使用されています。 3Dシーンの微妙な動きを拡大するためにNeRFの力を利用したらどうでしょうか?これは簡単な課題ではありません。いくつかの課題が存在します。 最初の課題は、微妙な動きを持つシーンの画像のセットを収集することです。これは困難な課題であり、動きは肉眼では感じられないほど小さくなければなりませんが、カメラでキャプチャするには十分に大きくなければなりません。 2番目の課題は、収集した画像からシーンの外観を表現するためにNeRFを訓練することです。これは難しい課題であり、NeRFはシーンの微妙な時間的変動を学習できる必要があります。 3番目の課題は、NeRFのポイント埋め込みにオイラー運動解析を行うことです。これは計算量の多いタスクであり、高次元空間での時間的変動を分析する必要があります。 それでは、これらの課題に賢明に対処する3Dモーションマグニフィケーションについて見てみましょう。 3Dモーションマグニフィケーション。出典:https://arxiv.org/pdf/2308.03757.pdf 3Dモーションマグニフィケーションは、NeRFの力を利用するAIの手法です。 NeRFを使用して、微妙な時間的変動を持つシーンを表現します。 NeRFのレンダリングの上に、オイラー運動解析が適用され、NeRFのポイント埋め込みの時間的変動が増幅されます。これにより、以前は見えなかった微妙な動きが拡大された3Dシーンが表示されます。 この手法にはいくつかの重要なステップがあります。最初のステップはデータ収集とNeRFの訓練です。微妙な動きを持つシーンの画像のセットを収集することから始まります。画像は異なる視点から、さまざまな時間ステップでキャプチャする必要があります。そして、これらの収集した画像を使用して、収集した画像からシーンの外観を表現するために使用するNeRFモデルを訓練します。これは、レンダリングされた画像と正解の画像との間の差を測定する損失関数を最小化するために訓練されます。 提案手法の概要。出典:https://arxiv.org/pdf/2308.03757.pdf NeRFモデルが準備できたら、次のステップはオイラー運動解析を行うことです。NeRFのポイント埋め込みの時間変動は、オイラー運動解析を使用して増幅されます。これは流体や固体の運動を解析するための数学的なフレームワークです。NeRFのポイント埋め込みなど、任意の時間変動するフィールドの時間変動を抽出するために使用することができます。これらの増幅された時間変動は、シーン内の動きを拡大するために使用されます。これは、増幅されたポイント埋め込みを使用してNeRFからシーンをレンダリングすることによって行われます。

「医療AIの基礎モデル」

「私たちはPLIPという医療AIの基盤モデルを説明しますPLIPは病理学のAIタスクをサポートするために構築されたビジョン言語モデルです」

「AIにおけるプロダクションシステムとは何ですか?例、動作方法、その他」

AIプロダクションシステムは意思決定の基盤です。これらのシステムは、製造ルールによって複雑なタスクを自動化し、データを効率的に処理して洞察を生成します。これらは、グローバルデータベース、製造ルール、制御システムから構成される知識集約型のプロセスを容易にする役割を果たします。その主な特徴は、シンプルさ、モジュラリティ、適応性、修正可能性です。AIプロダクションシステムは、前方推論や後方推論などの制御戦略に基づいて、その特性に応じてさまざまなタイプに分類されます。AIにおけるプロダクションシステムの理解は、AIの潜在能力を活用し、機械学習と統合し、展開時の倫理的な考慮事項に対処するために重要です。 プロダクションシステムの構成要素 AIプロダクションシステムの構成要素は、次の3つの要素から成り立ちます: グローバルデータベース: グローバルデータベースはシステムのメモリとして機能し、操作に関連する事実、データ、知識を格納します。これは製造ルールが情報を参照して適切な意思決定を行い、結論を導くためのリポジトリです。 製造ルール: 製造ルールはシステムの中核となる論理を形成します。これらは、意思決定を行う際にシステムが従うためのガイドラインのセットです。これらの規則は、さまざまな入力や状況に対するシステムの反応を定義します。 制御システム: 制御システムは製造ルールの実行を管理します。ルールが適用される順序を決定し、効率的な処理とシステムのパフォーマンスの最適化を確保します。 AIにおけるプロダクションシステムの特徴 AIプロダクションシステムは、自動化された意思決定や問題解決のための多様で強力なツールとなるいくつかの重要な特徴を備えています: シンプリシティ: プロダクションシステムは、ルールのエンコードと実行を簡単に行う方法を提供します。これにより、開発者やドメインの専門家にとってアクセスしやすくなります。 モジュラリティ: これらのシステムはモジュール化されたコンポーネントから構成されており、ルールの追加、削除、または変更を行うことなくシステム全体に影響を与えずに行うことができます。このモジュラリティは柔軟性とメンテナンスの容易さを向上させます。 修正可能性: AIプロダクションシステムは非常に適応性があります。ルールは広範囲の再設計なしで更新や置換ができるため、システムが最新の要件に合わせて調整され、進化し続けることができます。 知識集約型: これらのシステムは知識豊富なタスクの処理に優れています。包括的なグローバルデータベースに依存しています。 適応性: AIプロダクションシステムは新しいデータやシナリオに動的に適応することができます。この適応性により、システムを持続的に改善することができます。 AIにおけるプロダクションシステムの分類 AIプロダクションシステムは、次の4つの一般的な分類に分類されます: 単調プロダクションシステム:…

ImageBind-LLMにおけるマルチモーダリティ指示応答モデリングの進展

研究者は、マルチモダリティの指示に従うモデルの進化における重要なマイルストーンであるImageBind-LLMを紹介しますこのLLMの特徴は、多様な指示をシームレスに統合し、応答する能力ですそれにより、データサイエンティストやAI分野の専門家にとって貴重な資産となりますこの新しいモデルは、...から提供されています

「CMUの研究者たちは、スロット中心のモデル(Slot-TTA)を用いたテスト時の適応を提案していますこれは、シーンを共通してセグメント化し、再構築するスロット中心のボトルネックを備えた半教師付きモデルです」

コンピュータビジョンの最も困難で重要なタスクの1つは、インスタンスセグメンテーションです。画像や3Dポイントクラウド内のオブジェクトを正確に区別し、カテゴリ分けする能力は、自律走行から医療画像解析までさまざまなアプリケーションに基盤となるものです。これらの最先端のインスタンスセグメンテーションモデルの開発においては、長年にわたって著しい進歩が達成されてきました。しかし、これらのモデルは、しばしばトレーニング分布から逸脱した多様な現実のシナリオとデータセットに対して助けが必要です。セグメンテーションモデルをこれらの分布外(OOD)シナリオに適応させるというこの課題は、革新的な研究を促しています。そのような画期的なアプローチの1つであるSlot-TTA(テスト時適応)は、非常に注目されています。 計算機ビジョンの急速な進化の中で、インスタンスセグメンテーションモデルは顕著な進歩を遂げ、画像や3Dポイントクラウド内のオブジェクトを認識し、正確にセグメント化することが可能となりました。これらのモデルは、医療画像解析から自動運転車まで、さまざまなアプリケーションの基盤となっています。しかし、それらは共通の困難な敵に直面しています。それは、トレーニングデータを超える多様な現実のシナリオとデータセットに適応することです。異なるドメイン間でシームレスに移行することのできなさは、これらのモデルを効果的に展開するための重要な障壁となっています。 カーネギーメロン大学、Google Deepmind、Google Researchの研究者たちは、この課題に対処する画期的なソリューションであるSlot-TTAを発表しました。この新しいアプローチは、インスタンスセグメンテーションのテスト時適応(TTA)に設計されています。Slot-TTAは、スロット中心の画像とポイントクラウドレンダリングコンポーネントの能力と最先端のセグメンテーション技術を結びつけています。Slot-TTAの核となるアイデアは、インスタンスセグメンテーションモデルがOODシナリオに動的に適応できるようにすることであり、これにより精度と汎用性が大幅に向上します。 Slot-TTAは、その主なセグメンテーション評価指標として調整済みランド指数(ARI)の基礎に基づいて動作します。Slot-TTAは、マルチビューの姿勢付きRGB画像、単一ビューのRGB画像、複雑な3Dポイントクラウドなど、さまざまなデータセットで厳密なトレーニングと評価を行います。Slot-TTAの特徴的な特徴は、テスト時適応のための再構成フィードバックを活用する能力です。このイノベーションは、以前に見たことのない視点とデータセットに対してセグメンテーションとレンダリングの品質を反復的に改善することを含みます。 マルチビューの姿勢付きRGB画像において、Slot-TTAは強力な競合相手として浮上します。その適応性は、MultiShapeNetHard(MSN)データセットの包括的な評価によって示されます。このデータセットには、リアルワールドのHDR背景に対して注意深くレンダリングされた51,000以上のShapeNetオブジェクトが含まれています。MSNデータセットの各シーンには、Slot-TTAのトレーニングとテストのために入力ビューとターゲットビューに戦略的に分割された9つの姿勢付きRGBレンダリング画像があります。研究者たちは、トレーニングセットとテストセットの間のオブジェクトインスタンスとシーン中のオブジェクトの数に重なりがないように特別な配慮をしています。この厳格なデータセットの構築は、Slot-TTAの堅牢性を評価するために重要です。 評価では、Slot-TTAはMask2Former、Mask2Former-BYOL、Mask2Former-Recon、Semantic-NeRFなどのいくつかのベースラインと対決します。これらのベースラインは、Slot-TTAのパフォーマンスをトレーニング分布内外で比較するためのベンチマークです。その結果は驚くべきものです。 まず最初に、OODシーンにおいて特にMask2Formerと比較して、Slot-TTA with TTAは優れた性能を発揮します。これは、Slot-TTAが多様な現実のシナリオに適応する能力の優れていることを示しています。 次に、Mask2Former-BYOLにおけるBartlerらの自己教師あり損失の追加は、改善をもたらさないことが明らかになります。これは、すべてのTTA手法が同じくらい効果的ではないことを強調しています。 さらに、セグメンテーション監督なしのSlot-TTAは、OSRT(Sajjadi et al., 2022a)のようなクロスビュー画像合成にのみトレーニングされたバリアントと比較して、Mask2Formerのような監督セグメンターに比べて大幅に性能が低下します。この観察結果は、効果的なTTAのためには訓練中のセグメンテーション監督の必要性を強調しています。 Slot-TTAの能力は、新しい、以前に見たことのないRGB画像ビューの合成と分解にも広がります。前述のデータセットとトレーニングとテストの分割を使用して、研究者はSlot-TTAのピクセル単位の再構成品質とセグメンテーションARIの精度を、5つの新しい、以前に見たことのない視点について評価します。この評価には、TTAのトレーニング中に見られなかったビューも含まれます。その結果は驚くべきものです。 Slot-TTA(Slot-centric Temporal Test-time Adaptation)による未知の視点におけるレンダリングの品質は、テスト時の適応によって大幅に向上し、新しいシナリオでのセグメンテーションとレンダリングの品質を向上させる能力を示しています。これに対し、強力な競合であるSemantic-NeRFは、これらの未知の視点への一般化に苦労しており、Slot-TTAの適応性と潜在能力を示しています。 結論として、Slot-TTAはコンピュータビジョンの分野における重要な進歩を表しており、多様な現実世界のシナリオにセグメンテーションモデルを適応させるという課題に取り組んでいます。スロット中心のレンダリング技術、高度なセグメンテーション手法、およびテスト時の適応を組み合わせることで、Slot-TTAはセグメンテーションの精度と汎用性の両方で顕著な改善を提供します。この研究は、モデルの制約を明らかにするだけでなく、コンピュータビジョンの将来のイノベーションへの道を開拓します。Slot-TTAは、コンピュータビジョンの絶えず進化する領域で、インスタンスセグメンテーションモデルの適応性を向上させることを約束します。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us