Learn more about Search Results A - Page 578

「3D-GPT(3D-指示駆動型モデリングのための人工知能フレームワーク)に会ってください 大規模な言語モデル(LLM)を利用した指示駆動型3Dモデリングのための人工知能フレームワーク」

細心緻密的模型在元宇宙時代的3D內容製作中,重新定義了遊戲、虛擬現實和電影行業中的多媒體體驗。然而,設計師們在耗時的3D建模過程中往往需要幫助,從基本形狀(如立方體、球體或圓柱體)開始使用諸如Blender之類的工具進行精確輪廓、細節和紋理修飾。渲染和后處理使這種勞動密集型製作工作完成並產生精緻的最終模型。儘管可變參數和基於規則的系統使程序式生成在自動化內容開發方面非常有效,但這需要對生成規則、算法框架和個體參數有深入的了解。 當這些過程與客戶的創意愿望協調時,增加了更多的復雜性,需要高效的溝通。這強調了在元宇宙時代使傳統的3D建模方法更加簡化以使創作者事半功倍的重要性。語言遷移模型(LLM)展示了卓越的計劃和工具使用能力以及理解能力。此外,LLM在表徵結構和紋理等對象特性方面表現出色,能夠根據基本描述改進細節。他們還擅長理解複雜的代碼功能和解析簡短的文本素材,同時輕鬆實現有效的用戶互動。他們探索了這些卓越能力在程序式3D建模中的新用途。 他們的主要目標是充分利用LLM的潛力,以滿足用戶需求,對3D創意軟件進行控制。為了實現這一目標,澳大利亞國立大學、牛津大學和北京人工智能研究院的研究人員介紹了3D-GPT,一個旨在促進以指令驅動的3D內容合成的框架。通過將3D建模過程分為更小、更可管理的段落,並決定何時、何地和如何完成每個段落,3D-GPT使LLM能夠扮演解決問題的代理人。概念化代理、3D建模代理和工作派發代理是組成3DGPT的三個主要代理。通過調整3D生成函數,前兩個代理一起工作以滿足3D概念化和3D建模的職責。 第三個代理通過接受第一個文本輸入,管理後續命令並促進第一個和第二個代理之間的高效溝通,從而控制系統。在此過程中,他們實現了兩個重要目標。首先,它通過指向更深入且與上下文相關的形式改善初始場景描述,然後根據進一步的指示修改文本輸入。其次,它使用程序生成,這是一種與3D軟件進行交互的方法,它使用可變參數和基於規則的系統,而不是直接創建3D材料的每個組件。他們的3D-GPT可以從改進的文本中推導出相關參數值,並理解程序生成程序。通過使用用戶的書面描述作為指南,3D-GPT提供準確且可定制的3D創作。 在具有多個不同元素的複雜場景中,手動指定程序式創作中的每個可控參數可以減少工作量。此外,3D-GPT提高了用戶參與度,簡化了創作過程並把用戶放在首位。此外,3D-GPT與Blender無縫集成,使用戶可以使用各種操作工具,包括網格編輯、物理運動模擬、對象動畫、材質變更和基本圖元添加等。根據他們的測試,他們聲稱LLM可以處理更複雜的視覺信息。 以下是他們貢獻的總結: • 提出3D-GPT,一個用於3D場景創建的框架,提供免費培訓。他們的方法利用LLM內置的多模態推理能力,提高最終用戶的程序性3D建模的生產力。 • 探索了一種文本到3D生成的替代方法,其中他們的3D-GPT創建Python程序來操作3D軟件,可能為現實應用提供更大的靈活性。 • 實證研究表明LLM在創建3D材料時具有很大的潛力,可以思考、計劃和使用工具。

「ファストテキストを使用したシンプルなテキスト分類」となります

自然言語処理は、業務のユースケースに指数関数的に適用されていますビジネスを変革する最もシンプルなAI自動化の一つは、テキスト分類です

「Covid-19の感情分析」

「私はこれをするためにGoogle Collaboratoryを使用していますまず、ノートブックに以下のPythonコードを使用してPythonにkaggleをインストールします次に、kaggle.comに移動してくださいkaggle.comで、設定に移動してください...」

「16/10から22/10までの週のトップ重要なコンピュータビジョン論文」

毎週、いくつかのトップレベルの学術会議とジャーナルでは、画像などの異なるサブフィールドでのエキサイティングなブレイクスルーを紹介するコンピュータビジョンの革新的な研究が披露されました...

気候変動の責任は誰にあるのか? – グラフィカルなアプローチ

そこで、私は自分の仕事に集中して量子コンピューティングの基礎を独学していたとき、今年の8月にIBMのグローバル量子サマースクールに参加しましたこれは集中的なコースなので、人は...

16/10から22/10の週の重要なLLM論文のトップ

大規模言語モデル(LLMs)は最近急速に進歩しています新しい世代のモデルが開発されるにつれ、研究者やエンジニアが最新の進歩について情報を得ることが重要です...

コーディング不要、創造力だけで GPT-4でできるかっこいい5つのこと

「GPT-4やLlama-2などの大規模言語モデルについての記事を書いてきましたそれらの訓練方法や微調整方法、パラメータやプロンプティングを通じた出力の改善方法などについて紹介しましたしかし、ひとつだけまだ書いていないことがあります…」

偏見の神話を打破する

おそらくAIが暴走して、私たちが頭をかいてしまうような意思決定をしたというケースについては聞いたことがあるかもしれません肌の色が伝わらないという顔認識ソフトウェアを考えると...

「前例のない緊急事態下でのオンライン機械学習による流水下水の influent(流入)流量予測」

流入量を正確に予測することは、下水処理場のオペレーターやマネージャーにとって必要不可欠です。簡単に言うと、インフルエントフローは処理場に入る未処理水です。この予測は、生物化学的酸素要求量(BOD)、全懸濁固形物(TSS)、およびpHなどの排水特性と密接に関連しています。 以前の研究では、データ駆動型モデルがインフルエントフローを効果的に予測することが示されていました。しかし、これらの研究の多くは、データが時間をかけて収集され、機械学習モデルがバッチでトレーニングされるバッチ学習に焦点を当てていました。このアプローチは有用ですが、特にCOVID-19時代には見直す必要がありました。なぜなら、影響力のあるパターンが大幅に変化したからです。 機械学習では、バッチ学習は時間をかけてデータを分割して処理することを意味します。対照的に、オンライン学習は新しいデータが利用可能になるたびにモデルを継続的にトレーニングすることを意味します。COVID-19の影響で、バッチ学習アプローチの制約がCOVID-19のロックダウンによってもたらされる入出力関係の変化によってより顕著になりました。これに対応するため、チームはオンライン学習モデルの可能性を確認するために焦点をそらしました。 マクマスター大学の土木工学者であるPengxiao Zhouは、COVID-19のロックダウン状況の独特な文脈の中で、廃水のインフルエントフローを予測する能力を向上させるために革新的な機械学習技術を使用したと説明しました。 研究者たちは、カナダの2つの廃水処理場でインフルエントフロー率を予測するために、ランダムフォレスト、K最近傍法、およびマルチレイヤーパーセプトロンを含む従来のバッチ学習モデルのパフォーマンスを、それぞれのオンライン学習モデルと比較しました。オンライン学習モデルは、様々なシナリオで従来のバッチ学習モデルよりも優れた性能を発揮し、最も高いR2値、最も低い平均絶対パーセンテージ誤差(MAPE)、および最も低い平方平均誤差(RMSE)を示しました。すべての場合において、テストデータセットのR2値が注目されるほどのインフルエントフロー率の24時間先の予測が行われました。 研究者たちは、これらのオンライン学習モデルが動的なデータパターンの中で信頼性のある予測を提供することを発見しました。これらは連続的で大量のインフルエントデータストリームを扱う効率性を示しています。 チームは、カナダの2つの廃水処理場から得られた3〜4年の毎時のインフルエントフロー率データおよび気象データを活用してモデルを作成しました。彼らは、これらの2つの処理場でインフルエントフロー率を予測するため、オンライン学習モデルを対応する従来のバッチ学習モデルと比較することによる比較分析を実施しました。 Pengxiao Zhouは、新しいオンライン学習モデルがCOVID-19などの緊急事態によるインフルエントパターンの変化に対処するために、下水処理場のオペレーターやマネージャーにより堅牢な意思決定支援を提供できると述べました。 構築したモデルの効果をさらに検証するために、チームの今後の取り組みには、さらなるケーススタディの実施と様々な予測シナリオの探索が含まれる予定です。

ビデオオブジェクトセグメンテーションの革命:高度なオブジェクトレベルのメモリ読み取り技術による可愛い子の明らかな化身

オープンボキャブラリーで定義されたフレームアノテーションからのオブジェクトのトラッキングとセグメンテーションは、ビデオオブジェクトセグメンテーション(VOS)のために必要です、より正確に言えば、「半教師あり」オプションです。 VOSの技術は、全般的なビデオセグメンテーション(トラッキングアンシングなど)とロボット工学、ビデオ編集、データアノテーションのコスト削減に対応するために、Segment Anything Models(SAMs)と組み合わせることができます。現代のVOSメソッドは、メモリベースのパラダイムを使用しています。任意の新しいクエリフレームは、セグメンテーションのための特徴を抽出するために、このメモリから「読み取り」ます。このメモリ表現は、以前にセグメンテーションされたフレームを使用して生成されます(入力として供給されるか、モデルによってセグメンテーションされます)。 重要なのは、これらの方法は、ピクセルメモリの読み取りからセグメンテーションをボトムアップで作成し、メモリ読み取りに対して主にピクセルレベルのマッチングを使用する点です。ピクセルレベルのマッチングは、各メモリピクセルをクエリピクセルの線形結合に変換します(たとえば、注意レイヤーを使用して)。その結果、ピクセルレベルのマッチングは低レベルの一貫性を持ち、特に混乱要因がある場合にはマッチングノイズの影響を受けやすくなります。その結果、オクルージョンや頻繁な干渉を含む困難な状況では、個々のパフォーマンスが悪化します。具体的には、デフォルトのDAVIS-2017データセットではなく、最近提案された困難なMOSEデータセットを評価する場合、現在の技術のパフォーマンスはJ&Fで20ポイント以上悪化します。 彼らは困難なケースで失望させる結果の原因は、オブジェクトレベルの思考の欠如であると信じています。彼らはこの問題を解決するためにオブジェクトレベルのメモリ読み取りを提案しており、これによりオブジェクトがメモリからクエリフレームに戻されます(図1)。彼らは、オブジェクトクエリとして記述される現在のクエリベースのオブジェクト検出/セグメンテーションの方法にインスピレーションを与えるため、オブジェクトトランスフォーマーを使用してオブジェクトレベルのメモリ読み取りを実現しています。1)特徴マップの反復的な探求と校正(ピクセルレベルのメモリの読み出しから開始)および2)オブジェクトレベルの情報をエンコードするために、このオブジェクトトランスフォーマーは限られた数のエンドツーエンドトレーニングされたオブジェクトクエリを使用します。この方法により、ハイレベル/グローバルなオブジェクトクエリ表現と低レベル/高解像度の特徴マップの双方向のトップダウンおよびボトムアップの通信が可能になります。 図1は、ピクセルレベルのメモリ読み取りとオブジェクトレベルのメモリ読み取りを対比しています。各ボックスの左側に参照フレーム、右側にセグメンテーション可能なクエリフレームが表示されます。赤い矢印が間違った一致を示しています。混乱要因がある場合、低レベルのピクセルマッチングは(大声になるかもしれません)低信頼性のビデオオブジェクトセグメンテーションのために、オブジェクトレベルのメモリ読み取りをおすすめします。 この通信のために、提案された前景-背景マスク付きアテンションを含む一連のアテンションレイヤーがパラメーター化されます。前景のみのマスク付きアテンションから派生し、マスク付きアテンションにより、一部のオブジェクトクエリは前景にのみ焦点を当て、残りの質問は背景のみに焦点を当てることができ、グローバルな特徴の相互作用と明確な前景/背景の意味的区別を可能にします。また、ターゲットオブジェクトの特徴を凝縮するために、ピクセルメモリに加えてコンパクトなオブジェクトメモリも組み込まれています。このオブジェクトメモリは、ターゲット固有の特徴を持ち、エンドツーエンドのオブジェクト検索を改善し、ターゲットオブジェクトの効果的な長期表現を可能にします。 テストでは、提案されたCutie法は、困難な状況(MOSEの場合、XMemよりも+8.7 J&F)で以前の方法を上回り、DAVISやYouTubeVOSなどの一般的なデータセットで競争力のある精度と効率のレベルを維持しつつ、優れたパフォーマンスを発揮します。結論として、イリノイ大学アーバナシャンペーン校とアドビリサーチの研究者が、オブジェクトレベルのメモリ読み取りを持つCutieを作成しました。 • ピクセルレベルのボトムアップ特徴とハイレベルのトップダウンクエリを組み合わせて、大きな遮蔽や干渉がある困難な状況での効果的なビデオオブジェクトセグメンテーションを実現します。 • 彼らはリッチなシーンの要素を保持しながら、ターゲットアイテムを取り巻く邪魔要素からの注意を喚起するため、マスクされた焦点を前景と背景に広げます。 • クエリ中のターゲット固有のオブジェクトレベル表現として後で検索するために、コンパクトなオブジェクトメモリを構築します。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us