Learn more about Search Results A - Page 267

「Chat-GPTとPythonを使用して、自分の記事に基づいてNeo4jで知識グラフを構築する方法」

この記事では、Python、LLM(ChatGPT)、およびNeo4jを使用して、非構造化ドキュメントから知識グラフを構築しますこれは、これを自動的に行うことが実際に可能であることを示す小規模なPoCとして機能します

「MITの研究者たちは、人工知能(AI)の技術を開発しましたこの技術により、ロボットは手全体を使ってオブジェクトを操作するための複雑な計画を立てることが可能になります」

全身操作は人間の強みですが、ロボットの弱点です。ロボットは、箱とキャリアの指、腕、または胴体の各接触点を、別々の接触イベントとして解釈します。このタスクは、数十億もの可能な接触イベントを考慮すると準備が困難になります。今、MITの研究者は、このテクニックを効率化することができます。つまり、接触豊富な操作計画と呼ばれるものです。AIのアプローチであるスムージングを使用して、接触の発生回数からロボットのための良い操作計画を見つけるために必要な判断の数を減らすことができます。 RLの新たな展開は、モデルベースの手法を使用して以前には実現が困難だった接触豊富なダイナミクスの操作で驚異的な結果を示しました。これらの手法は効果的でしたが、なぜ成功したのかはまだわかっていません。全体的な目標は、モデルベースの観点からこれらの要因を把握し、理解することです。これらの理解に基づいて、科学者たちはRLの経験的な成功をモデルの汎用性と効果性と統合しようと取り組んでいます。 接触ダイナミクスのハイブリッド性質は、モデルベースの観点からタッチを介した計画にとって最大の課題です。次に生じるダイナミクスは非スムーズであり、テイラー展開は局所的には有効ではなく、勾配を使用して構築された線形モデルはすぐに崩壊します。反復的な勾配ベースの最適化とサンプリングベースの計画の両方が局所的な距離指標を使用するため、局所モデルの無効性は両方にとって深刻な困難を引き起こします。これらの問題に対応するために、多くの出版物では接触モードをリストアップしたり、例を提供したりすることで考慮に入れる試みがなされています。これらの計画者は、ダイナミックモードについてモデルベースの理解を持っており、現在の接触モードでの連続状態の計画と次のモードの離散的な探索を切り替えることがあり、ここかしこで数モードのシフトを持つ軌跡につながります。 研究者が追加した最初のものは、基本的なシステムに対して2つのスムージング戦略が理論的に等価であることを証明することです。さらに、このフレームワークを使用して、著者たちはリアルタイムでスムージングされたダイナミクスの局所線形モデル(すなわち、勾配)を効率的に計算する方法を示し、2つのスムージングスキームの定性的な特性と経験的なパフォーマンスがさまざまな複雑な例で比較可能であることを示しています。 2つ目の改善点は、接触ダイナミクスの完全なモデルです。特に、凸である暗黙の時間ステップ接触モデルを提案しています。アニテスクによる摩擦接触の緩和により、凸性が生じます。ただし、それは現実的にはいくつかの非物理的な振る舞いをもたらします。凸性は、標準的な線形補完問題(LCP)の形式に比べて、数値的な利点を提供します。 準動的な仮定は、ロボット操作で一般的に使用されるものであり、長期的な予測可能性を可能にします。準動的モデルでは、速度や減衰を表す変数は不要です。なぜなら、各時間ステップで運動エネルギーが失われるからです。彼らは、ドレイクという高度な2次シミュレータ上で、同じ入力経路をシミュレートして実行することによって、準動的接触モデルを検証しテストしています。考慮されるシステムが減衰が大きく摩擦力に支配されている場合、その結果は、モデルが2次ダイナミクスをより適切に近似できる可能性があることを示唆しています。 さらに、接触モデルを柔軟に緩和するために、対数バリア緩和を使用することができます。凸システムの内部点法で一般的なように、この緩和戦略では対数バリア関数が使用され、ハードな接触制約が柔軟に適用されます。さらに、専門家は、RLが確率論的なグローバル最適化を実行することを目指していることが、その経験的な成功の背後にあるもう一つの主要な要素であると考えています。決定論的モデルを使用した非線形動的計画は通常、非凸最適化問題を生成し、多くの局所最小値の品質が決定的となる可能性があります。 最後の貢献は、RRTのグローバル探索能力とスムージングベースの接触モード抽象化の統合です。ローカルのスムージングされたモデルから導かれた新しい距離測度を使用することで、研究者はRRTが接触ダイナミクスによって課せられる制約範囲内を探索することを可能にしました。 全体的な貢献 科学者たちは、直感的なシステムにおけるランダム化された平滑化技術と解析的な平滑化技術の質的および経験的な同等性を決定します。 彼らは、凸性のある微分可能な準動的接触ダイナミクスと関連する解析的な平滑化の形式化が、接触豊かな操作計画に大いに役立つことを示しています。 研究者たちは、サンプリングベースのモーションプランニングと接触モードの平滑化を統合することで、既存のアプローチのスペクトルにおけるギャップを埋めつつ、効果的なグローバルプランニングを実現しています。 研究者たちは、複雑なシステムにおける関数の平滑化の数学的な意味と、その局所的な近似値を計算するためのいくつかの戦略について説明した後、接触について議論しています。彼らの目標は、平滑化技術とそれらの間の関係を統一的に示すことです。 研究者たちは、モデルベースのアプローチの失敗と多くの人間の接触がある経験的な状況での強力な成功の間に顕著な違いがあることに着想を得て、この研究を行いました。彼らは、既存のモデルベースの計画法の落とし穴を特定し、RLがこのようなトラップを軽減することがどのように可能になったのかを理解し、モデルベースの技術でこれらの問題を解決することで、接触豊かな操作の計画に効果的に取り組むことができることを示しました。1分程度のオンライン計画を可能にし、環境とタスクに対して汎用性を持つことで、既存のRLのツールに比べて数時間または数日にわたる重いオフライン計算に依存することなく、強力な代替手段を提供しています。これを実現するために可能にしたいくつかの要素も検討しています。 要するに、彼らは、実証的な文脈でのRLの成功とモデルベースのアプローチの苦戦との間に大きなギャップがあることに気付いた後、この研究を行うことに着想を得ました。彼らは、既存のモデルベースの計画法の落とし穴を特定し、RLがこのような落とし穴を軽減することがどのように可能になったのかを理解し、モデルベースの技術でこれらの問題を解決することで、接触豊かな操作の計画に効果的に取り組むことができることを示しました。1分程度のオンライン計画を可能にし、環境とタスクに対して汎用性を持つことで、既存のRLのツールに比べて数時間または数日にわたる重いオフライン計算に依存することなく、強力な代替手段を提供しています。これを実現するために可能にしたいくつかの要素も検討しています。 モデルベースのアプローチにおいては、明示的にモードを列挙し、評価する必要があるという欠点が最初に特定されましたが、RLの確率的な平滑化によって緩和されました。次に、モデルベースの技術における別の欠点を取り上げました:二次のトランジェントが長期的な戦略に役立たない短視的な線形化を引き起こす可能性があります。彼らはこの欠点に対処するために、凸性のある微分可能な準動的接触(CQDC)モデルを提案しました。彼らは、数多くの理論的な議論と実験を通じて、タッチモデルの有用性を示しました。また、接触ダイナミクスをモデルの構造の評価を先に行うことで、解析的に緩和させることも示しました。彼らは、ランダム化された平滑化に比べて解析的な平滑化の計算上の利点を示す研究も行いました。 結論として、平滑化ベースのモデルベースの戦略は、局所的な軌道最適化と関連付けられていることがわかりました。グローバルな探索を試みるRLベースの技術と比較して、局所的な最小値に対する感受性のために、困難な問題でより成功していません。ただし、接触豊かなシステムにおけるSBMP技術は、接触モードを明示的に考慮に入れることにより、モード列挙の罠を回避しています。この研究は、接触モードに基づいた滑らかな代替モデルの局所的な近似値に基づいてRRTの探索フェーズをガイドすることで、既存のアプローチのギャップを埋めることにより貢献しています。これらの3つの進歩を組み合わせることで、モデルベースとRLベースのアプローチが非常に接触豊かで高次元なシステムに対して効率的なグローバルモーションプランニングを達成することが可能になりました。将来的には、ポリシーの検索を促進したり、リアルタイムのモーションプランニングを行うために、高度に効率化されたプランナーバージョンを使用する予定です。この改良により、ロボットは計画時間の数秒以内に、以前未踏の領域で接触豊かなデザインをオンラインで見つけることができると予想されます。

あなたのリスニングプレイリストに追加するためのトップ8のAIポッドキャスト

機械学習と人工知能の急速な進展する世界では、専門家や愛好家にとって最新の開発や見解にアップデートされることは重要です。ポッドキャストは、知識を豊かにし、専門家の視点を得るための便利でアクセスしやすい手段を提供します。聴くべきトップ8の機械学習とAIのポッドキャストを紹介することで、あなたのリスニングキューに目立つ場所を与えましょう。 Lex Fridmanの「人工知能」 「人工知能」は、AIの複雑な世界に興味を持つ個人にとって必聴のポッドキャストとして特に際立っています。AI研究者でエンジニアでもあるLex Fridmanがホストを務めるこのポッドキャストは、その魅力的でハイインテンシティな対話で知られています。 Fridmanのポッドキャストは表面を超え、AIの複雑さ、難しい状況、そして社会への潜在的な影響についての深い議論に踏み込んでいます。カバーされるトピックの多様性は、ポッドキャストの強度を示しており、AI倫理、機械学習のブレイクスルー、ロボット技術の進歩、AIがさまざまな産業に与える影響など、様々な分野を網羅しています。 リスナーは、AIの専門家、研究者、ビジョンを持つ人々の思考と経験から洞察を期待し、得ることができます。これらの人々は、AIのトレンドについて最新情報を得たいAIの専門家であるか、AIの微妙なニュアンスを理解したい愛好家であるかに関係なく、Lex Fridmanの「人工知能」は、迅速に進化するこの分野の知識を拡大する考えを刺激する議論との貴重な接点を提供します。技術的な複雑さとAIの広範な社会的影響を重視することで、このポッドキャストは、さまざまなバックグラウンドを持つリスナーに共鳴するAI領域の幅広い探求を約束します。 このAIポッドキャストは、Spotify、Apple Music、YouTube、Google Podcastで聴くことができます。 TWiML & AI – 今週の機械学習と人工知能 TWiML & AI – 今週の機械学習と人工知能は、機械学習とAIの知識と洞察の灯台です。このAIポッドキャストは、情報量と包括的なアプローチで知られており、機械学習とAIの多面的な世界を深く探求しています。 Sam Charringtonがホストを務めるTWiML &…

「LoRAアダプターにダイブ」

「大規模言語モデル(LLM)は世界中で大流行しています過去の1年間では、彼らができることにおいて莫大な進歩を目撃してきましたそれまではかなり限定的な用途にとどまっていましたが、今では…」

AIにおける意識の可能性の評価:神経科学理論に基づく指標特性の科学的探求

AIシステムが意識を持つ可能性は現在の注目のトピックです。トップの研究者たちは、人間の意識に関連する脳のプロセスからインスピレーションを得て、AIの能力を向上させています。AIの進歩は驚くほど速いものです。一方で、人間の話し言葉を正確に模倣するAIシステムを開発することは、ユーザーの間で意識を持つAIシステムの認識が高まる可能性があるでしょう。彼らはこの研究で、AIの意識を評価する最良の方法は、意識の神経科学的理論を参照することだと主張しています。彼らはこのタイプのよく知られたアイデアを検討し、それがAIにどのような影響を与えるかを調査しています。 彼らはこの報告書に対して以下の主な貢献を考えています: 1. 意識をAIで評価することが科学的に追跡可能であり、意識は科学的に調査できるため、この研究の結果がAIに適用できることを示す 2. 現在の技術を使用して、多くの指標的特性をAIシステムに実装できるという予備的な証拠を提供する。ただし、意識の強い候補は見つかっていません。 3. 科学的理論から派生した指標的特性のリストとしてのAIの意識を評価するための基準を概説する。彼らは、研究の進展に伴い、含める指標的特性のリストが変化することを期待しており、提供する基準は仮のものとなるでしょう。 彼らはAIの意識を研究するために3つの基本原則を使用しています。作業仮説として、彼らは計算的汎用性を受け入れています。これは、適切な計算が理解に必要であり十分であるという考えです。この主張は、現代哲学的思考の中心的な考え方ですが、議論の的となっています。彼らは、理論的にはAIの意識が可能であり、AIシステムの内部機能を研究することが意識の有無を理解するために重要であるという理由から、この理論を受け入れています。これは、計算的汎用性がAIの意識に与える影響について考える上で有用です。第二に、彼らは神経科学に基づく意識の理論が実証的に妥当であり、人工知能の意識を評価するために使用できると主張しています。 計算的汎用性は、AIの意識において類似した機能が十分であるとされることを示唆しています。これらの理論は、人間の意識において必要かつ十分な機能を見つけようとしています。第三に、AIの意識を調査するための最良の戦略は、理論重視の戦略だと彼らは主張しています。これには、科学的理論に基づいてAIシステムが意識に関連するタスクを実行しているかどうかを判断し、これらの理論の信憑性を以下の基準に基づいて判断することが含まれます: 機能の類似性。 それらを支持する証拠の強さ。 計算的汎用性への信念。 この戦略への主な代替案は、行動的な意識のテストです。ただし、この戦略は信頼性が高いかもしれません。なぜなら、AIシステムは異なる方法で動作しながらも人間の行動を模倣するように訓練される可能性があるからです。 彼らはこの文脈で特定の理論を支持していません。なぜなら、意識の科学にはいくつかの仮説が存在するからです。代わりに、彼らは意識の理論の研究から指標のリストを収集しています。各指標の品質が意識にとって必要不可欠であり、その一部が十分であると複数の理論が主張しています。ただし、彼らは、より多くの指標的特性を持つAIシステムの方が意識を持つ可能性が高いと主張しています。現在のまたは計画中のAIシステムがこれらの特徴を持っているか、持つ予定があるかどうかを評価することで、それが意識の真剣な候補であるかどうかを判断することができます。彼らは計算的高次理論、グローバルワークスペース理論、再帰処理理論など、いくつかの科学的なアイデアについて取り上げています。また、計算的汎用性とは互換性がないため、統合情報理論は考慮していません。 さらに、彼らはエージェンシーと具体性が指標であると考えています。ただし、これらを示唆する計算的側面で理解することが重要です。彼らは、グローバルワークスペースのアイデアに基づいて、PerceiverアーキテクチャやTransformerベースの大規模言語モデルなどを検討しています。また、仮想的なネズミの体を操作することでタスクを完了することを教えられたシステムである「エンボディドマルチモーダル言語モデル」と呼ばれるPaLM-Eや、3D仮想環境で動作する強化学習エージェントであるDeepMindのAdaptive Agentも調査されています。彼らは、エージェンシーと具体性に関連する指標的特性を示すために、これらの3つのシステムを事例研究として使用します。 このPre-Print Paperをご覧ください。この研究に関するすべてのクレジットは、このプロジェクトの研究者に帰属します。また、最新のAI研究ニュースや魅力的なAIプロジェクトなどを共有する29k+のML SubReddit、40k+のFacebookコミュニティ、Discordチャンネル、メールニュースレターにぜひ参加してください。  Hostinger AIウェブサイトビルダー:使いやすいドラッグアンドドロップエディター。今すぐお試しください(スポンサード) 1/8 私たちの新しいプレプリントを発表して興奮しています。これは、神経科学の主要な理論の観点からAIにおける意識の問題を考察しています。哲学、神経科学、AIの分野から多岐にわたる共同研究です!https://t.co/rLm78YNfJk…

「生成AIの余波におけるオープンソースAIの戦い」

テックジャイアントやAI実践者がリスクと報酬を考慮しながら、オープンソースAIの議論の進化する性質について学びましょう

「MITのこのAI研究は、光を基にした機械学習システムがより強力で効率的な大規模言語モデルを生み出す方法を示しています」

ディープニューラルネットワーク(DNN)は、コンピューターにとってスーパーブレインのような存在です。彼らは多くの情報からトリッキーなものを見つけ出すのが得意です。彼らはコンピューターに画像を理解させ、人間のように話し、自動車を自動運転させ、さらには医師が病気を見つけるのを助けるほど賢くなることができます。 DNNは、私たちの脳がどのように働くかを模倣しており、それによって、通常のコンピュータープログラムが苦労する難しい問題を効率的に解決することができます。しかし、現在のディープニューラルネットワーク(DNN)の基盤となるデジタル技術は、その能力の限界に直面しており、一方で機械学習の分野は拡大し続けています。さらに、これらの技術は膨大なエネルギー消費を要求し、広範なデータセンターに制約されています。この状況から、新しい計算アプローチの発見と創造が生まれるようになりました。 その結果、MITの研究者たちはこの状況の改善に多大な努力を注いできました。MITを率いるチームは、ChatGPTを駆動する機械学習プログラムの能力を数段上回る可能性を持つシステムを巧妙に考案しました。この新たに開発されたシステムは、現代の機械学習モデルを駆動する最先端のスーパーコンピューターよりもはるかに少ないエネルギーを消費するという驚異的な利点も持っています。このシステムは、数百のマイクロンスケールレーザーを用いた光の操作によって実現されています。 研究者たちは、この技術が大規模な光電子プロセッサーの実現につながり、データセンターから分散型エッジデバイスまでの機械学習タスクの加速を可能にする道を開いたと強調しています。言い換えれば、現在は大規模なデータセンターでのみ計算可能なプログラムを、携帯電話やその他の小型デバイスでも実行できるようになるかもしれません。光計算は、電子に比べてはるかに少ないエネルギーを消費します。光は、はるかに小さな空間に対してはるかに多くの情報を伝えることができます。 このイニシアチブのリーダーであるMIT電気工学およびコンピューターサイエンス学科の准教授であるDirk Englundは、現在のスーパーコンピューターの能力がChatGPTのサイズを制約していると述べています。経済的な要因により、はるかに大きなモデルの訓練の実現可能性は限られています。彼らが開拓したこの技術は、今後数年間においてはアクセスできないままであるはずの機械学習モデルの利用を可能にすることができます。彼はさらに、もし100倍の能力を持つ次世代のChatGPTが実現した場合、その能力についてはまだ決定中であるが、このような技術が許容する発見の領域であると述べています。 光ニューラルネットワークの利点にもかかわらず、現在の光ニューラルネットワーク(ONN)には重要な課題もあります。たとえば、電力に基づいて入力データを光に変換するのが非効率であるため、多くのエネルギーが必要です。さらに、これらの操作に必要なコンポーネントは大きく、かなりのスペースを占有します。加算などの線形計算に長けたOptoelectronic Neural Networks(ONNs)ですが、乗算や条件文などの非線形計算には制約があります。 この研究に関する論文とMITブログをご覧ください。この研究に関するすべてのクレジットは、このプロジェクトの研究者に帰属します。また、最新のAI研究ニュースや素敵なAIプロジェクトなどを共有している、2,900人以上のML SubReddit、40,000人以上のFacebookコミュニティ、Discordチャンネル、およびメールニュースレターにぜひご参加ください。  Hostinger AI Website Builder:使いやすいドラッグアンドドロップエディター。今すぐお試しください (提供) この記事はMarkTechPostで最初に掲載されたものです。

テンセントAIラボの研究者たちは、テキスト対応の画像プロンプトアダプタ「IP-Adapter」を開発しました:テキストから画像への拡散モデルのためのアダプタです

「リンゴ」と言えば、あなたの頭にすぐにリンゴのイメージが浮かびます。私たちの脳の働き方が魅力的であるように、生成AIも同じレベルの創造性とパワーをもたらし、機械が私たちがオリジナルコンテンツと呼ぶものを作り出すことができるようになりました。最近では、非常にリアルな画像を作成するテキストから画像へのモデルが登場しています。モデルに「リンゴ」とフィードすると、さまざまな種類のリンゴの画像を得ることができます。 しかし、これらのモデルがテキストのプロンプトだけで正確に私たちが望むものを生成することは非常に困難です。通常、適切なプロンプトの慎重な作成を必要とします。これを行う別の方法は、画像のプロンプトを利用することです。現在の既存のモデルから直接的にモデルを洗練するための技術は成功していますが、大量の計算能力を必要とし、異なる基礎モデル、テキストプロンプト、構造の調整との互換性が欠けています。 制御可能な画像生成の最近の進歩は、テキストから画像への拡散モデルのクロスアテンションモジュールに関する懸念を浮き彫りにしています。これらのモジュールは、事前学習済みの拡散モデルのクロスアテンションレイヤーでキーと値のデータを射影するために調整されたウェイトを使用し、主にテキストの特徴に最適化されています。そのため、このレイヤーで画像とテキストの特徴を統合すると、画像の特異な詳細が無視される可能性があり、参照画像を利用する際に生成中の広範な制御(たとえば、画像のスタイルの管理)につながることがあります。 上記の画像では、右側の例は画像のバリエーション、マルチモーダル生成、および画像プロンプトによる埋め込みの結果を示しており、左側の例は画像プロンプトと追加の構造条件による制御可能な生成の結果を示しています。 研究者たちは、現在の方法によって引き起こされる課題に対処するために、効果的な画像プロンプトアダプターであるIP-Adapterを導入しました。IP-Adapterは、テキストと画像の特徴を処理するための別個のアプローチを使用します。拡散モデルのUNetに、画像の特徴に特化した追加のクロスアテンションレイヤーを追加しました。トレーニング中、新しいクロスアテンションレイヤーの設定を調整し、元のUNetモデルを変更せずに残します。このアダプターは効率的でありながら強力です。たった2200万のパラメーターでも、IPアダプターはテキストから画像への拡散モデルから派生した完全に微調整された画像プロンプトモデルと同じくらい良い画像を生成することができます。 その研究結果は、IP-Adapterが再利用可能かつ柔軟であることを証明しています。ベースの拡散モデルでトレーニングされたIP-Adapterは、同じベースの拡散モデルから微調整された他のカスタムモデルに一般化することができます。さらに、IP-AdapterはControlNetなどの他の制御アダプターとも互換性があり、画像プロンプトと構造制御の容易な組み合わせが可能です。別個のクロスアテンション戦略のおかげで、画像プロンプトはテキストプロンプトと並行して動作し、マルチモーダルな画像を作成します。 上記の画像は、IP-Adapterを他の方法と比較した場合の異なる構造条件を示しています。IP-Adapterの効果的な性能にもかかわらず、それはコンテンツとスタイルで参照画像に似た画像しか生成できません。言い換えれば、テキスト逆転やドリームブースなどの既存の方法のように、与えられた画像の主題と非常に一致した画像を合成することはできません。将来的には、研究者は一貫性を高めるために、より強力な画像プロンプトアダプターを開発することを目指しています。

メタAIは、SeamlessM4Tを発表しましたこれは、音声とテキストの両方でシームレスに翻訳と転写を行うための基盤となる多言語・マルチタスクモデルです

相互作用がますますグローバル化する世界において、多言語を話すことは隔たりを埋め、理解を促進し、様々な機会の扉を開くことができます。複数の言語を学ぶことは、言語の構造や言語学に対する洞察を提供し、コミュニケーションと思考のメカニズムに対する理解を深めることができます。これは特に、異文化間の相互作用が一般的な今日のグローバル化された世界で特に貴重です。人間とAIの間でもこの橋が埋まる必要があると思いませんか? MetaAIとUC Berkleyの研究者たちは、音声とテキストの間でシームレスに翻訳と転写を行う基礎的な多言語およびマルチタスクモデルを提案しています。彼らはそれを「SeamlessM4T」と呼んでいます。名前のM4Tは、Massively Multilingual and Multimodal Machine Translationを表しています。これは、100言語までの音声からテキスト、音声から音声、テキストから音声、テキストからテキストへの翻訳、および自動音声認識を備えたAIモデルです。 Babel Fish(オンライン翻訳サービス)を知らない人はいませんよね?それにはどんな問題があるのでしょうか?Babel Fishは音声から音声への翻訳システムです。このような種類のさまざまな既存のシステムは、英語、スペイン語、フランス語など、高リソースの言語に焦点を当てる傾向があり、多くの低リソースの言語を後回しにしています。彼らのサービスは主に英語から他の言語への翻訳であり、逆の場合はほとんどありません。これらのシステムは、複数のサブシステムから構成されるカスケードシステムに依存しているため、性能がカスケードと比較して追いついていないのです。 これらの制限を解消するために、研究者たちは100万時間以上のオープンスピーチオーディオデータを使用してセルフスーパーバイズドスピーチを学習しました。彼らは470,000時間以上の自動的に整列した音声翻訳のマルチモーダルコーパスを作成しました!背景ノイズと話者に対するモデルの堅牢性を評価するために、彼らは堅牢性のベンチマークを作成し、それぞれ38%と49%の改善を見つけました。 研究者たちは、安全で堅牢なパフォーマンスを確保するために、ワークフロー全体でシステムの体系的な評価を維持しました。彼らはクローズドデータの使用に代わる並行データマイニングを使用しました。この方法は、さまざまな言語の文を固定サイズの埋め込み空間にエンコードし、類似度メトリックに基づいて並行インスタンスを見つけることを含みます。 テキストと音声の翻訳に関わるすべてのタスクを処理できる統一された大規模モデルを作成することは、次世代のデバイス内およびオンデマンドのマルチモーダル翻訳の重要な基盤を築きます。彼らは、この理念を主に念頭に置いて言語技術が開発されると、世界の半数の人々のニーズが解決され、高リソースと低リソースの言語を話す人々の間のギャップを埋めるために世界をリードする方向に進むと述べています。 研究者たちは、SeamlessM4Tのパフォーマンスがスラングや固有名詞の翻訳において高リソースと低リソースの言語間でより一貫性が必要かもしれないと述べています。彼らの将来の仕事は、母国語とスラングに基づいたより友好的で穏やかな会話を実現するために、この制限を解消することです。

「TADAをご紹介します 口述された説明を表現豊かな3Dアバターに変換するための強力なAI手法」

大規模言語モデルと拡散モデルの開発により、テキストから画像へのモデルを異なる可能性のあるニューラル3Dシーン表現と統合する道が開かれました。その最良の例は、DeepSDF、NeRF、DMTETです。これらにより、テキストの説明のみから正確な3Dモデルを作成することが可能になりました。これらの進歩は人工知能コミュニティに大きな進歩をもたらしましたが、形状とテクスチャに関しては、生成されたオブジェクトやキャラクターは頻繁に現実的な3Dアバターを作り出すのに十分な品質を持っていません。また、これらのキャラクターは従来のコンピュータグラフィックスワークフローには適合していない場合もあります。 最近の研究では、研究チームがTADA(Text to Animatable Digital Avatars)を紹介しました。これは、口頭の説明を表現力豊かな3Dアバターに変換するためのシンプルで非常に強力な手法です。これらのアバターは従来のグラフィックス手法を使用してアニメーション化することができ、視覚的にも魅力的です。テキストからキャラクターを生成する既存の技術では、ジオメトリとテクスチャの品質に問題があります。これらの技術は、ジオメトリとテクスチャの不一致、特に顔の部分でリアルなアニメーション化に問題を抱えています。TADAは、2D拡散モデルとパラメトリックボディモデルの間に強力なシナジーを形成することによって、これらの問題に対処しています。 TADAの発明には、洗練されたアバター表現の作成が鍵となります。チームは、SMPL-Xボディモデルに変位レイヤーとテクスチャマップを追加して改善しました。その結果、SMPL-Xはより高解像度の形式で生成され、より細かいテクスチャと特徴を捉えることができます。詳細で包括的なアバターの特徴を実現するために、階層的なレンダリング方法とスコア蒸留サンプリング(SDS)が導入されました。 アバターのジオメトリとテクスチャを整合させるために、チームはSDSの最適化プロセス中に作成されたキャラクターのレンダリングされた法線とRGB画像の潜在的な埋め込みを使用しました。特に顔の領域で問題となっていた整列の問題を、整列戦略の実装により解決しました。また、最適化プロセス中にいくつかの表情を使用することで、キャラクターの表情と意味を一貫させる努力がなされました。この方法により、最終的なアバターは元のSMPL-Xモデルの意味的な統一性を保ち、リアルで有機的に整列したアニメーションが可能となります。 TADAは、スコア蒸留サンプリング(SDS)という技術を使用して実施されました。主な貢献は次のとおりです。- 階層的最適化によるハイブリッドメッシュ表現:特に顔において高品質の詳細を実現します。 ジオメトリとテクスチャの一貫した整列:生成されたキャラクターを、事前定義されたSMPL-Xボディポーズと顔の表情を使用して変形する最適化プロセスにより、ジオメトリとテクスチャの整列を実現します。 意味的な一貫性とアニメーション:生成されたキャラクターがSMPL-Xと意味的に一貫性を保ち、簡単で正確なアニメーションが可能となります。 チームは、TADAの代替手法と比較してどれだけ優れているかを評価するために、定性的および定量的な評価を行いました。TADAの能力はアバターの製作にとどまらず、アニメーションとレンダリングの両方に適したデジタルキャラクターの大規模な構築を可能にします。また、ユーザーに大きなパワーとカスタマイズの機能を提供するテキストガイド付きの編集も可能です。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us