Learn more about Search Results r AI - Page 16
- You may be interested
- 「新たなホワイトハウスの協定に基づき、A...
- 「xAI:イーロン・マスクの新しいAIベンチ...
- スタイルTTS 2 大規模スピーチ言語モデル...
- CMU&Google DeepMindの研究者たちは、Ali...
- 高性能意思決定のためのRLHF:戦略と最適化
- 「Pythonで日時データを扱うための3つの強...
- FHEを用いた暗号化された大規模言語モデル...
- 究極のハイブチュートリアル:ビッグデー...
- USCの研究者は、新しい共有知識生涯学習(...
- 「10個の最高のAIヘッドショットジェネレ...
- ベストAI画像生成器(2023年7月)
- 動くAI
- 効率的にオープンソースのLLMを提供する
- 「Rで複数のファイルを自動的にインポート...
- 「GeoPandasを使ったPythonにおける地理空...
マイクロソフトがアメリカの労働組合と手を結び、AI労働力に関する議論に参加します
Microsoftは最近、労働組合アメリカ連邦労働総評議会(AFL-CIO)と包括的な対話を開始するために、人工知能(AI)が労働力に与える影響に関して重要な連携を結びました。この戦略的パートナーシップは、AIの変革的な影響を理解し、適応し、規制することを目指しており、これらの進展における労働者の重要な役割を認識しています。 重要性の認識 米国ワシントン州レドモンドに本社を置くMicrosoftは、AFL-CIO傘下の60の労働組合と協力し、合計1250万人の労働者を代表しています。AFL-CIOのリズ・シューラー会長は、この連携の歴史的性格を強調し、AIおよび関連技術の開発、展開、規制における労働者の貢献を認識する重要な役割を明確にしました。 協力的な情報共有 連携は、主に労働組合リーダーとのオープンな対話と詳細な情報共有に重点を置いています。目的は、労働力が変化する環境に適応するために、AI技術のトレンドに常に精通し、十分に情報を得ることです。Microsoftの取り組みは、AI技術の持続的な発展において労働者の視点と専門知識を取り入れることまでを含んでいます。 労働者組織のための枠組み このパートナーシップの重要な要素は、将来の労働者組合組織のための中立な枠組みを提供する合意です。Microsoftのプレスリリースに述べられているように、この枠組みは従業員の団結権を尊重し、組合に参加する権利を組織化することに専念しています。また、急速な技術変化の中で労働者を支援する労使関係の構築と、労働組合に関する集団交渉協定の交渉も目指しています。 労働者の懸念と願望への対応 AIの普及が雇用の安定性について懸念を引き起こす時代において、このパートナーシップの目標には、労働者および学生に対するAI教育も含まれています。協力的な取り組みは、共同政策作成とスキル向上にも広がります。MicrosoftとAFL-CIOは、AIが労働者の仕事を強化する潜在能力を持つと同時に、そのエージェンシーと責任を低下させるのではなく、仕事を補完するために利用された場合に労働者の仕事を向上させる可能性を認識しています。 その他の関連記事:マイクロソフトのシニアデータサイエンティストの成功ストーリー 私たちの意見 マイクロソフトとAFL-CIOとのこの画期的な協力は、労働力におけるAIの課題に積極的に取り組むアプローチを象徴しています。労働組合リーダーを積極的に関与させることにより、この取り組みはAIが国の労働者に奉仕することを目指しています。マイクロソフトの労働組合リーダーや労働者のAI機能に関するトレーニングへの取り組み、従業員の組合加入をよりアクセスしやすくすることは、賞賛に値する先例を示しています。公共政策の形成に重点を置くこの連携は、責任あるAIの統合に対する専念をさらに証明しています。 他のテクノロジージャイアントが組織労働に対して異なるスタンスを取る中、マイクロソフトの協力的なアプローチは際立っています。AFL-CIOのリズ・シューラー会長が適切に述べたように、テクノロジー利用の第一線に立つ人々を巻き込むことは、単に論理的なだけでなく、本質的に重要なことです。この歴史的な連携は、ただ現在の懸念に対処するだけでなく、責任ある包括的なAIの導入の先例を産業全体に打ち立てています。
メタAIは、オープンで創造的なAIモデルを使って倫理的に建設するために、パープルラマをコミュニティの支援として発表しました
<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-12-at-12.34.25-AM-1024×710.png”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-12-at-12.34.25-AM-150×150.png”/><p>データの増加、モデルサイズ、自己回帰言語モデリングのための計算能力の向上により、対話型AIエージェントは過去数年で驚くべき進化を遂げました。チャットボットは、自然言語処理、推論、ツールの習熟度など、多くの有用なスキルで知られる大規模な言語モデル(LLM)を使用することがよくあります。</p><p>これらの新しいアプリケーションは、潜在的な危険を軽減するために徹底的なテストと慎重な展開が必要です。したがって、生成AIによって動作する製品には、ポリシーに違反する高リスクなコンテンツの生成を防ぐための保護策を実装することが推奨されます。さらに、アドバーサリアルな入力やモデルのジェイルブレイクの試みを防ぐためにも、これらはLlama 2 Responsible Use Guideなどのリソースで確認できます。</p><p>オンラインのコンテンツを管理するためのツールを探している場合、Perspective API1、OpenAI Content Moderation API2、およびAzure Content Safety API3はすべて良い出発点です。ただし、これらのオンラインモデレーション技術は、入出力のガードレールとして使用した場合にはいくつかの理由で失敗します。最初の問題は、ユーザーとAIエージェントの危険性を区別する方法が現在存在しないことです。結局のところ、ユーザーは情報や援助を求めますが、AIエージェントはそれを提供する可能性が高いです。さらに、すべてのツールは設定されたポリシーを強制するため、ユーザーはツールを新しいポリシーに合わせて変更できません。第三に、個々のユースケースに合わせて微調整することは不可能です。最後に、すべての既存のツールは控えめな伝統的なトランスフォーマーモデルに基づいています。より強力なLLMと比較すると、これは彼らのポテンシャルを大幅に制限します。</p><p>新しいメタ研究は、会話型AIエージェントのプロンプトとレスポンスの潜在的な危険を分類するための入出力保護ツールを明らかにします。これにより、LLMを基にしたモデレーションが可能となり、この分野でのニーズを満たします。</p><p>彼らの分類ベースのデータは、ロジスティック回帰に基づく入出力保護モデルであるLlama Guardをファインチューニングするために使用されます。 Llama Guardは関連する分類ベースをモデルの入力として受け取り、指示義務を適用します。ユーザーは、ゼロショットまたはフューショットのプロンプティングを使用してモデルの入力を個別のユーズケースに適した分類ベースでカスタマイズすることができます。推論時間では、複数のファインチューニングされた分類ベースの中から選択し、適切にLlama Guardを適用することができます。</p><p>彼らは、LLMの出力(AIモデルからの応答)とヒューマンリクエスト(LLMへの入力)のラベリングに異なるガイドラインを提案しています。したがって、ユーザーとエージェントの責任の意味差をLlama Guardが捉えることができます。 LLMモデルがコマンドに従うという能力を利用することで、彼らはたった1つのモデルでこれを実現することができます。</p><p>彼らはまた、Purple Llamaを発表しました。将来的には、これはリソースと評価をまとめたプロジェクトとなり、オープンで創造的なAIモデルを倫理的に構築するためのコミュニティを支援します。サイバーセキュリティと入出力保護ツールおよび評価は、最初のリリースの一部となり、さらに多くのツールが追加されます。</p><p>彼らは業界で初めてのLLMのための包括的なサイバーセキュリティ安全評価を提供しています。これらのガイドラインは、セキュリティの専門家と共同で開発され、業界の推奨事項や基準(CWEやMITRE ATT&CKなど)に基づいています。この最初のリリースでは、ホワイトハウスが責任あるAIの創造を約束した中で、以下のような危険を緩和するのに役立つリソースを提供することを目指しています。</p><ul><li>LLMサイバーセキュリティの脅威を数量化するためのメトリック。</li><li>安全でないコード提案の普及を評価するためのツール。</li><li>LLMをより安全に書き換えることやサイバー攻撃の実行を助けるための手段。</li></ul><p>これらのツールにより、LLMが安全でないAI生成コードを提案する頻度を減らすことによって、サイバー攻撃者へのLLMの有用性が低下すると予想されます。彼らの研究では、LLMが安全でないコードを提案したり、悪意のあるリクエストを受け入れたりする場合に、深刻なサイバーセキュリティの懸念があることがわかっています。 </p><p>LLMへのすべての入力と出力は、Llama…
Google DeepMindの研究者は、言語モデル(LM)のコード駆動型推論を改善するためのシンプルで驚くほど効果的な拡張機能である「Chain of Code(CoC)」を提案しました
Google DeepMind、スタンフォード大学、およびカリフォルニア大学バークレー校の研究者たちは、言語モデルのコード駆動型の推論能力を向上させる問題に対処するために、Code of Chain(CoC)を開発しました。CoCは、LM(“LMulator”としての言語モデルを示す)でシミュレーションするために、undefinedな動作を明示的にキャッチし、シンタックス上のセマンティックなサブタスクを柔軟な擬似コードとしてフォーマットすることを促すことで、問題に対処します。CoCは、大規模なモデルや小規模なモデルでスケーリングが可能であり、コードで考えることで、LMが正しく答えることができる推論の範囲を広げることができます。 Chain of Thought、最小から最大まで、およびScratchPadのようなワークは、タスクを中間ステップに分解するか、中間結果のトレースを保持することにより、プロンプトを活用して推論能力を向上させています。GithubでトレーニングされたLMは、コードの記述と実行を促すようにプロンプトされ、数値または記号的な推論を含む複雑な問題を解決するのに役立ちます。 CoCは、与えられた問題を解決するために、コード構造内の推論のサブステップを生成します。このコードは、痛みを通して推論するためのフレームワークを提供し、明示的なコード、擬似コード、または自然言語の形式で表される場合があります。CoCは、コードによる表現の利点とLMの優れたセマンティックおよび常識的な知識を組み合わせることで、新たな領域でコードの使用を可能にします。コードで表現が難しいルールを簡単に表現できます(たとえば、果物はどのような食べ物ですか?)。 CoCの主要な貢献は、推論コードの生成だけでなく、その実行方法です。コードが書かれた後、コードはコードインタプリタ(この研究ではPythonが考慮されていますが、アプローチ自体は任意のインタプリタに適用可能です)で実行されようとします。コードが正常に実行される場合、プログラムの状態が更新され、実行が続行されます。コードが実行不可能であるか例外を発生させる場合、言語モデルは代わりに実行のシミュレーションに使用されます。言語モデルの出力がプログラムの状態を更新し、実行が続行されます。 CoCアプローチの全体的なパフォーマンスは、他の方法を上回り、タスク数と全体的な量の両方で人間の基準を超えています。CoCは、いくつかの研究において最先端のパフォーマンスを実現しています。Chain of Thoughtプロンプティングと同様に、モデルのサイズが増えるほど性能が向上します。クロスタスクプロンプティングは、すべての方法においてパフォーマンスが低下しますが、CoCはスケール時にはChain of Thoughtと直接プロンプティングを上回るパフォーマンスを示し、人間の平均パフォーマンスに近づきます。 CoCは、言語モデルを用いた推論をコードの記述とコードの実行により行うアプローチです。コードが実行不可能な場合、インタプリタまたはコードの実行をシミュレーションする言語モデルを使用することができます。CoCは、規制の表現の表現力豊かな構造とその強力なツールの両方を活用できます。さらに、実行不可能なコードのシミュレーションにより、CoCはコードの範囲外の問題(例えば、意味的な推論問題)に適用することができます。
Windows 12はAIの魔法機能を搭載:テクノロジーの未来への一端
Microsoft(マイクロソフト)は、次世代のWindows OSの大規模なアップデート「ハドソンバレー」と呼ばれるものを熱心に開発しており、Windowsユーザーエクスペリエンスを革新することを期待されています。 “Windows 12″という名前を付けるかどうかについての噂と洞察が既に現れており、その予想される機能、AIの進歩、およびリリースの時期について明らかにしています。 名前のジレンマ 予想が高まる中、名前に対する不確定性が存在します。最初は「Windows 12」と噂されていましたが、最新の情報ではMicrosoftは「Windows 11」というブランド名を使用する可能性があります。この戦略的な決定は、前Windowsリーダーのパノス・パナイの退任後に新しいWindowsリーダーシップから唱えられたユーザーベースのさらなる分断を避けたいという願望に基づいています。 リリースの時期の洞察 インサイダーによると、次期大規模なWindows OSのアップデートは2024年の後半に予定されています。早期のコードとプラットフォームのテストは既にWindows Insider Canary Channelで行われており、愛好家たちに早めの一見を提供しています。リリースは2024年4月にRTMのマイルストーンに到達する予定です。Windows 11のユーザーは、最終バージョンが2024年9月または10月に利用可能になることを期待することができます。 プラットフォームの移行: ニッケルからゲルマニウムへ 過去とは異なり、ハドソンバレーはニッケルプラットフォームのリリースからの転換点となります。新しいWindowsプラットフォームであるゲルマニウムに移行しています。この移行により、より大きな変革が約束されるフルOSのアップグレードが必要になります。これは以前のWindows 11のアップデートで見られた段階的な変更とは対照的です。 システム要件のジレンマ ハドソンバレーの具体的なシステム要件は明らかにされていませんが、除外される可能性についての懸念があります。特にWindows 11の要件の高さにより、大勢のPCが対象外となりました。8GBに移行する可能性がある増加したRAM要件に関する噂が出回っており、公式の確認を待っています。 AI中心の展開 MicrosoftのAI体験への取り組みは、ハドソンバレーの焦点です。今回のリリースでは、Windows…
ボードゲームをプレイするためのAIの教育
「最近では、OpenAIの新しいAIモデル、Q*に関する噂があり、特にQ学習において、AI業界の皆さんが強化学習(RL)のスキルを磨いているようです私もその一員であり、…」
『AI規制に関するEUの予備的な合意:ChatGPTへの影響』
ヨーロッパ連合は最近、広く認識されているChatGPTを含む先進的なAIモデルの規制に関する予備的な合意を仲介しました。これは世界で初めての包括的な人工知能規制の確立に向けた大きな前進です。 AIシステムの透明性 透明性の向上を図るために、ChatGPTを含む汎用AIシステムの開発者は、基本要件に従う必要があります。これには利用可能な利用ポリシーの実施、モデルトレーニング方法論の最新情報の維持、及びトレーニングに使用されたデータの詳細な要約の提供が含まれます。また、著作権法の尊重を義務付けられています。 「システミックリスク」を有するモデルに対する追加ルール 「システミックリスク」を有すると判断されたモデルは、より厳格な規制を受けます。このリスクの判断は、モデルトレーニング時に使用される計算能力の量に依存します。特に、秒間10兆回の演算を超える任意のモデルは、このカテゴリに該当します(例えばOpenAIのGPT-4)。EUの執行機関は、データセットのサイズ、登録済みビジネスユーザー、エンドユーザーなどのさまざまな基準に基づいて他のモデルを指定する権限を持ちます。 関連記事:衝撃のニュース:ChatGPTのデータ漏洩の脆弱性 高度なモデルの行動規範 ChatGPTを含む高度なモデルは、欧州委員会がより包括的かつ持続可能な制御策を策定するまで、行動規範を採用する必要があります。不遵守の場合、AI法に準拠していることを証明する必要があります。特に、オープンソースモデルは一部の制約から免除されていますが、システミックリスクを有すると見なされた場合は免疫がないことに注意してください。 モデルに対する厳格な義務 規制フレームワークに分類されたモデルは、エネルギー消費量の報告、赤チームまたは敵対的テストの実施、潜在的なシステミックリスクの評価と緩和、および事件の報告を行う必要があります。さらに、モデルの微調整に使用された情報を開示し、開発された場合はよりエネルギー効率の高い基準に準拠する必要があります。 承認プロセスと懸念 欧州議会とEUの27か国はまだ暫定的な合意を承認していません。一方で、フランスやドイツなどの国々から懸念が表明されています。懸念は、ミストラルAI&Aleph Alphaなどの企業によって象徴される欧州のAI競合他社の抑制リスクに焦点を当てています。フランスとドイツは特に、過度の規制がグローバルなAIの景気へのイノベーションと競争力に悪影響を及ぼすことを懸念しています。 関連記事:欧州のAI巨大MISTRAL AIが3億8500万ユーロを調達 私たちの意見 AI規制の複雑な領域を航海する中で、EUのアプローチはイノベーションの促進と潜在的なリスクへの保護の間の微妙なバランスを求めています。提案が承認を待っている間、一部の加盟国から懸念が唱えられています。これはAI分野の統治の将来を描く上で、AI開発者の願望と社会的安全性の必要性をバランスさせる重要な課題を示しています。
Google Researchがジェネレーティブな無限語彙トランスフォーマー(GIVT)を発表 – AIにおける先駆的な実数値ベクトルシークエンス
トランスフォーマーは最初に導入され、自然言語処理の主要なアーキテクチャとして急速に台頭しました。最近では、コンピュータビジョンでも非常に人気があります。Dosovitskiyらは、画像をパッチのシーケンスに分割し、それらのパッチを線形に埋め込み、その結果得られる特徴のシーケンスをトランスフォーマーエンコーダに供給することで、CNNベースのアーキテクチャに勝る効果的な画像分類器を作成する方法を示しました。セグメンテーション、検出、および分類などの多くの区別的なビジョンタスクにおいて、このアプローチは現在の標準です。ただし、生成トランスフォーマーデコーダはある事前定義された有限のボキャブラリーから離散的なトークンを消費して予測するため、画像を(非量子化された)特徴ベクトルのシーケンスにマッピングすることは、トランスフォーマーベースの画像生成には適切ではありません。 このような構造は自然言語に自然に適合し、デコーダーモデル単体では、効果的なトレーニングがインストラクターフォースと強力な連続生成モデリングを介して可能です。最近の取り組みでは、ベクトル量子化変分オートエンコーダ(VQ-VAE)を使用して画像を離散トークンのシーケンスにマッピングし、その後、トランスフォーマーデコーダを使用して潜在的な離散トークンの分布をモデル化するための手法を採用しています。このアプローチは、画像を利用した多走的生成モデルも容易にします。しかし、2段階のメソッドは画像とマルチモーダルコンテンツの作成には適していますが、いくつかの問題があります。 VQ-VAE内のボキャブラリーサイズによって、潜在的なモデリングや画像の細部調整の調整が困難になるため、潜在的なコードの情報量が減少します。また、トークンを使用して密度予測や低レベルの区別的なタスクにトークンを使用するアプリケーションの品質にも影響を与えます。ボキャブラリーサイズの拡大はこの問題の解決に役立ちますが、それによってボキャブラリーの使用が不十分になる場合があります。したがって、高品質なVQ-VAEセットアップでは、エントロピー損失やコードブックの分割などの洗練された方法に頼る必要があります。さらに、巨大なボキャブラリーは記憶容量を多く消費する埋め込み行列をもたらし、異なるモダリティのボキャブラリーが混在するマルチモーダルシナリオでは、問題が発生する可能性があります。研究チームは、これらの問題を回避するために、デコーダーモデルを変更して、離散的なトークンと、したがって、固定された有限のボキャブラリーを必要としない連続した実数値のベクトルシーケンスで動作する生成トランスフォーマーデコーダを提案しています。 特に、Google DeepMindとGoogle Researchの研究チームは、実数値のベクトルシーケンスを用いて機能する生成型無限ボキャブラリートランスフォーマー(GIVT)を提案しています。実数値のベクトルは無限ボキャブラリーと見なすことができるため、研究チームはこれをGIVTと呼んでいます。図1に示されているように、研究チームはトランスフォーマーデコーダの設計をわずかに変更しました(合計2つの変更)。1)入力では、研究チームは離散的なトークンの代わりに連続した実数値のベクトルシーケンスを線形に埋め込む。2)出力では、研究チームは有限のボキャブラリー上のカテゴリカル分布のパラメータを予測するのではなく、連続した実数値のベクトル上の連続した分布のパラメータを予測します。研究チームは、教師強制と因果関係注意マスクを使用してこのモデルをトレーニングしました。また、研究チームはMaskGITに類似した高速進行マスクバイダイレクショナルモデリングも調査しました。 図1は、連続した無限ボキャブラリーのバリエーション(右側のGIVT)を典型的な離散トークン生成トランスフォーマー(左側)と比較するための同じデコーダーモデルを使用しています。 GIVTは、入力時に斜めに並んだ連続した実数値ベクトルのシーケンスで離散トークンを置き換えます。有限のボキャブラリー上のカテゴリカル分布を予測する代わりに、GIVTは出力時に連続した実数値ベクトル上の連続した分布のパラメータを予測します。 高解像度の画像を平坦化して生成されるRGBピクセルの系列は、理論的には任意の特徴ベクトルの系列にGIVTを適用することができるものの、直接的にモデル化するのは難しい例です。それは長くて複雑な分布を持っていることもあります。したがって、研究チームはまず、ガウス事前VAEを使用して低次元の潜在空間をトレーニングし、次にGIVTでモデル化します。これは、VQ-VAEと類似した2段階のテクニックに似ています。研究チームはまた、シーケンスモデリングの文献からいくつかの推論戦略(温度サンプリングや分類器フリーガイディングなど)を転用しました。 注目すべきは、実数値トークンだけを使って、これによってVQベースの技術と同等か優れたモデルが生成されることです。以下に彼らの主な貢献を簡潔に述べます: 1. UViMを使用して、研究チームはGIVTが密な予測タスク(セマンティックセグメンテーション、深度推定、ピクチャーシンセシスなど)において、通常の離散トークン変換デコーダーよりも同等または優れたパフォーマンスを達成することを示しています。 2. 研究チームは、連続ケースにおける従来のサンプリング方法の効果(温度サンプリング、ビームサーチ、分類器フリーガイディング)の派生と有効性を導き出し、証明しました。 3. KL項の重み付けを使用して、研究チームはVAE潜在空間の正規化レベルと現れるGIVTの特性との関連性を検討しました。研究チームは、VQ-VAE文献の洗練されたトレーニング方法(潜在表現への補助損失、コードブックの再初期化、専用の最適化アルゴリズムなど)はVAEおよびGIVTのトレーニングでは使用されていないことを強調しており、単純に通常の深層学習ツールボックスのアプローチに依存していると述べています。
人間に戻る:AIの道:コードからぬいぐるみまでの旅
人工知能(AI)の急速に進化する風景の中で、私たちはアプローチの転換を求める分岐点に立っています。特にシリコンバレーを中心に、テック業界では既存の製品にAIを統合し、増分のイノベーションを生み出す傾向があります。この戦略は、AIに対する一般の人々の理解を深め、抵抗を減らすという点で重要な役割を果たしてきました。しかし、このアプローチは頭打ちになりつつあります。AIの革命的な可能性を実現するためには、人間の根本的なニーズと行動に戻り、AIアプリケーションのための新しい革新的な「チャネル」を築かなければなりません。AIは感性的にならなければなりません! その重要性を強調するため、著名な作家でありデザイン思考家であるドン・ノーマンは、彼の画期的な著書「日常のデザイン」で、製品デザインを人間の本能と反応に整合させることの重要性を強調しています。この原則は、AIアプリケーションにおいても重要です。既存の製品にAIを埋め込むだけではなく、基本的な人間の経験とニーズを理解し、活用することが重要です。 これらの人間中心のデザインを発見するための効果的な手法の一つは、「デザインフィクション」です。この手法は、未来に自分自身を投影して、SF要素や弱いシグナルを活用して新たな使い方を概念化することを意味します。将来のシナリオを想像し、逆算して現在の製品に至るロードマップを作成することで、革新的な使い方を見つけることができます。 AIの変革的な性質を持つためには、持続可能な統合のための新たなパラダイムが必要です。そのためには、ある程度の科学的な洞察力が必要です。DeepMind、Google Research、FAIR、OpenAI、およびNvidiaなどの組織は、科学的な進歩によってこれに足場を築いています。ChatGPTなどの初期のプロトタイプは驚きと可能性を提供しました。次のステップでは、AIを現行の製品に埋め込んで利用性を向上させることが求められます。しかし、真に革新的な使い方を見つけるためには、技術の可能性に合ったものを特定することが重要です。 iPhoneのタッチスクリーンやApp Storeによってもたらされた革命を考えてみてください。スティーブ・ジョブズは、ブラックベリーのキーボードではなくタッチスクリーンを提唱したのは単なる姿勢ではなく、ユーザーの好みとニーズを深く理解していたからです。このアプローチは、最近OpenAIとの議論で示唆されたJony Iveの考え方に似ています。AIにおける同様の画期的な開発を暗示しています。 これらの革新的な使い方を特定するために、私たちは現行の製品にとどまるのではなく、SFや映画の世界に飛び込んでみるべきです。作家たちはそこで未来を予見しています。その一つの良い例は映画やテレビシリーズ「リミットレス」です。NZTという薬を通して人間の能力を高めるという中心テーマは、AIの増強パラダイムと共鳴します。主人公のエディ・モラやブライアン・フィンチは、注意を分散させず、後で細部を思い出すことを示しています。このコンセプトは、深い人類学的なニーズと増強パラダイムに合致します。WhatsAppの会話に集中していたとき、チームメイトが今朝コーヒーマシンであなたに話したことを思い出せたら、それはどんなに素晴らしいことでしょうか。 Rewind AIなどの企業も同様のコンセプトを探求しています。Rewind AIは、基本的なフォトエディティングやチャットボットを超える革命的な技術です。ユーザーは、生活の瞬間を卓越した明瞭さと詳細さで再訪・思い出すことができます。それを物語的な「リミットレス」の薬のようなデジタル版と考えてください。Rewind AIを使用すると、ユーザーは写真アルバムをめくるように、過去の経験を手軽にアクセスして再生することができます。さらに、Rewind AIは、スクリーンから離れているときでも、日常生活を記憶する力を与えるウェアラブル技術の開発も模索しています。最近リリースされたGemini Nanoのような軽量AIモデルのポテンシャルも強調されています。このAI技術の最新進歩は、コンパクトで効率的かつ驚くべきパワフルさを備えた、機械学習の未来を具現化しています。このような軽量でありながら強力なAIモデルを受け入れることで、AIが単なる臨時のアシスタントでなく、私たちの日常生活の一部として完全かつなめらかに統合された世界に一歩近づくのです。 結論として、AIの未来は既存の製品を単に強化するだけでなく、私たちの最も深い人間の本能とニーズと共感する新しい製品を作り出すことにあります。デザインフィクションからインスピレーションを得て、人間の行動の本質を理解することにより、革新的でありながら自然な傾向と欲望と深い共鳴を持つAIアプリケーションを開発することができます。私たちがこの旅に乗り出すにあたり、先見の明のあるデザイナーとAIの専門家との協力は、この変革的なテクノロジーの真の可能性を引き出し、AIが単なるツールではなく、私たちの人間の体験の拡張となる未来への道を開きます。 この記事は「人間に戻る:AIの旅、コードから愛撫へ」がMarkTechPostで最初に掲載されました。
「意思決定の解放:AIが理論的な枠組みと技術の進歩をつなぐ」
私たちの生活は絶え間ない決断と選択から成り立っていますなぜなら、私たちの決定の結果は相当な経済的および社会的影響をもたらすことがあるため、意思決定に関する研究は非常に重要です...
メタAIは、リアルタイムに高品質の再照明可能なガウシアンコーデックアバターを構築するための人工知能手法「Relightable Gaussian Codec Avatars」を紹介しますこれにより、新しい表情を生成するためにアニメーションさせることができるハイフィデリティのヘッドアバターが作成されます
“`html 画期的な進展を遂げたMeta AIの研究者たちは、ダイナミックな3Dヘッドアバターの高精細なリライティングを実現するという長年の課題に取り組みました。従来の方法では、特にリアルタイムの応用において効率性が重要となる場合に、表情の複雑な細部を捉えることができるようになるまでに時間がかかることがよくあります。Meta AIの研究チームは、この課題に対処すべく、「リライト可能ガウシアンコーデックアバター」という方法を発表し、アバターのリアリズムの領域を再定義する用意のある手法を作り出しました。 研究チームが取り組んだ中核的な問題は、ダイナミックな顔のシーケンスにおいて、髪の毛や毛穴などのサブミリメートルの詳細をより明確に捉える必要があるということです。目、肌、髪などの人間の頭部の異質な材料を効率的にモデル化しながら、すべて周波数の反射に対応するというのは困難な課題です。既存の手法の制約は、リアリズムとリアルタイムのパフォーマンスをシームレスに組み合わせる革新的な解決策が必要とされています。 リライト可能なアバターに関する既存のアプローチは、リアルタイムのパフォーマンスと忠実度のトレードオフに悩まされてきました。リアルタイムのアプリケーションにおいて、動的な顔の詳細を捉えることができるメソッドが必要とされてきたのです。Meta AIの研究チームは、この課題に目をつけ、「リライト可能ガウシアンコーデックアバター」を革新的な解決策として導入しました。 Meta AIの手法は、3Dガウシアンに基づくジオメトリモデルを導入し、サブミリメートルの精度まで拡張する精密さを提供しています。これは、ダイナミックな顔のシーケンスを捉えるための大幅な進歩であり、髪の毛や毛穴の微妙なニュアンスを含め、アバターが生命的な詳細を示すことを保証します。この革新的な手法の重要な要素であるリライト可能な外観モデルは、学習可能な輝度伝達に基づいています。 https://arxiv.org/abs/2312.03704 これらのアバターの優れた点は、アバターの構築における包括的なアプローチにあります。3Dガウシアンによってパラメータ化されたジオメトリモデルは、アバターのバックボーンを形成し、ガウシアンスプラッティング技術を使用した効率的なレンダリングを可能にします。学習可能な輝度伝達によって駆動される外観モデルは、拡散球面調和関数と反射球面ガウシアンを組み合わせています。この組み合わせにより、アバターは点光源と連続的な照明によるリアルタイムのリライティングを実現できます。 これらの技術的側面を超えて、この手法は表情、視線、ビュー、照明に対する切り離し可能な制御を紹介しています。アバターは、潜在的な表情コード、視線情報、および目標視野方向を利用してダイナミックにアニメーション化することができます。この制御のレベルは、アバターアニメーションにおける重要な進展であり、繊細でインタラクティブなユーザーエクスペリエンスを提供します。 これらのアバターは、単なる理論的な進展ではありません。その手法によって、ヘッドマウントカメラからのライブビデオによるアニメーションが実証されています。この能力により、リアルタイムのビデオ入力がアバターをシームレスに動かすことで、ダイナミックでインタラクティブなコンテンツを作り出すことができます。 総括すると、Meta AIの「リライト可能ガウシアンコーデックアバター」は、複雑な課題に対処するためのイノベーションの力を示すものです。3Dガウシアンに基づくジオメトリモデルと革新的な学習可能な輝度伝達の外観モデルを組み合わせることで、研究チームは既存の手法の制約を超え、アバターのリアリズムに新たな基準を打ち立てました。 “`
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.