Learn more about Search Results Go - Page 4

「Googleのジェミニは私たちが期待していた生成AIモデルではありません」

DeepMindの製品VPであるEli Collins氏は、Gemini Ultraがテキスト、画像、音声、コードの「微妙な」情報を理解できると主張しています

「ジェミニに会おう:チャットGPTに対するGoogleの答え」

人工知能の進化する世界において、Googleは最新作のGemini AIにより画期的な飛躍を遂げました。Googleによると、異なるサイズ(Ultra、Pro、Nano)で最適化されたGeminiは、優れたパフォーマンスを持つ最も能力の高いモデルであり、多くの主要なベンチマークにおいて最先端のパフォーマンスを発揮します。この高度な会話型AIモデルは、AIシステムとのインタラクションのあり方を革新する可能性を秘めています。本記事では、Gemini AIの内部機能や、さまざまな産業への影響について詳しく掘り下げます。 Gemini AIの誕生 Geminiは、テキスト、コード、オーディオ、画像、ビデオなど、さまざまな情報の理解、操作、統合が可能なマルチモーダルなモデルです。これは、深層学習技術、自然言語処理、大規模トレーニングデータの組み合わせを利用して、印象的な会話能力を実現しています。Geminiは、Ultra、Pro、Nanoの3つの異なるサイズに最適化されています。高度な複雑なタスクに対して最も能力の高いモデルであるGemini Ultra、幅広いタスクに拡張性のあるモデルであるGemini Pro、そしてデバイス上でのタスクに最も効率的なモデルであるGemini Nanoが存在します。 Gemini AIは、深層学習技術、自然言語処理、大規模トレーニングデータの組み合わせを使用して、印象的な会話能力を実現しています。 Gemini vs ChatGPT Gemini Ultraは、自然画像、音声、映像の理解から数学的な推論まで、現在の最先端の結果を超えるパフォーマンスを発揮しています。MMLUへの新たなベンチマークアプローチにより、Geminiは困難な質問に対してより慎重に考えることができ、初めの印象だけを使うよりも大幅な改善が見られます。 Geminiの使い方 Googleは、Gemini Proを搭載したBardモデルを紹介し、Gemini Nanoを通じてPixel 8 Proユーザー向けの追加機能を提供しました。Gemini Ultraは来年にリリース予定です。2023年12月13日から、開発者やエンタープライズのお客様は、Google Generative…

「Ego-Exo4Dを紹介:ビデオ学習とマルチモーダルパーセプションに関する研究をサポートするための基礎データセットとベンチマークスイート」

今日、AIはほとんどの想像できる分野で応用されています。それは確かに私たちの生活を変え、プロセスを合理化し、効率を向上させてくれました。これまで想像もできなかったことを実現するため、人間のスキル理解をさらに向上させることができるかもしれません。この研究論文では、AIシステムをより優れた人間のスキル理解をするように装備することに焦点を当てています。 人間のスキルを捉えるためには、自己中心的(第一人称)および外向的(第三人称)の視点の両方を考慮する必要があります。さらに、これらの両者の間に連携が必要とされます。他人の行動を自分自身にマッピングすることは、より良い学習のために重要です。既存のデータセットは、自己-外向きのデータセットが非常に限られており、規模が小さく、カメラ間の同期がしばしば欠けているため、この潜在能力を実現するために十分に適していません。この問題に対処するために、Metaの研究者は、Ego-Exo4Dという基礎データセットを導入しました。これは多モーダル、多視点、大規模で、世界中の複数の都市からのさまざまなシーンで構成されています。 より良い理解のためには、時には両方の視点が必要です。たとえば、シェフが第三者の視点から機器を説明し、第一人称の視点から手の動きを見せる場合などです。したがって、より良い人間のスキルを達成するために、Ego-Exo4Dは各シーケンスに第一人称視点と複数の外向き視点を含んでいます。さらに、研究者たちは、すべての視点が時間的に同期していることを保証しています。マルチビューデータセットは、身体のポーズやオブジェクトとの相互作用を捉えるために作成されました。 Ego-Exo4Dは、身体のポーズの動きやオブジェクトとの相互作用を捉えるために、熟練した人間の活動に重点を置いています。このデータセットには、料理、自転車修理など、さまざまなドメインの多様な活動が含まれており、データはラボ環境ではなく本物の環境で収集されています。データの収集には、800人以上の参加者が募集され、堅牢なプライバシーと倫理基準が遵守されました。 このデータセットのすべてのビデオは時間に関連付けられています。つまり、カメラを着用した人物が自分の行動を説明し、第三者が各カメラの映像を説明し、第三者がカメラをつけた人物のパフォーマンスを批評するという特徴があり、他のデータセットとは異なる点です。さらに、トレーニング用の自己-外気データがない場合、熟練した活動の自己中心的な認識において主要な研究課題が生じます。そのため、研究者は、コミュニティがスタートするための出発点を提供するために、一連の基本的なベンチマークを考案しました。これらのベンチマークは、関係、認識、熟練度、自己ポーズの4つのタスクのファミリーに整理されています。 結論として、Ego-Exo4Dは、さまざまなドメインの熟練した人間の活動からなる、前例のない規模の包括的なデータセットです。これは従来のデータセットの欠点を補う、前例のないデータセットです。このデータセットは、活動認識、身体のポーズ推定、AIコーチングなどの多くの領域で応用され、その先にある、多モーダル活動、自己-外向きなどの研究の推進力となると研究者たちは信じています。

Google AI研究のTranslatotron 3:革新的な教師なし音声対音声翻訳アーキテクチャの発表

音声から音声への翻訳(S2ST)は、言語の壁を取り払うための画期的な技術ですが、並行音声データの不足がその進展を妨げてきました。既存のほとんどのモデルは、教師付きの設定を必要とし、合成されたトレーニングデータからの翻訳と音声属性の再構築の学習に苦労しています。 音声から音声への翻訳では、Google AIの以前のモデルであるTranslatotron 1やTranslatotron 2など、Googleの研究チームによって直接言語間の音声を翻訳することを目指したモデルが注目されてきました。しかし、これらのモデルは教師付きのトレーニングと並行音声データに依存しているため、制約がありました。課題はそのような並行データの不足にあり、S2STモデルのトレーニングを複雑な課題にしています。ここで、Googleの研究チームが紹介した画期的な解決策であるTranslatotron 3が登場します。 研究者たちは、音声翻訳のための公開データセットのほとんどがテキストから半合成または完全合成されたものであることに気付きました。これにより、翻訳の学習と音声属性の正確な再構築に関して、さらなるハードルが生じています。これに対応するために、Translatotron 3は、単一言語データのみから翻訳タスクを学習することを目指す非教師付きS2STの概念を導入することで、パラダイムシフトを実現します。このイノベーションにより、さまざまな言語ペア間での翻訳の可能性が拡大し、一時停止、話す速度、話者の身元などの非テキストの音声属性の翻訳能力が導入されます。 https://blog.research.google/2023/12/unsupervised-speech-to-speech.html Translatotron 3のアーキテクチャは、非教師付きS2STの課題に対処するために3つのキー要素で設計されています。 SpecAugmentを用いたマスク付きオートエンコーダとしてのプレトレーニング: 全体のモデルはマスク付きオートエンコーダとして事前にトレーニングされ、音声認識のためのシンプルなデータ拡張手法であるSpecAugmentを利用します。SpecAugmentは入力オーディオの対数メルスペクトログラム上で動作し、エンコーダの汎化能力を向上させます。 多言語非教師付き埋め込みマッピングに基づくUnsupervised Embeddings (MUSE): Translatotron 3は、対称言語でトレーニングされたテクニックであるMUSEを活用し、ソース言語とターゲット言語の間で共有の埋め込み空間を学習します。この共有の埋め込み空間により、入力音声の効率的かつ効果的なエンコーディングが可能となります。 バックトランスレーションによる再構築損失: モデルは、非教師付きのMUSE埋め込み損失、再構築損失、およびS2Sバックトランスレーション損失の組み合わせでトレーニングされます。推論中に、共有エンコーダは入力を多言語埋め込み空間にエンコードし、その後、ターゲット言語デコーダによってデコードされます。 Translatotron 3のトレーニング手法は、再構築とバックトランスレーション項を持つ自己符号化を含んでいます。最初の部分では、ネットワークはMUSE損失と再構築損失を使用して、入力を多言語埋め込み空間に自己符号化するようにトレーニングされます。このフェーズでは、ネットワークが意味のある多言語表現を生成することを目的としています。二番目の部分では、ネットワークはバックトランスレーション損失を使用して入力スペクトログラムを翻訳するようにトレーニングされます。この二番目のトレーニングの際に、潜在空間の多言語性を確保するために、MUSE損失と再構築損失が適用されます。両方のフェーズでエンコーダの入力にSpecAugmentが適用され、意味のあるプロパティが学習されるようになっています。 Translatotron 3の経験的評価は、基準のカスケードシステムに比べて会話の微妙なニュアンスを保護する点でその優位性を示しています。このモデルは、翻訳の品質、話者の類似性、音声の品質において優れた性能を発揮します。非教師付きの方法であるにもかかわらず、Translatotron…

「GoとMetalシェーディング言語を通じてAppleのGPUをプログラミングする」

以下では、GoとネイティブCの間でcgoを使用してインターフェースを作成するプロセス、これを使用してAppleのMetal Performance ShadersフレームワークのObjective-Cバインディングとインターフェースを作成する方法について説明します

「みんなのためのLLM:ランニングLangChainとMistralAI 7BモデルをGoogle Colabで」

『誰もが大規模言語モデルは、定義通り大規模であることを知っていますそして、それもつい最近までは高性能なハードウェアの所有者または少なくともクラウドアクセスのために支払った人々にのみ利用可能でした...』

Google AIとテルアビブ大学の研究者は、テキストから画像への拡散モデルと専門のレンズジオメトリを組み合わせた人工知能フレームワークを提案しています画像のレンダリングに関して、これは画期的なものです

画像生成の最近の進歩は、大規模な拡散モデルを利用した、テキストと画像データのペアで訓練されたもので、多様な条件付け手法を取り入れ、ビジュアル制御を向上させています。これらの手法は、明示的なモデルの条件付けから、新しいモダリティのための事前学習済みアーキテクチャの変更まで様々です。深度などの抽出された画像特徴を使用してテキストによる条件付けモデルを微調整することで、画像の再構築が可能になります。以前の研究者は、オリジナルの解像度情報を利用したGANsフレームワークを紹介し、多解像度および形状一貫性のある画像生成を実現しました。 Google Researchとテルアビブ大学の研究者は、AIフレームワーク(AnyLens)を提案し、専用のレンズジオメトリとテキストから画像への拡散モデルを統合して画像レンダリングを実現しています。この統合により、レンダリングジオメトリの正確な制御が可能になり、単一の拡散モデルを使用して魚眼、パノラマビュー、および球面テクスチャなどの様々な視覚効果の生成が容易になります。 本研究では、テキストから画像への拡散モデルに多様な光学制御を組み込むための新しい手法を提案しています。この手法により、モデルはローカルなレンズジオメトリに基づいて条件付けされ、リアルな画像生成のための複雑な光学効果の再現能力が向上します。従来のキャンバス変換を超えて、手法はピクセルごとの座標条件付けを介してほぼ任意のグリッド変形を可能にします。このイノベーションは、パノラマシーンの生成や球体のテクスチャリングを含むさまざまなアプリケーションをサポートします。計量テンソル条件付けを用いた幾何学的に感知的な画像生成フレームワークを導入して、画像生成の制御と操作の可能性を拡大します。 本研究は、ピクセルごとの座標条件付けを通じてテキストから画像への拡散モデルに特定のレンズジオメトリを統合するフレームワークを紹介しています。この手法は、ランダムなワーピングフィールドを使用して画像を変形させたデータによって事前学習された潜在的な拡散モデルを微調整します。自己注意層のトークン再重み付けが採用されています。この方法は曲率特性の操作を可能にし、魚眼やパノラマビューなどのさまざまな効果をもたらします。画像生成において固定された解像度を超え、計量テンソル条件付けを組み込むことで制御が向上します。このフレームワークは、大規模な画像生成や拡散モデルにおける自己注意スケールの調整といった課題に取り組むことで、画像操作の可能性を拡張します。 このフレームワークは、特定のレンズジオメトリを持つテキストから画像への拡散モデルを正確に統合し、魚眼、パノラマビュー、球面テクスチャなどのさまざまな視覚効果を単一のモデルで実現します。曲率特性とレンダリングジオメトリに対する正確な制御が提供され、リアルで微妙な画像生成が実現されます。大規模なテキスト注釈データセットとピクセルごとのワーピングフィールドで訓練されたこの手法は、目標のジオメトリに密接に合わせ、細やかな歪みのない結果の任意の変形画像を生成することを容易にします。また、球面パノラマをリアルな比率と最小限のアーティファクトで作成することも可能になります。 まとめとして、画像レンダリングにおけるさまざまなレンズジオメトリの組み込みを提供する新しく導入されたフレームワークは、曲率特性と視覚効果に対する制御を向上させます。ピクセルごとの座標および計量条件付けを通じて、レンダリングジオメトリの操作を容易にし、高度なリアルな画像およびジオメトリ操作を可能にします。このフレームワークは、高品質な画像を作成するための貴重なツールとして、イメージ合成における創造性と制御を促進します。 今後の研究では、多様な画像生成を向上させるために、高度な条件付け技術を探求することにより、手法の制限を克服することが求められます。研究者たちは、専門的なレンズによって異なるシーンを捉える結果に近い結果を得るために手法を拡張することを提案しています。より高度な条件付け技術の使用についても言及し、画像生成の向上と機能の拡張を期待しています。

元Google CEO、現在のAIガードレールは十分ではないと警告

AxiosのAI+ Summitで、元Google CEOのEric Schmidt氏は、現在のAIのガードレールは十分な保護を提供していないと警告しましたこの元Googleの最高経営責任者は、人工知能の発展を第二次世界大戦時の核兵器の導入に例えましたSchmidt氏は話す中で、「...」と述べました

Google DeepMindによる新たなブレイクスルー、新しい素材が公開されました

新しい研究論文によれば、GoogleのDeepMindが何十万もの新たな物質デザインの仮説を発見しました彼らはこのブレークスルーによってコンピュータチップ、バッテリー、太陽電池などの材料の生産を改善することを望んでいます自然に掲載されたこの新しい材料の発見と合成は...

「Google DeepMind ResearchはSODAを紹介しました:表現学習のために設計された自己教師付き拡散モデル」

Google DeepMindの研究者は、画像を効率的な潜在表現にエンコードする問題に取り組むAIモデル「SODA」を開発しました。SODAにより、画像と意味的属性のシームレスな遷移が可能となり、さまざまな画像カテゴリをまたがった補間や変形ができます。 拡散モデルは、画像、ビデオ、音声、テキストの合成、計画、および薬剤探索など、さまざまなタスクで革新をもたらしました。従来の研究は、生成能力に焦点を当てていましたが、この研究では拡散モデルの表現能力の未開発な領域を探求しています。この研究はさまざまなデータセットやタスクにわたる拡散ベースの表現学習を包括的に評価し、単に画像から得られる潜在的な可能性を明らかにします。 提案されたモデルは、学習における合成の重要性を強調し、拡散モデルの大きな表現能力を示しています。SODAは、情報ボトルネックを組み込んだ自己教師モデルであり、離散した情報を含む有益な表現を実現しています。SODAは、高性能のほんの数ショットの新しいビュー生成や意味的な特性制御を含む、分類、再構築、合成タスクでその強みを示します。 SODAモデルは、自己教師拡散を通じて離散した表現を作成するために情報ボトルネックを利用しています。この手法では、分布に基づく事前学習を使用して表現学習を改善し、分類や新しい視点合成のタスクで強力なパフォーマンスを実現しています。SODAの能力は、ImageNetを含むさまざまなデータセットを徹底的に評価することで検証されています。 SODAは、分類、離散化、再構築、新しい視点合成などの表現学習で優れた成果を上げることが証明されています。変分法と比較して、分離メトリクスの改善が顕著です。ImageNetの線形プローブ分類では、SODAは他の識別モデルを上回り、データ拡張に対する堅牢性を示しています。その多目的性は、新たな視点の生成や意味的属性のシームレスな遷移に明らかです。実証的な研究を通じて、SODAは、詳細な分析、評価メトリクス、他のモデルとの比較による、効果的で堅牢で多目的な表現学習手法として確立されています。 結論として、SODAは、分類、再構築、編集、合成など、さまざまなタスクに対して堅牢な意味的表現を生み出す表現学習で優れた能力を示しています。情報ボトルネックを利用して、重要な画像の特性に焦点を当て、変分法を分離メトリクスで上回っています。SODAの多目的性は、新しい視点の生成、意味的属性の遷移、カメラの視点など、より豊かな条件情報の処理能力に明らかです。 将来の展望としては、SODAの領域をより深く掘り下げるために、3Dデータセットの動的構成シーンや新しい視点合成と自己教師学習とのギャップを埋めることが価値あるでしょう。モデルの構造、実装、評価の詳細など、拡散モデルの予備知識、ハイパーパラメータ、トレーニング技術、サンプリング方法についてさらなる検討が必要です。消去と変異の研究を行うことで、より良い設計選択や代替メカニズム、クロスアテンション、レイヤーごとの変調を探求することが推奨されます。これにより、3D新しい視点合成、画像編集、再構築、表現学習などのさまざまなタスクでのパフォーマンスが向上する可能性があります。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us