Search Results Go

CMU＆Google DeepMindの研究者たちは、AlignPropという直接バックプロパゲーションベースのAIアプローチを導入しましたこのアプローチは、所望の報酬関数に適応するために、テキストからイメージへの拡散モデルの最適調整を行います

確率的拡散モデルは、連続的な領域における生成モデリングの確立された基準となっています。テキストから画像への拡散モデルの先駆者であるDALLEは、幅広いウェブ規模のデータセットで訓練することで画像を生成する能力が評価されています。本論文では、画像生成の最先端であるテキストから画像への拡散モデルの最近の台頭について説明しています。これらのモデルは大規模な非監督学習または弱教師付きのテキストから画像へのデータセットで訓練されてきました。ただし、非監督学習の性質上、人間によって知覚される画像の品質、画像とテキストの整列、倫理的な画像生成といった下流タスクの制御は困難な課題です。最近の研究では、強化学習技術を使用して拡散モデルを微調整する試みが行われてきましたが、この手法は勾配推定子の高い分散性で知られています。そこで、本論文では「AlignProp」という方法を紹介しています。この方法では、ノイズ除去プロセス中に報酬勾配をエンドツーエンドで逆伝播することで、拡散モデルを下流の報酬関数と整列させます。 AlignPropの先進的なアプローチにより、現代のテキストから画像へのモデルを逆伝播するのに通常伴う高いメモリ要件を軽減しています。これは、低ランクアダプターウェイトモジュールの微調整と勾配チェックポイントの実装によって実現しています。本論文では、AlignPropの性能を画像テキスト意味の整合性、美学、画像の圧縮性、生成される画像のオブジェクトの数の制御性やこれらの目的の組み合わせなど、さまざまな目的に対して微調整した拡散モデルの性能を評価しています。その結果、AlignPropは他の手法よりも高い報酬をより少ない訓練ステップで達成することが示されています。さらに、その概念的な単純さでも評価されており、興味のある異なる報酬関数に基づいて拡散モデルを最適化するための明確な選択肢となっています。 AlignPropのアプローチは、拡散モデルの微調整のために報酬関数から得られる勾配を利用することにより、サンプリング効率と計算効率の両方の向上をもたらします。実施された実験は、AlignPropがプロンプトのみでは単独で定義するのが困難なタスクを含む、幅広い報酬関数の最適化において、AlignPropの効果を一貫して実証しています。将来的な研究方向としては、これらの原則を言語モデルベースの拡散に拡張し、ヒューマンフィードバックとの整合性を向上させることが考えられます。

Google MapsのAir Quality APIから大気汚染データを取得するためのPythonツール

2023年8月、GoogleはマッピングAPIのリストに、空気品質サービスの追加を発表しましたそれについての詳細はこちらでお読みいただけますこの情報は現在、内部からも利用できるようになったようです

「Googleのグリーンライトプロジェクトは、30％減の停止時間で信号を制御します」

「Googleのプロジェクトグリーンライトは、世界中の12の都市と提携し、人工知能に基づく信号のタイミングの推奨を提供しています」

「Google Quantum AIは、薬学、化学、および原子力エネルギーに関連する量子計算の応用を探るために3つのケーススタディを紹介します」(Google Quantum AIが、やくがく、かがく、およびげんしりょくエネルギーにかんれんするりょうしけいさんのおうようをさぐるためにみっつのけーすすたでぃをしょうかいします)

さまざまな産業は、量子コンピューティングの変革的な可能性を賞賛していますが、有限サイズの問題に対する応用の実用性は疑問の残るところです。Google Quantum AIの共同研究は、量子コンピュータが古典コンピュータを上回る問題を特定し、実用的な量子アルゴリズムを設計することを目指しています。最近の取り組みには以下のものがあります：酵素化学の研究。リチウムイオンバッテリーの持続可能な代替手段の探索。慣性収束融合実験用の材料モデリング。実用的な量子コンピュータはまだ利用できませんが、彼らの取り組みは結果としてこれらの応用の効率的な量子アルゴリズムを実行するために必要なハードウェアの仕様を提供します。 Boehringer Ingelheimとコロンビア大学との共同研究により、Google Quantum AIは酵素ファミリーCytochrome P450の複雑な電子構造の理解における量子コンピューティングの応用を探索しました。これらの酵素は薬物代謝において重要な役割を果たしています。古典的な手法と量子的な手法を比較することで、彼らは量子コンピュータの高い精度がこの系統の複雑な化学を正確に解決するために不可欠であることを示しました。研究では、量子の利点は系統の大きさが大きくなるにつれてますます顕著になり、この問題において量子の利点を実現するために数百万個の物理的なキュービットが必要であることを示しました。リチウムイオンバッテリーはさまざまな応用に欠かせないものですが、しばしばコバルトに依存しており、環境上の懸念や倫理的な問題があります。研究者はコバルトの代替手段としてリチウムニッケル酸化物（LNO）を探求しました。LNOの特性を理解することが重要です。「Bloch軌道を用いた物質の耐故障性量子シミュレーション」と題された論文では、BASF、QSimulate、マクワリー大学との共同研究により、LNOのような周期的な原子構造に対する量子シミュレーション技術が開発されました。彼らの研究では、量子コンピュータがLNOのエネルギーを効率的に計算できることが分かりましたが、現時点では実用的ではないほどの量のキュビットが必要とされており、将来の改善に期待が寄せられています。研究者は、極限条件下での慣性収束融合実験のための量子シミュレーションを探求しています。これは反応速度の計算に焦点を当てており、炉の効率にとって重要です。量子アルゴリズムは有望であり、リソース要件は以前の応用の間に位置づけられています。不確定性は残りますが、これは複雑なシステムのシミュレーションにおいて系統的なエラーを導入する平均場法に依存する古典的な代替手法よりも優れています。研究者は物理系のシミュレーションに対するエラーコレクションされた量子コンピュータの将来的な具体的な応用を提示し、複雑な問題を解決する可能性を示しています。静的な基底状態の問題とは異なり、量子ダイナミクスは時間の経過に伴う量子システムの進化を伴います。共同研究により、量子アルゴリズムが効率と精度において近似的な古典的な計算を上回ることが明らかになりました。これらのアルゴリズムの開発は、エラーコレクションされた量子コンピュータの準備が整い、それらの能力についての誇張された主張を排除することを保証します。

「イェール大学とGoogleの研究者が、効率的な長距離シーケンス処理のために大規模言語モデルを迅速に加速する近似Attentionメカニズム、HyperAttentionを紹介する」という文章です

大規模言語モデルの急速な進歩により、チャットボットから機械翻訳までの幅広いアプリケーションが可能になりました。ただし、これらのモデルはしばしば効率的に長いシーケンスを処理するための支援が必要です。入力シーケンスの長さが増えると、これらのモデルの注意機構はますます計算コストが高くなります。研究者たちは、この課題に対処する方法を探索し、大規模言語モデルをさまざまなアプリケーションにより実用的にすることを試みています。最近、研究チームは「ハイパーアテンション」と呼ばれる画期的な解決策を紹介しました。この革新的なアルゴリズムは、特に長いシーケンスを扱う際に大規模な言語モデルの注意機構の近似を効率的に行います。既存のアルゴリズムを単純化し、注意行列内の主要なエントリを特定するために様々な技術を活用することで、計算を加速させます。ハイパーアテンションによる大規模言語モデルの効率の問題解決アプローチには、いくつかの重要な要素があります。詳細を見てみましょう。スペクトル保証：ハイパーアテンションでは、近似の信頼性を確保するためにスペクトル保証の実現を重視しています。条件数に基づいたパラメータ化を利用することで、通常この領域で行われる特定の仮定の必要性を低減させます。主要なエントリの特定のためのSortLSH：ハイパーアテンションは、ハミングソートされたLocality-Sensitive Hashing（LSH）技術を使用して効率を向上させます。この方法により、アルゴリズムは注意行列内の最も重要なエントリを特定し、より効率的な処理のために対角線と整列させます。効率的なサンプリング技術：ハイパーアテンションは、注意行列内の対角エントリを効率的に近似し、値行列との行列積を最適化します。このステップにより、大規模な言語モデルが性能を大きく低下させることなく、長いシーケンスを処理できるようにします。柔軟性と利便性：ハイパーアテンションは、異なるユースケースの処理に柔軟性を提供するよう設計されています。論文で示されているように、事前定義されたマスクを使用する場合や、sortLSHアルゴリズムを使用してマスクを生成する場合に効果的に適用できます。ハイパーアテンションの性能は印象的です。推論とトレーニングの両方で大幅な高速化が可能であり、大規模な言語モデルにとって貴重なツールとなっています。複雑な注意計算を簡素化することで、長いシーケンス処理の問題を解決し、これらのモデルの実用性を向上させています。結論として、HyperAttentionの研究チームは大規模な言語モデルにおける効率的な長距離シーケンス処理の課題に取り組む上で、重要な進展を遂げました。彼らのアルゴリズムは、注意機構に関与する複雑な計算を簡素化し、その近似に対してスペクトル的な保証を提供します。ハミングソートされたLSHのようなテクニックを活用することで、HyperAttentionは優勢なエントリを識別し、行列の積を最適化して推論とトレーニングのスピードアップを実現します。このブレイクスルーは、大規模な言語モデルが中心的な役割を果たす自然言語処理において、有望な発展です。自己注意機構のスケーリングに新たな可能性を開き、これらのモデルをさまざまなアプリケーションにより実用的にします。効率的でスケーラブルな言語モデルへの需要がますます高まる中、HyperAttentionは正しい方向に向けた重要な一歩を象徴し、最終的にはNLPコミュニティの研究者や開発者に恩恵をもたらすものとなるでしょう。

「Googleのおかげで、ロボットにとっての『ChatGPT』の時代は今までにないほど近づいています」

Google DeepMindは、21の大学との協力による究極の知能ロボット開発の成果であるRT-Xのリリースを発表しました

Google AIは、屋外での人間の視点によるシーン理解のためのマルチ属性ビデオデータセットであるSANPOを導入しました

自動運転などのタスクにおいて、AIモデルは道路や歩道の3D構造だけでなく、道路標識や信号機を識別・認識する必要があります。このようなタスクは、自動車に取り付けられた特殊なレーザーが3Dデータをキャプチャすることで容易に行われます。このようなプロセスは、エゴセントリックシーン理解と呼ばれ、自身の視点から環境を理解することを意味します。問題は、エゴセントリックな人間のシーン理解に適用できる公開データセットが自動運転領域を超えて存在しないことです。 Googleの研究者たちは、人間のエゴセントリックなシーン理解のためのマルチ属性ビデオデータセットであるSANPO（Scene understanding, Accessibility, Navigation, Pathfinding, Obstacle avoidance）データセットを導入しました。SANPOには、SANPO-RealとSANPO-Syntheticの2つの実世界データと合成データが含まれています。SANPO-Realは多様な環境をカバーしており、マルチビュー手法をサポートするために2つのステレオカメラからのビデオが含まれています。実データセットには、15フレーム/秒（FPS）でキャプチャされた11.4時間のビデオと密な注釈が含まれています。 SANPOは、エゴセントリックな人間のシーン理解のための大規模なビデオデータセットであり、密な予測注釈を持つ60万以上の実世界および10万以上の合成フレームから成り立っています。 Googleの研究者たちは、プライバシー保護を優先しています。彼らは現地、市、および州の法律に従ってデータを収集しています。また、注釈のためにデータを送信する前に、顔や車両ナンバープレートなどの個人情報を削除するようにしています。ビデオのキャプチャ中のモーションブラー、人間の評価ミスなどの欠点を克服するために、SANPO-Syntheticが導入されました。研究者は、実世界の環境に合わせて最適化された高品質な合成データセットを作成するために、Parallel Domainと提携しました。SANPO-Syntheticには、バーチャル化されたZedカメラを使用して記録された1961のセッションが含まれており、ヘッドマウントとチェストマウントの位置の均等な分布があります。合成データセットと一部の実データセットは、パノプティックインスタンスマスクを使用して注釈が付けられました。SANPO-Realでは、フレームごとに20を超えるインスタンスがあるのはわずかです。それに対して、SANPO-Syntheticには実データセットよりもずっと多くのインスタンスが含まれています。この分野での他の重要なビデオデータセットには、SCAND、MuSoHu、Ego4D、VIPSeg、Waymo Openなどがあります。SANPOはこれらのデータセットと比較され、パノプティックマスク、深度、カメラ姿勢、マルチビューステレオ、実データと合成データを兼ね備える最初のデータセットです。SANPOの他に、パノプティックセグメンテーションと深度マップを兼ね備えたデータセットはWaymo Openだけです。研究者は、SANPOデータセット上で2つの最先端モデル、BinsFormer（深度推定）とkMaX-DeepLab（パノプティックセグメンテーション）を訓練しました。彼らは、このデータセットは両方の密な予測タスクにとって非常に挑戦的であることを観察しました。また、合成データセットの方が実データセットよりも精度が高いことも確認されました。これは、現実世界の環境が合成データよりも複雑であるためです。さらに、セグメンテーション注釈においては、合成データの方がより正確です。人間のエゴセントリックなシーン理解のデータセットの不足に対処するために導入されたSANPOは、実世界と合成データセットの両方を網羅しており、密な注釈、マルチ属性の特徴、パノプティックセグメンテーションと深度情報のユニークな組み合わせによって他のデータセットとは異なる存在です。さらに、研究者たちのプライバシーへの取り組みは、視覚障害者のための視覚ナビゲーションシステムの開発をサポートし、高度な視覚シーン理解の可能性を広げるために、このデータセットを他の研究者に提供することができます。

「トランスフォーマーは長い入力をどのように扱うのか？CMUとGoogleの研究者が新しいアプローチを発表（FIRE）：相対位置エンコーディングのための機能的補間」

Transformerベースの言語モデルは、近年、自然言語処理（NLP）の領域を引き上げてきました。人間らしいテキストを理解し生成する能力により、さまざまなNLPタスクで画期的な改善がもたらされました。しかし、これらのモデルには重大な欠点があります。訓練中に遭遇したものよりも長い入力シーケンスにさらされると、パフォーマンスが明らかに低下する傾向があります。現実のアプリケーションにおいてより長い文脈を管理する能力を向上させる方法を見つける必要性が、この制限によって刺激されています。 Transformerアーキテクチャ自体は潜在的に異なる入力期間を処理する能力を持っていますが、トレーニング中に使用される位置エンコーディングによって長い入力の取り扱い能力が制限されることがあります。そこで、カーネギーメロン大学、Google Research、Google DeepMindの研究者チームは、Functional Interpolation for Relative Positional Encoding（FIRE）と呼ばれる独自のアプローチを導入しました。FIREの目的は、Transformerの長い文脈の一般化能力を向上させることです。これは、新たな進行的な補間と機能的な相対位置エンコーディングの組み合わせによって実現されています。 FIREの基本的なアイデアは、シーケンス内のトークンの配置を理解するためのTransformerモデルに柔軟性のある手段を提供することです。FIREは、事前定義された位置エンコーディングスキームの代わりに、位置情報をエンコードするための動的で学習可能なメカニズムを提供します。この戦略は重要です。なぜなら、モデルが遭遇する特定の文脈とシーケンスの長さに対して、位置の理解を修正および変更することができるからです。 FIREは、Kerple、Alibi、T5のRelative Positional Encoding（RPE）など、よく使用される相対位置エンコーディング技術の一部を概念的に説明する能力も持っています。これは、FIREが現行の手法とモデルとの互換性を保持しながら、パフォーマンスを向上させるということを示しています。長い文脈の理解が重要な状況において、FIREを装備したモデルのパフォーマンスを評価するために、さまざまなベンチマークで実験が行われました。この評価では、ゼロショットの言語モデリングや長文入力の問題などがカバーされています。この新しい手法を使用した改良モデルは、長い文脈を扱う際の汎化性能においてより優れたパフォーマンスを示しました。これは、長いシーケンスが与えられた場合、個人はより意味のあるテキストを理解し生成する能力が高まることを意味し、実用的な状況で非常に有用なスキルです。研究者たちは、主な貢献を次のようにまとめました。 Alibi、Kerple、T5のRPEなど、一部の人気のある位置エンコーディング手法を含む、新しい機能的な相対位置エンコーディング手法であるFIREが導入されました。 FIREは、さまざまなデータセットやベンチマークにおいて、ゼロショットとファインチューニングのシナリオで現行の技術を上回るパフォーマンスを示し、高い長さの汎化性能を発揮します。C4言語モデリングの問題において、最高のベースラインを2.28パープレキシティポイント上回り、その有用性を示しました。SCROLLSの長いテキストテストでも、他の手法を平均1ポイント以上上回ります。 FIREの柔軟性により、ローカルおよび逆ローカルの位置バイアスの両方を捉える能力が向上し、学習された位置の埋め込みの視覚化によって示されます。まとめると、FIREはTransformerモデルにおける持続的な問題に対する優れた解決策を提供します。相対位置エンコーディングは柔軟で学習可能な方法で取り組まれるため、これらのモデルは以前に経験したことのない長さの入力シーケンスに直面しても高いパフォーマンスで動作を続けることができます。

『プロンプトブリーダーの内部：Google DeepMindの新しい自己改善プロンプト技術』

「論理的思考と即座の進化・最適化が、大規模言語モデル（LLM）における次の重要なフロンティアとして認識されています私たちはみな、AutoGPTやBabyAGIのようなプロジェクトに魅了されてきました...」

「Googleは、ヘルスケアとライフサイエンスの機能を備えたVertex AI検索をアップデートしました」

ヘルスケアの領域において、人工知能（AI）の登場は効率と精度の新時代を予感させる光明塔となっています。Google Cloudは、医療のリーダーと連携し、AI技術の進歩を牽引しており、ヘルスケアとライフサイエンスの景色を変える準備が整っています。業務の効率化から医療研究の加速まで、この驚異的な技術の可能性は無限であり、より健康的で充実した人生を約束しています。ヘルスケアにおけるgen AIの最も直接的な適用の1つは、重要な情報にアクセスし、洞察を得る能力を個人に与えることです。Google CloudのVertex AI検索を介して、医療従事者は今や医療に特化したAIの力を活かして、FHIRデータ、臨床ノート、電子健康記録（EHR）などのさまざまなソースから正確な臨床情報を効率的に抽出することができます。この検索機能の進歩は、医療従事者が重要な情報を見落とす可能性のある構造化および非構造化の大量のデータを処理するという課題に対応しています。ライフサイエンス企業にとっても、gen AIは業務改善の原動力となり、プレシジョンメディシンの進化を支えます。Vertex AI検索のGoogle CloudヘルスケアAPIとヘルスケアデータエンジンとの統合により、この進歩がさらに強化され、保険便宜性および責任法（HIPAA）の厳しい要件に準拠することが保証されます。ヘルスケアの先駆者であるHighmark Healthは、ヘルスケアの体験がトップティアの小売業者から期待されるシームレスな関与を反映する未来を見据えています。彼らのLiving Healthモデルを通じて、Highmark Healthは生成AIを活用して内部の生産性や情報の利便性、医療従事者およびメンバーの総合的な体験を向上させることを目指しています。Vertex AIと大規模言語モデル（LLM）の統合は、前例のないスケールでメンバーマテリアルやその他の一般公開情報を個別化することを約束しています。ヘルスケア部門の重要な存在であるHackensack Meridian Healthは、重要なデータ、アプリケーション、およびリソースをGoogle Cloudに移行することで、ITの近代化に大きな進展を遂げています。この移行によって、柔軟性と信頼性、セキュリティが強化され、多様なデータソースからの洞察が解き放たれ、発見とイノベーションが加速されます。このパートナーシップは、Hackensack Meridian HealthとGoogle Cloudの幅広い協力関係を築き上げており、AIの活用、データ分析、生産性ソフトウェアなどに及んでいます。看護師や医療従事者の疲弊と人手不足という全国的な課題に応えるため、care.aiは生成AIに基づく解決策を提供しています。Googleの大規模言語モデルを活用した彼らのSmart Care…

Learn more about Search Results Go - Page 12