Learn more about Search Results Go - Page 11
- You may be interested
- 「人工知能を用いたIoTセキュリティの強化...
- 画像中のテーブルの行と列をトランスフォ...
- Google研究者がAudioPaLMを導入:音声技術...
- パンダのカット対qcutが明確に説明されて...
- 「Matplotlibフィギュアに挿入軸を追加する」
- 「ロボットのセンシングと移動のためのア...
- 「Plotlyを使用したダイナミックなコロプ...
- 「VoAGIの30周年おめでとう!」
- これがP-Hackingの解決策ですか?
- このAI研究は、深層学習システムが継続的...
- Windowsアプリケーションにおけるハードウ...
- 「PythonのPandasライブラリを使用した非...
- 「機械学習とAIが偽のレビューを迅速に検...
- 「Amazon SageMakerでのRayを使用した効果...
- 『Amazon Search M5がAWS Trainiumを使用...
「Googleとトロント大学の研究者が、ライブコンピュータ環境での自律学習とタスク実行のための画期的なゼロショットエージェントを紹介」
“`html 大規模言語モデル(LLM)は、ALFWORLDやALPHACODEなどのさまざまな現場でのアクション製作において、以前の試みで有望な結果を示しています。SAYCAN、REACT、TOOLFORMER、SWIFTSAGEなどの例があります。LLMは、専門家のトレイルを追い、環境の変化を理解し、将来の活動を計画・実施し、APIリクエストを作成するために同様に使用されます。REFLEXIONやSELF-REFINEを含むいくつかの研究は、自己反省の多数のラウンドを繰り返し実行することがタスクの完了を大幅に高めることを示しています。LLMには、環境のフィードバックに基づいて前の実行計画を変更するよう求められます。そのような調整は、次のラウンドのアクションジェネレータのプロンプトに組み込まれます。 最近、MINIWOB ++は、モジュラ化されたコンピューティングワークロードでLLMのパフォーマンスを評価するためのテストベッドとして活用されています。タスクの包括的なトレース例(WebGUM)を使用した直接監督、自己監督、または少数/多数のプロンプティング(SYNAPSE)は、タスクを学習するための標準的な方法です。彼らは、タスク完了率が90%以上である場合の数十のコンピュータジョブを完了し、コンピュータ制御の問題を解決しているようです。ただし、エキスパートトレースの必要性は、エージェントの新しいジョブを学習する能力を制約しています。適切に選択されたトレースをガイドとして使用せずに、エージェントはコンピュータの制御について独立に知識を持ち、それを向上させることができるでしょうか?Google Researchとトロント大学の研究者は、この疑問に答えるために、ゼロショットエージェントを提案しています。 彼らのエージェントは、最新のLLMであるPaLM2の上に構築されており、タスク固有のプロンプトではなく、すべてのアクティビティに対して単一のセットの指示プロンプトを使用しています。また、現代の取り組みであるRCI、ADAPLANNER、SYNAPSEなどは、ユーザーの画面に表示されるデータよりもはるかに多くのデータを含むスクリーン表現を使用する場合があります。たとえば、図1では、LLMに提供されるが画面上に表示されないHTMLに含まれるアイテムが示されています。この新たな知識を任意に使用することで、エージェントのタスク完了能力は向上します。しかし、通常の使用シナリオでは、そのような情報に簡単にアクセスできない場合があり、それに依存することでエージェントの適用範囲が制限される可能性があります。 図1は、画面上の異なる表示を示しています。図1a-1cは、「もっと見る」ボタンを押す前後のソーシャルメディアのタスクを示しています(seed=2)。クリックする前に、HTMLで既にマテリアルが表示されています。図1d-1e:クリックタブ2(seed=0)も同様の問題を抱えています。 MINIWOB ++で評価されるように意図された多数のスクリーンにまたがるかなり難しいジョブ13件が注意深く評価され、そのうち5件には単一の観察で含まれるHTMLがそのような情報を含んでいました。彼らが行った貢献は次のとおりです:まず、以前の研究と比較して、より簡潔な画面描写を採用し、テスト環境をより包括的で現実的なものにします。次に、状態上で実行可能な操作を正確に計画するための簡単で効果的なアクションプランナーを提供します。彼らは、このような「素朴な」アプローチが、最新のLLMの能力を使用して、MINIWOB ++ベンチマークのほとんどの単純なタスクを完了できることを示しています。 エージェントが探索的な失敗から成功裡に学び、より難しいタスクに進むために彼らはReflexionから影響を受けた体系的な思考管理技術を提案しています。彼らのエージェントは、数ラウンドの試行の後、以前の少数/多数ショットの最新技術と同等のパフォーマンスを達成します。彼らのエージェントは、研究によると、コンピュータ制御タスクのためのゼロショットデザインとしては彼らが知る限り初めてのものです。 “`
「Amazon Bedrockを使用した生成型AIアプリ:Go開発者のための入門ガイド」
「AWS Go SDKとAmazon Bedrock Foundation Models(FMs)を使用して、コンテンツ生成、チャットアプリケーションの構築、ストリーミングデータの処理などのタスクを実行します」
Note This translation conveys the same meaning as the original English phrase, which refers to going from a state of poverty to wealth.
大規模言語モデル(LLM)が世界中を席巻している中、ベクトル検索エンジンも同行していますベクトルデータベースは、LLMの長期記憶システムの基盤を形成しています...
「Google DeepMindが、ソーシャルおよび倫理的なAIリスク評価のための人工知能フレームワークを提案」
ジェネラティブAIシステムは、さまざまな形式でコンテンツを作成することで、ますます広まっています。これらのシステムは、医療、ニュース、政治、社会的なやり取りなど、さまざまな分野で使用され、仲間意識を提供します。自然言語の出力を使用して、これらのシステムは、テキストやグラフィックスなどの単一の形式で情報を生成します。ジェネラティブAIシステムをより適応性のあるものにするために、音声(音声や音楽を含む)やビデオなどの追加の形式で動作するように改良する傾向が増えています。 ジェネラティブAIシステムの利用の増加は、それらの展開に伴う潜在的なリスクを評価する必要性を強調しています。これらの技術がより一般的になり、さまざまなアプリケーションに統合されるにつれて、公共の安全に関する懸念が生じます。したがって、ジェネラティブAIシステムが引き起こす潜在的なリスクを評価することは、AI開発者、政策立案者、規制当局、市民社会にとって優先事項となっています。 これらのシステムの利用の増加は、ジェネラティブAIシステムの実装に関連する潜在的な危険性を評価する必要性を強調しています。その結果、AI開発者、規制当局、市民社会がジェネラティブAIシステムが引き起こす可能性のある脅威を評価することがますます重要になっています。誤った情報を広めるかもしれないAIの開発は、そのような技術が社会にどのような影響を与えるかという倫理的な問題を提起します。 したがって、Google DeepMindの研究者による最近の研究では、AIシステムの社会的および倫理的なリスクを、複数の文脈レイヤーで網羅的に評価する手法を提供しています。DeepMindのフレームワークは、システムの能力、技術との人間の相互作用、およびそれが持つ広範なシステムへの影響について、リスクを体系的に評価します。 彼らは、非常に能力のあるシステムでも、特定の文脈内で問題が発生する場合にのみ害を引き起こす可能性があることを強調しています。また、フレームワークは実際の人間とAIシステムとの相互作用を調査します。これには、技術を利用するユーザーの身元や、それが意図通りに動作するかどうかなどの要素を考慮します。 最後に、フレームワークはAIが広範に採用された場合に生じる可能性のあるリスクを調査します。この評価では、技術が大きな社会的システムと組織にどのように影響を与えるかを考慮します。研究者は、AIのリスクを決定する上で文脈の重要性を強調しています。フレームワークの各層は文脈に関する懸念事項に浸透しており、AIを使用するのは誰であり、なぜ使用するかを知ることの重要性を強調しています。たとえば、AIシステムが事実に基づいた正確な出力を生成したとしても、ユーザーの解釈やそれらの出力の後続の普及は、特定の文脈の制約内でのみ明らかな予期しない結果をもたらす可能性があります。 研究者は、この戦略を示すために、誤情報に焦点を当てたケーススタディを提供しています。評価では、AIの事実の誤りに対する傾向を評価し、ユーザーがシステムとどのように相互作用するかを観察し、誤った情報の拡散などの後続の影響を測定します。モデルの行動と特定の文脈で実際に起こる害の相互作用は、実践的なインサイトをもたらします。 DeepMindの文脈ベースのアプローチは、単独のモデルの指標を超える重要性を強調しています。社会的な文脈の複雑な現実の中で、AIシステムがどのように機能するかを評価する必要性を強調しています。この総合的な評価は、AIの利点を最大限に活用する一方で、関連するリスクを最小限に抑えるために重要です。
『Google Vertex AI Search&Conversationを使用してRAGチャットボットを構築する』
「Googleは最近、彼らの管理されたRAG(Retrieval Augmented Generator)サービス、Vertex AI Search&ConversationをGA(一般公開)にリリースしましたこのサービスは、以前はGoogleとして知られていました...」
「Google BigQuery / SQLでの5つの一般的な失敗を避ける方法」
Google BigQueryは多くの理由で人気です非常に高速で、使いやすく、完全なGCPスイートを提供し、データを保護し、早期にミスを発見するようにしていますそれに加えて...
「NoteGoatは、ユーザーがオーディオ、ビデオ、および筆記録をアップロードできるようになりました」と記されています
新機能はハイブリッド学習環境で増え続ける学生の数に対応しています サンフランシスコ、CA、2023年10月12日 - 大学生のために特別に作られた新しいAIパワーのノート取りツールであるNoteGoatは、ライブおよび仮想講義に加えて、音声、ビデオ、および文章を活用することができるようになりましたUpload Expressを利用することで、教室に物理的にいない学生だけでなく、...NoteGoatは今やユーザーが音声、ビデオ、および文章をアップロードすることができるようになりました」
「Google CloudがGenerative AIの保護を顧客に約束」
Google Cloudは、顧客の利益に対する取り組みを再確認し、共有のイノベーション、サポート、運命が特徴となる旅へと先進的に進んでいます。つまり、企業がGoogle Cloudとパートナーシップを結ぶと、最新かつ最高の技術を優先し、安全性とセキュリティを確保しながら共同の探求に乗り出すことになります。変化し続ける生成AIの世界では、この取り組みは非常に重要な意味を持ちます。 今年早いうちに、Google Cloudは常時 AI コラボレータである Duet AI を、Google Workspace から Google Cloud Platform に至るまで、その製品一連に統合しました。この画期的な進展は、Vertex AI に対する重要な進歩と組み合わされ、お客様に対して安全で安心感のある方法で生成AIの基盤モデルで実験や構築ができるようにしました。その結果、多種多様な業界から革新的なユースケースが生まれています。 Google Cloudが取り組む重要な側面の1つは、生成AIの文脈において知的財産コンピードの問題を検討しています。特に、著作権の問題が生じる場合に顧客が直面する可能性のある法的リスクをGoogle Cloudは認識しています。そのため、Google Cloudは画期的な2つの手法を開発し、新たな業界基準を設定しました。この手法は、顧客が生成AI製品を展開する際に、より安全かつ自信を持って行えるようにすることを目指しています。 最初の手法は、Googleのトレーニングデータの利用に焦点を当てています。このコンピードは新しい保護ではありませんが、Google Cloudがサービスの背後に立つことへの揺るぎない取り組みを裏付けています。これは生成AIの提供を含む、すべてのサービスに適用され、すべての顧客に対するサードパーティの知的財産コンピード基準となります。この保証は、Googleがトレーニングデータを生成モデルの構築に利用することが第三者の知的財産権侵害につながるとする主張に対処します。要するに、この保証は強力な保護手段として機能し、サービスの基盤となるトレーニングデータに関係なく、Googleが顧客を明確に保護することを保証します。…
GoogleのAIがPaLI-3を紹介:10倍も大きい似たモデルと比べて、より小型、高速、かつ強力なビジョン言語モデル(VLM)です
ビジョン言語モデル(VLM)は、自然言語理解と画像認識の能力を組み合わせた高度な人工知能システムです。OpenAIのCLIPやGoogleのBigGANのように、VLMはテキストの説明を理解し、画像を解釈することができるため、コンピュータビジョン、コンテンツ生成、人間との対話など、さまざまな分野での応用が可能です。VLMは、視覚的なコンテキストでテキストを理解し生成する能力を示し、AIの分野で重要なテクノロジーとなっています。 Google Research、Google DeepMind、Google Cloudの研究者は、分類と対照的な目標で事前学習されたVision Transformer(ViT)モデルと比較し、特にSigLIPベースのPaLIがマルチモーダルタスクで優れた成果を上げていることを明らかにしました。研究者たちは、2兆パラメータのSigLIP画像エンコーダをスケーリングし、新たなマルチリンガルクロスモーダル検索の最先端を実現しました。彼らの研究は、分類スタイルのデータではなく、ウェブ規模の画像テキストデータでビジュアルエンコーダを事前学習することの利点を示しています。PaLI-Xのような大規模ビジョン言語モデルの分類事前学習の拡大による利点が明らかになっています。 彼らの研究では、VLMのスケーリングについて詳しく説明し、実用性と効率的な研究の重要性を強調しています。彼らは競争力のある結果を出すために、5兆パラメータのPaLI-3というモデルを導入しました。PaLI-3のトレーニングプロセスは、ウェブスケールのデータでの対照的な事前トレーニング、改善されたデータセットのミキシング、およびより高解像度のトレーニングを含んでいます。さらに、2兆パラメータのマルチリンガルな対照的なビジョンモデルも紹介されています。脱落研究は、特に位置特定や視覚に関連するテキスト理解のタスクにおいて、対照的な事前学習モデルの優越性を確認しています。 彼らのアプローチでは、事前学習済みのViTモデルを画像エンコーダとして使用し、特にViT-G14を使用しています。ViT-G14は約2兆パラメータを持ち、PaLI-3のビジョンのバックボーンとなります。対照的な事前トレーニングでは、画像とテキストを別々に埋め込み、それらの対応を分類します。ViTの出力からのビジュアルトークンは、テキストトークンと組み合わされます。これらの入力は、タスクに固有のプロンプト(VQAの質問など)によって駆動される、30億パラメータのUL2エンコーダ-デコーダ言語モデルによって処理されます。 PaLI-3は、特に位置特定と視覚的に配置されたテキストの理解において、より大きなモデルと比較して優れています。対照的な画像エンコーダの事前トレーニングを持つSigLIPベースのPaLIモデルは、新たなマルチリンガルクロスモーダル検索の最先端を確立しています。フルのPaLI-3モデルは、リファリング表現のセグメンテーションの最新技術を凌駕し、検出タスクのサブグループ全体で低いエラーレートを維持しています。対照的な事前トレーニングは、位置特定タスクにおいてより効果的です。PaLI-3のViT-G画像エンコーダは、複数の分類およびクロスモーダル検索タスクで優れています。 まとめると、彼らの研究は、SigLIPアプローチによる対照的な事前トレーニングの利点を強調し、高度で効率的なVLMを実現します。より小規模な5兆パラメータのSigLIPベースのPaLI-3モデルは、位置特定およびテキスト理解において大きなモデルよりも優れており、さまざまなマルチモーダルベンチマークで優れた成果を上げています。PaLI-3の画像エンコーダの対照的な事前トレーニングは、新たなマルチリンガルクロスモーダル検索の最先端を実現しています。彼らの研究は、画像エンコーダの事前トレーニング以外のVLMトレーニングのさまざまな側面について包括的な調査が必要であり、モデルのパフォーマンスをさらに向上させる必要性を強調しています。
「大規模言語モデルにおける早期割れに打ち勝てるか?Google AIがパフォーマンス向上のためにバッチキャリブレーションを提案」
大規模な言語モデルは、最近、自然言語理解や画像分類のさまざまなタスクにおいて強力なツールとして登場しています。しかし、これらのLLMは、プロンプトの脆弱性や入力の多重バイアスなど、さまざまな課題を抱えています。これらのバイアスは、フォーマット、話法の選択、およびコンテキスト内での学習に使用される例によって引き起こされることがあります。これらの問題は、予期しないパフォーマンスの低下につながる可能性があるため、効果的に対処することが重要です。 これらの課題に取り組むための既存の取り組みにより、バイアスを緩和し、LLMのパフォーマンスを回復するためのキャリブレーション手法が生まれました。これらの手法は、問題の微妙さに対処しながら、より統一的な視点を追求してきました。このようなソリューションの必要性は、LLMがプロンプトの与え方に敏感であり、テンプレートや話法、ICLの例の順序とコンテンツによって予測が影響を受けることがあるという事実によって強調されます。 Googleの研究者チームは、Batch Calibration(BC)と呼ばれる新しいアプローチを提案しています。BCは、バッチ入力における明示的なコンテキストバイアスを対象とする、直感的で直接的な方法です。他のキャリブレーション手法とは異なり、BCはゼロショットであり、推論フェーズ中にのみ適用されるため、追加の計算コストは最小限です。このアプローチは、少数のラベル付きデータからコンテキストバイアスを適応的に学習するため、数ショットのセットアップに拡張することもできます。 BCの効果は、10以上の自然言語理解と画像分類のタスクを対象とする幅広い実験によって示されています。ゼロショット学習と少数ショット学習の両方のシナリオにおいて、BCは従来のキャリブレーションベースラインを上回ります。その設計のシンプルさと、限られたラベル付きデータから学習する能力により、BCはプロンプトの脆弱性やLLMのバイアスに対処するための実用的な解決策となります。 これらの実験によって得られたメトリクスは、BCが最新のパフォーマンスを提供し、LLMと共に作業する人々にとって有望な解決策であることを示しています。バイアスの緩和と堅牢性の向上により、BCは強力な言語モデルからより効率的で信頼性の高いパフォーマンスを実現するためのプロンプトエンジニアリングのプロセスを簡略化します。 結論として、大規模な言語モデルにおけるプロンプトの脆弱性とバイアスの課題は、バッチキャリブレーション(BC)などの革新的なキャリブレーション手法で効果的に取り組まれています。これらの手法は、コンテキストバイアスを軽減し、LLMのパフォーマンスを向上させるための統一的なアプローチを提供します。自然言語理解と画像分類が進化し続ける中で、BCのような解決策は、バイアスと脆弱性の影響を最小限に抑えながら、LLMのフルポテンシャルを引き出すために重要な役割を果たします。
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.