Learn more about Search Results Go

Googleは独占禁止法訴訟で敗訴:ビッグテックにとって何を意味するのか?

「エピックゲームズが検索大手との法的闘争に勝利した事は画期的な勝利であり、同社の強さと決断力を示す重要な節目となりました」

Google AIはPixelLLMを提案します:細かい粒度のローカリゼーションとビジョン・ランゲージのアラインメントが可能なビジョン・ランゲージモデル

大規模言語モデル(LLMs)は、自然言語処理(NLP)、自然言語生成(NLG)、コンピュータビジョンなど、人工知能(AI)のサブフィールドの力を活用しています。LLMsにより、画像について複雑な推論を行い、画像に関するクエリに応答し、自然言語で画像を説明することが可能になりました。しかし、LLMsが単語の位置特定や位置の参照などの位置情報タスクを実行できるかはまだ不確かです。 この課題を解決するため、Google ResearchとUC San Diegoの研究チームが、PixelLLMという賢いモデルを導入し、細かい位置情報と画像-言語の整合性を実現することが可能になりました。このアプローチは、特に赤ちゃんがジェスチャーや指さし、命名などで自然に自分の視覚環境を説明する方法に着想を得ています。チームは、LLMsが視覚入力から空間的理解と推論をどのように派生できるかを見つけることを目標としていると共有しています。 PixelLLMは、言語モデルの各単語出力をピクセルの位置に密接に対応させます。これには、単語特徴の上に小さなマルチレイヤーパーセプトロン(MLP)が追加され、各単語のピクセル位置に回帰できるようになっています。低ランクのファインチューニング(LoRA)が使用され、言語モデルの重みを更新または凍結することができます。モデルはテキストまたは場所のプロンプトも受け取ることができ、プロンプトに合わせた出力を提供できます。 モデルのアーキテクチャには、画像エンコーダ、プロンプトエンコーダ、およびプロンプト特徴抽出器が含まれています。大規模言語モデルは、プロンプトに基づいた画像特性とオプションのテキストプロンプトを入力とし、単語ごとの位置特定とキャプションという形で出力します。言語または位置の様々な組み合わせを入力または出力として受け取る能力により、アーキテクチャは幅広い視覚言語活動に適応できます。 チームは、密なオブジェクトキャプショニングや位置条件付きキャプショニング、位置の参照など、よく知られたビジョンタスクを使用してモデルを評価しました。89.8 [email protected]のRefCOCOを参照した位置情報、Visual Genome条件付きキャプショニングの19.9 CIDEr、密なオブジェクトキャプショニングの17.0 mAPなど、優れたパフォーマンス指標を持つPixelLLMは、さまざまな課題において最先端の結果を示しています。ピクセルごとの密な位置特定の定式化が重要であることは、RefCOCOでの収縮研究によって示されており、他の位置特定の定式化に比べて3.7ポイントの利益を上げています。したがって、PixelLLMは正確なビジョン-言語の整列と位置情報を達成することに成功しています。 チームは、主な貢献を以下のようにまとめています。 「PixelLLM」という新しいビジョン-言語モデルを紹介し、単語の位置特定と画像キャプションを生成する。 モデルは、画像入力に加えてテキストまたはオプションの場所の手がかりをサポートします。 位置特定のトレーニングには、ローカル化されたナラティブデータセットが使用されました。 セグメンテーション、位置条件付きキャプショニング、参照位置、密なキャプショニングなど、さまざまなビジョン-言語タスクに適応することができます。 位置条件付きキャプショニング、密なキャプショニング、参照位置とセグメンテーションで優れた成果を示しました。

「MongoDBの時系列コレクションとAmazon SageMaker Canvasで洞察力の向上を加速する」

これは、MongoDBのBabu Srinivasanと共同執筆したゲスト投稿です現在の急速に変化するビジネスの風景では、リアルタイムの予測を行う能力の欠如は、正確かつタイムリーな洞察に重要な依存をする産業にとって、重要な課題をもたらしますさまざまな産業におけるリアルタイムの予測の欠如は、意思決定に重要な影響を与える切迫したビジネスの課題を提起します

『中にFunSearch:GoogleのDeepMindの新しいLLM、新しい数学とコンピューターサイエンスのアルゴリズムを見つけることができる』

新しい科学の発見は、AIモデルにとって最も完全なチューリングテストかもしれません新しい科学の方法には、多くの分野からの知識を組み合わせた複雑な推論スキルや、常に実験を行う必要があります...

Google AIがMedLMを導入:医療業界の利用事例に特化したファミリー型基盤モデル

Googleの研究者たちは、現在米国で利用可能な医療業界のために調整されたモデルの基礎であるMedLMを紹介しました。これは、Googleの医療と医学における以前の研究であるMed-PaLM 2という医用に調整された大規模言語モデルに基づいて構築されています。MedLMには、別々のエンドポイントを持つ2つのモデルがあり、顧客にさまざまなユースケースに対する柔軟性を提供します。MedLMは、医療の質問応答や要約に優れた性能を発揮します。 最初のモデルは大きなバリアントで、複雑なタスクを処理するために設計されています。一方、二番目のVoAGIサイズのモデルは、微調整やさまざまなアプリケーションへのスケーラビリティに対して柔軟性を提供します。特定の医療と生命科学の要件に基づいて設計されたこれらのモデルは、基本的な機能から洗練されたワークフローまで、医療におけるAIの採用を強化することが期待されています。 Googleは、HCA Healthcare、BenchSci、Accenture、およびDeloitteと協力し、既存のプロジェクトでのパフォーマンスと効率を向上させるためにMedLMを活用しています。HCA Healthcareとの協力により、MedLMはAugmedixのプラットフォームに統合されています。MedLMの技術を活用したこのアプリは、自然言語処理を使用してクリニシャンと患者の会話をドラフト医療ノートに変換し、医療規制に準拠します。この自動化は、パフォーマンスを向上させるだけでなく、時間の節約、バーンアウトの軽減、そして患者ケアの向上にも貢献します。 BenchSciは、前臨床の研究開発の領域で、ASCENDプラットフォーム内でMedLMを活用しています。目標は、前臨床研究のスピードと品質を向上させることにより、薬の発見を加速することです。ASCENDは、AIパワーのエビデンスエンジンであり、MedLMと協力してバイオマーカーの識別と分類を強化し、科学的な発見プロセスを効率化しています。 Accentureとの協力により、Googleは生成型AIを活用して患者のアクセス、体験、および結果を向上させることを目指しています。Google CloudのClaims Acceleration SuiteとMedLMを統合することで、医療機関は新しい洞察を発見し、最終的にはより良い患者結果につながることができます。MedLMの機能をパイロット導入することにより、DeloitteとGoogle Cloudは、プロバイダディレクトリや福利厚生文書からの情報の簡素化を図り、さまざまな基準に基づいて適切なプロバイダを特定する際にコンタクトセンターエージェントをサポートしています。 これらのプロジェクトすべてが示しているように、MedLMの利用は医療および医学産業におけるAIの成長を支援することができます。Google Researchは、今後数ヶ月間にさらなる機能を提供するために、Geminiベースのモデルを組み込んでMedLMスイートを拡大する予定です。業界のリーダー企業との協力努力は、医療における生成型AIの変革的な可能性を示しています。技術が進化するにつれて、Googleは医療現場の開業医、研究者、および医療組織と緊密に連携し、健康・生命科学における画期的な研究を推進するためにAIの安全かつ責任ある使用を確保することに取り組んでいます。 この投稿は、Google AI Introduces MedLM: A Family of Foundation Models Fine-Tuned…

「UnbodyとAppsmithを使って、10分でGoogle Meet AIアシスタントアプリを作る方法」

「ほぼコードなしで、Google Meetのビデオ録画を処理し、メモを作成し、アクションアイテムをキャプチャするAIのミーティングアシスタントアプリを開発する方法を学びましょう」

Google Gemini APIを使用してLLMモデルを構築する

導入 ChatGPTとOpenAIのGPTモデルのリリース、およびMicrosoftとのパートナーシップにより、AIの領域にTransformerモデルをもたらしたGoogleはみんなが諦めた存在となりました。 GPTモデルがリリースされてから1年以上が経過しましたが、GoogleからはPaLM API以外に大きな動きはありませんでした。PaLM APIもあまり注目されず失敗に終わりました。そしてGoogleが突如として紹介した基盤となるモデルのグループ、Geminiが登場しました。Geminiの発売からわずか数日後、GoogleはGemini APIをリリースしました。このガイドでは、Gemini APIをテストし、最終的にはそれを使用してシンプルなチャットボットを作成します。 学習目標 GoogleのGeminiシリーズの基礎知識を学ぶ。これには異なるモデル(Ultra、Pro、Nano)と、テキストと画像のサポートを中心とする多様性が含まれます。 Gemini Proのチャット・モデルを使用してチャットベースのアプリケーションを作成するスキルを開発し、チャットの履歴を維持し、ユーザーの文脈に基づいて応答を生成する方法を理解する。 Geminiが安全であるために、不安全なクエリを処理し、さまざまなカテゴリの安全性評価を提供することにより、責任あるAIの使用を保証する方法を探索する。 Gemini ProとGemini Pro Visionモデルを使用した実践的な経験を積み、画像の解釈と説明を含む、テキスト生成とビジョンに基づく機能を探索する。 Gemini APIとLangchainを統合して、相互作用のプロセスを簡素化する方法を学び、複数のクエリを効率的に処理するための入力と応答のバッチ処理について学ぶ。 この記事はデータサイエンスブログサラソンの一部として公開されました。 Geminiとは何ですか? Geminiは、Googleが構築し導入した新しい基盤モデルのシリーズです。これはこれまでのPaLMと比べて最も大きなモデルセットであり、最初から多様性に焦点を当てて構築されています。これにより、Geminiモデルはテキスト、画像、オーディオ、ビデオなどの異なる情報タイプの組み合わせに強力です。現在、APIは画像とテキストのサポートを提供しています。Geminiは、ベンチマークで最先端のパフォーマンスを達成し、多くのテストでChatGPTとGPT4-Visionモデルを上回っています。 Geminiには、サイズに基づいて3つの異なるモデルがあります。サイズの順に、Gemini Ultra、Gemini Pro、Gemini…

「NYUとGoogle AIの研究者が、機械学習の先進的な演繹的推論のフロンティアを探る」

多くの割引ルールの使用とサブプルーフの構築により、証明の複雑さは医療診断や定理の証明などの多くの論理推論の課題において無限に発展することができます。巨大な証明領域のため、すべてのサイズの保証をカバーするためのデータを見つけることは実際的ではありません。したがって、基本的な証明から始めて、一般的な推論モデルはより複雑な証明へと拡張することができるはずです。 NYUとGoogle AIの研究者のチームは、インコンテキストの学習(ICL)と思考連鎖(CoT)のプロンプトを使用してトレーニングされた場合、LLMsが論理的な推論を行うことができることを実証しました。過去の研究では、モーダスポネンスなどの一部の割引ルールが主な焦点でした。評価もデモンストレーション中であり、テストケースはインコンテキストのデモンストレーションと同じ分布から抽出されたものです。 LLMsがデモンストレーションよりも洗練された証明を一般化できる能力は、ニューヨーク大学、Google、ボストン大学の研究者による新しい研究のテーマです。学者は証明を以下の3つの次元で分類します: デモンストレーションの各ステージで使用される前提の数。 証明を構成する一連の手順の長さ。 使用される割引ルール。 証明の総サイズはこれらの3つの次元の関数です。 このグループは、LLMsの一般的な論理的推論能力を評価するために、以前の研究を2つの重要な点で拡張しています。モーダスポネンス以外の割引ルールもマスターしているかどうかをテストします。彼らの推論能力は次の2つの方法でテストされます: 深度と幅の一般化では、インコンテキストの例よりも長い証明に対する推論が行われます。 構成的一般化では、1つの証明で多くの割引ルールを使用します。 彼らの研究によると、基本的な例を提示することで、論理的な推論タスクはインコンテキストの学習から最も利益を得ることができます。モデルが適合しすぎないようにするためには、インコンテキストの例に、証明において未知の割引の原則(例:ケースによる証明や反証による証明など)が含まれる必要があります。さらに、これらの例には迷彩要素も含まれている必要があります。 研究結果によると、CoTはLLMsにおける組成的証明へのOOB推論を引き起こすことができます。これらのLLMsには、スケールとトレーニング目標が異なるGPT-3.5 175B、PaLM 540B、LLaMA 65B、FLAN-T511Bが含まれています。この発見は驚くべきものであり、LLMsには組成的一般性がないとする文献の豊富さを考えると意外です。ICLは、インコンテキストのサンプルに対する監督学習とは異なる方法で一般化します。テスト例と同じ分布からのインコンテキストの例を与えることは明らかに悪影響です。たとえば、インコンテキストの例に特定の割引ルールが組み込まれている場合、研究者は時折、組成的証拠へのより高度な一般化が見られました。 事前学習では、モデルに仮説的なサブプルーフを作成させることはありません。具体的な例がないと、LLMsは特定の割引ルール(例:ケースによる証明や反証による証明など)を一般化することはできません。モデルのサイズとパフォーマンスの関係は弱いです。指導の調整とより長い事前学習により、より小さなモデル(最小ではなく比較可能なもの)がより大きなモデルと競合することができます。 ICLとCoTのトリガリングプロセスをさらに理解するために、研究者は今後の調査において重要な領域に注目しています。彼らは、最良のインコンテキストの例が、テスト例自体とは異なる分布から得られることを発見しました。ベイズ推論と勾配降下はこれを考慮していません。彼らは、テストケースがやや洗練されているにもかかわらず、よりシンプルな例がより良く機能するかどうかを調査することに興味を持っています。具体的なインスタンスからの外挿をさらに特徴づけるためには、追加の研究が必要です。

GoogleのAIスタジオ:ジェミニの創造的な宇宙への入り口!

Googleは、AI Studioの発売を通じて、開発者向けの画期的な革新を実現しました。このWebベースのプラットフォームは、Gemini AIモデルへのシームレスなアクセスを提供することを目指しています。この革新により、Gemini Proの先進的な自然言語生成能力を活用して、チャットボット、アプリケーション、さまざまなソフトウェアの開発と展開が革新されることになります。 AIスタジオのお披露目- Geminiエコシステムへの入り口 AI Studio(以前はMakerSuiteとして知られる)は、Googleの広範なGeminiエコシステムへの重要な入り口として立ち上がっています。開発者は、Gemini Proと今後のGemini Ultraモデルの力を利用するチャンスがあります。無料の使用クォータ、コードライブラリ、必要なツールを提供するAIスタジオは、クリエイティブな創造とアプリケーションの公開に適した環境を提供します。 改良と価格設定の構造 この改良されたプラットフォームは、以前のものと比べて重要な改善が加えられており、セーフティ、プロンプト、出力スタイルの調整コントロールを備えています。価格設定は、OpenAIのGPT-3.5 Turbo LLMと競合するよう戦略的に位置付けられており、透明性とアクセシビリティが確保されています。開発者は、Gemini Proモデルの入力1,000文字あたり0.00025ドル、出力1,000文字あたり0.0005ドルの公正な価格設定を期待することができます。 開発者の体験 Google AI Studioは、使いやすいインターフェースで開発プロセスを簡素化します。開発者は、モデルを選択し、クリエイティブなパラメータを微調整し、トーンやスタイルの指示をシームレスに統合することができます。一分間あたり60リクエストの無料クォータが提供されるため、開発者は制約なくアイデアを繰り返すことができます。AI Studioからコードへの移行も容易に行えるため、さまざまな開発環境でスムーズなワークフローが実現できます。 Vertex AIとの統合と将来のロードマップ AI Studioの注目すべき特長の一つは、GoogleのVertex…

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us