Learn more about Search Results ML - Page 305

マルチモーダル言語モデルの解説:ビジュアル指示の調整

「LLMは、多くの自然言語タスクでゼロショット学習とフューショット学習の両方で有望な結果を示していますしかし、LLMは視覚的な推論を必要とするタスクにおいては不利です...」

「Amazon SageMakerに展開された生成AIを使用して創造的な広告を生成する」

創造的な広告は、生成AI(GenAI)によって革命を起こす可能性がありますGenAIモデルを再トレーニングし、テキストのプロンプト(シーンやモデルによって生成されるオブジェクトを説明する文)など、モデルにいくつかの入力を提供することで、製品写真などの新しい画像の幅広いバリエーションを作成できるようになりました

KPMGのジェネレーティブAIの未来への飛躍

驚くべき出来事の中で、コンサルティングと金融の世界は、生成型AIの台頭により、変革の旅を経験しています。ビッグフォーの会計事務所であるKPMGは、この最先端の技術を取り入れて業務を強化するために、注目を集めています。MicrosoftとのAIパートナーシップに20億ドルを投資し、Google Cloudとの協力も重ねることで、KPMGは業界のイノベーションの新たな時代を告げています。KPMGの生成型AIの旅と将来への潜在的な影響を探求しましょう。 また読む:2023年の銀行と金融における機械学習とAIの応用 KPMGにおける生成型AI:大胆な一手 過去の1年間で、コンサルティングと金融セクターは、不確実性から興奮へと移り変わりました。この業界で一線を画する存在であるKPMGは、ChatGPTに類似した生成型AIの力を活用して、独自のデータを活かした社内システムを開発し、効率と洞察を向上させています。AIへの情熱はそれにとどまらず、最近ではMicrosoftとのAI提携に20億ドルの大規模な投資を発表しました。これは、KPMGが2019年にAIを含む先進技術に5年間で50億ドルを費やすという早期の取り組みの後に行われたものです。 また読む:MicrosoftがNo-CodeアプリビルダーBuilder.aiに投資 変革の波:ビッグフォーにおける生成型AIの影響 KPMGは、生成型AIの優れた取り組みにおいて孤立しているわけではありません。PwCもまた使命を持っており、次の3年間で米国の業務における生成型AIを推進するために10億ドルを割り当てる計画を立てています。MicrosoftとOpenAIと提携することで、PwCは税務、監査、コンサルティングの機能を革新し、主要な業務を自動化することを目指しています。効率、コスト削減、新しい視点への追求により、これらの企業内の複数のチームが革新し、AIと生成型AIのアプリケーションを開発しています。 また読む:アメリカの株式市場が人工知能(AI)からの後押しを受ける 生成型AIの力を明らかにする 先月、KPMGとMicrosoftはプロフェッショナルサービスをAI時代に押し上げるために連携しました。このパートナーシップは、監査、課税、アドバイザリー部門のクライアントエンゲージメントを合理化するために生成型AIを活用しています。MicrosoftのクラウドとAzure OpenAIサービスを活用することで、KPMGはこれらのサービスを5年間で20億ドル投資して拡大することを目指しています。さらに、今年の初めにGoogle Cloudとの協力を発表したことで、KPMGはクラウドコンピューティングとデータ分析の専門知識をGoogle Cloudの高度なインフラストラクチャと生成型AIの能力と融合させることを約束しています。 また読む:AWSとAccelが「ML Elevate 2023」を立ち上げ、インドのAIスタートアップエコシステムを支援 選択プロセスの解説:GenAIプロバイダーとの協力 KPMGインドのパートナーであるSachin Arora氏によれば、生成型AIサービスプロバイダーの選択には、評判、カスタマイズ性、データプライバシー、スケーラビリティ、倫理的な考慮事項、コストなどの重要な要素を考慮する必要があります。これは、成功したGenAIの統合のために適切なパートナーを選ぶことの重要性を示しています。 GenAI解放:KPMGの革新的なアプローチ KPMGの生成型AIの統合は、オープンソースのベクトル埋め込みとデータベースの活用に焦点を当てています。この戦略により、組織のデータを広く使用される言語モデルにシームレスに組み込むことができ、迅速な応答と豊かな対話を実現します。このオーダーメイドのフレームワークを活用することで、KPMGは生成型AIを利用して、より良い顧客体験と業務効率を提供する先駆者となっています。 また読む:生成型AIの魅力的な進化 生成型AIの多面的な影響…

「AIがPowerPointと出会う」

この記事では、2023年5月のSnowflake SummitのStreamlit Hackathonで3位を獲得したオープンソースプロジェクトである「Instant Insight」アプリのバックエンドの仕組みについて詳しく説明しますウェブ...

「3D MRIとCTスキャンに使用するディープラーニングモデルは何ですか?」

このような深い洞察を得るために、週のトップML論文、求人情報、実世界の経験に基づくMLのヒント、研究者や開発者からのMLのストーリーなどを含めて、私の参加してください...

「開発者向けのAIツール15個(2023年8月)」

Otter AI 人工知能を使用して、Otter.AIはユーザーにリアルタイムの会議のメモの音声文字起こしを提供し、共有可能で検索可能、アクセス可能、安全なものにします。音声を録音し、メモを書き、スライドを自動的にキャプチャし、要約を生成する会議アシスタントを手に入れましょう。 Notion AI Notionワークスペース内で、AIアシスタントNotionは、創造性、改訂、要約など、さまざまな文章関連のタスクをサポートすることができます。メール、求人募集、ブログ投稿など、さまざまな文章作成タスクのスピードと品質を向上させます。Notion AIは、ブログやリストからブレインストーミングセッションや創作活動まで、さまざまな文章タスクを自動化するために使用できるAIシステムです。NotionのAI生成コンテンツは、ドラッグアンドドロップのテキストエディタを使用して簡単に再編成および変換できます。 Gretel.ai Gretel AIは、実際のデータを模倣しながらユーザーのプライバシーを保護する合成データの作成プラットフォームです。Gretel.aiのAPIを使用すると、プログラマーは匿名化された暗号化された合成データを簡単に作成できます。これにより、プライバシーを保護しながらイノベーションを促進できます。このプラットフォームには、AIモデルを迅速かつ簡単にトレーニングし、ユースケースを検証し、必要に応じてデータを生成するために必要なすべての機能が備わっています。技術的および非技術的なユーザー向けのサンプルノートブックや使いやすいオンラインアプリケーションにより、開発者は合成データを探索できます。Gretel AIを使用して、必要なすべてのプライバシー要件を満たしながら、合成データを利用できるようになります。 Pieces for Developers Pieces for Developersは、AIを活用したスニペットマネージャーです。開発プロセス全体でコードを保存、作成、充実させ、再利用し、配布することができます。デスクトップソフトウェアと既存の開発ツールとの統合スイートにより、ウェブブラウザでの調査、チームとの作業、統合開発環境(IDE)でのコードの記述時に効率を向上させることができます。1つの強力な中央ツールで、特定のリポジトリに合わせたコードを生成したり、スクリーンショットからコードを抽出したり、コードにインラインコメントを自動的に追加したりすることができます。無料リソースを活用して、コーディングの時間と労力を節約しましょう。 LangChain LangChainフレームワークは、ソフトウェアアプリケーションでの大規模な言語モデルの扱いを簡素化するために作成されました。さまざまなコンポーネントに対するモジュラーな抽象化と実装を提供することで、言語モデルの扱いを簡素化します。また、LangChainのユースケース固有のチェーンを使用することで、ドキュメント分析、チャットボット、コード分析などのニッチな用途のアプリを開発者は迅速に作成および調整することができます。つまり、LangChainは、プログラマーに効率的に言語モデルを活用し、先進的なソフトウェアを作成するためのツールを提供します。 YOU You.comは、ユーザーのプライバシーを保護し、個別の検索体験を提供するAIパワードの検索エンジンです。多くの便利なAIパワードの機能と機能を備えたアプリケーションの統合スイートです。YOUwriteを使用して、人工知能を活用してブログ記事、メール、ソーシャルメディアの更新を作成できます。YOUを使用して、美しいAI生成の写真を発見し、作成できます。コードモードAIチャットでは、開発中にコードを書いてアシスタンスを受けることができます。スタディモードチャットを使用して、ウェブ上の資料にアクセスし、学習や新しい能力の獲得を行うことができます。自分自身を知りましょう。 AgentGPT AgentGPTは、ユーザーが作成した自律型AIエージェントの開発と配布を容易にするWebベースのシステムです。ユーザーが名前と目標を指定した後、エージェントは目標を達成するために言語モデルのカスケードを使用して反復的に行動を実行し、結果を評価し、新しい割り当てを作成します。AgentGPTは、さまざまな目標を達成するための個別化されたAIエージェントを構築するための強力なツールを開発者に提供します。 Jam…

Google AI Researchは、正確な時空間の位置情報と密に関連付けられた意味的に正しい豊富なビデオの説明を取得する注釈手法であるVidLNsを提案しています

ビジョンと言語の研究は、最近、特に静止画とそれに対応するキャプションの関連を確立するデータセットにおいて、著しい進展を遂げている動的に進化する分野です。これらのデータセットでは、キャプション内の特定の単語を画像内の特定の領域に関連付けるため、さまざまな方法が使用されています。最新のローカライズド・ナラティブ(ImLN)によって提案される興味深いアプローチは、魅力的な解決策を提供します。アノテーターは画像を口頭で説明しながら、同時にマウスカーソルを話題の領域の上に移動させます。この音声とカーソルの移動の二重プロセスは、自然なコミュニケーションを模倣し、各単語に対して包括的な視覚的基盤を提供します。ただし、静止画は時間の一瞬しか捉えていません。動画への注釈付けの可能性は、複数のエンティティやオブジェクトが動的に相互作用するイベントを示す完全なナラティブを描くため、さらに魅力的です。 この時間のかかる複雑なタスクに対処するために、ImLNを動画に拡張するための強化された注釈付けアプローチが提案されています。 提案された技術のパイプラインは以下に示されています。 この新しいプロトコルにより、アノテーターは制御された環境でビデオのナラティブを作成することができます。アノテーターはまずビデオを注意深く観察し、主要なキャラクター(「男性」や「ダチョウ」など)を特定し、各キャラクターの重要な瞬間を表す鍵フレームを選択します。 その後、各キャラクターごとにナラティブが構築されます。アノテーターは口頭でキャラクターの関与するさまざまなイベントを述べながら、キーフレームの上にカーソルを移動させて関連するオブジェクトとアクションを強調します。これらの口頭の説明には、キャラクターの名前、属性、特にアクションが含まれます。これには、他のキャラクターとの相互作用(例:”ダチョウと遊ぶ”)や無生物のオブジェクトとの相互作用(例:”食べ物のカップを掴む”)も含まれます。包括的なコンテキストを提供するために、アノテーターは別のフェーズで背景の簡潔な説明も行います。 キーフレームを効果的に利用することで、時間制約がなくなり、各キャラクターに対して異なるナラティブを作成することが可能になり、複雑な状況を解明することができます。この解明は、複数のキャラクターが相互におよび多数の受動的なオブジェクトと相互作用する多面的なイベントの包括的な描写を容易にします。ImLNと同様に、このプロトコルは各単語を局所化するためにマウスの軌跡セグメントを活用しています。また、この研究では、前の研究の成果を超える正確な局所化を確保するために、いくつかの追加措置も実装されています。 研究者は、Video Localized Narratives (VidLNs) を使用して異なるデータセット上で注釈付けを行いました。考慮されたビデオは、さまざまなキャラクターや無生物のオブジェクトとの相互作用を特徴とする複雑なシナリオを描いており、詳細な注釈によって説明される魅力的なナラティブが生まれています。以下に例を示します。 VidLNsデータセットの深さは、Video Narrative Grounding (VNG) やVideo Question Answering (VideoQA) などのさまざまなタスクにとって堅牢な基盤を形成しています。新たに導入されたVNGの課題は、入力ナラティブから名詞を局所化し、ビデオフレーム上にセグメンテーションマスクを生成することができるテクニックの開発を必要とします。このタスクは、テキストが頻繁に多重の同一名詞を含むため、周囲の単語からの文脈的手がかりを活用した曖昧さの解消が必要であり、重要な課題です。これらの新しいベンチマークは、完全に解決されるには遠い複雑な課題ですが、提案されたアプローチは正しい方向に向けた意味のある進歩を示しています(詳細は公開された論文を参照してください)。 これは、ビジョンと言語をつなぐ新しい形式のマルチモーダルなビデオ注釈であるVideo Localized Narrativesの概要でした。興味があり、詳細を知りたい場合は、以下に引用されているリンクを参照してください。

マルチモーダル医療AI

Google ResearchのHealth AI部門の責任者であるGreg Corradoと、Engineering and ResearchのVPであるYossi Matiasによって投稿されました。 医学は本質的に多様なモダリティを持つ分野です。医療を提供する際、臨床医は医学画像、臨床ノート、検査結果、電子保健記録、ゲノミクスなど、さまざまなモダリティのデータを解釈することが日常的に行われます。過去10年ほどで、AIシステムは特定のタスクや特定のモダリティにおいて専門家レベルのパフォーマンスを達成してきました。CTスキャンを処理するAIシステム、高倍率の病理スライドを分析するAIシステム、希少な遺伝子の変異を探すAIシステムなどがあります。これらのシステムの入力は画像などの複雑なデータであり、通常は離散的なグレードや密な画像セグメンテーションマスクの形で構造化された出力を提供します。同時に、大規模言語モデル(LLM)の能力と機能は非常に高度になり、医学の知識を理解し、明瞭な言語で解釈および応答することを示しています。しかし、これらの能力を組み合わせてこれらの情報源から情報を利用する医療AIシステムを構築するにはどうすれば良いのでしょうか? 本日のブログ投稿では、LLMに多様なモダリティの能力をもたらすアプローチの範囲を概説し、最近の研究論文で示されている多様なモダリティの医療LLMの構築の実現可能性についての興味深い結果を共有します。これらの論文は、LLMに新たなモダリティを導入する方法、最先端の医学画像基盤モデルを会話型LLMに組み込む方法、そして真の汎用的な多様なモダリティの医療AIシステムの構築への初歩的な取り組みについて説明しています。成功すれば、多様なモダリティの医療LLMは、専門医療、医学研究、消費者向けアプリケーションを横断する新しい支援技術の基盤となる可能性があります。私たちの以前の研究と同様に、これらの技術を医療コミュニティや医療エコシステムとの協力による慎重な評価の必要性を強調します。 アプローチの範囲 最近の数ヶ月間には、多様なモダリティのLLMの構築に関するいくつかの手法が提案されています[1, 2, 3]。さらに新しい手法がしばらくの間続々と登場することでしょう。医療AIシステムに新しいモダリティをもたらす機会を理解するために、3つの広義に定義されたアプローチを考えてみましょう:ツールの利用、モデルの組み込み、汎用システム。 多様なモダリティのLLMを構築するアプローチの範囲は、LLMが既存のツールやモデルを使用することから、ドメイン固有のコンポーネントをアダプタとして利用すること、多様なモダリティのモデルを共同モデリングすることまで広がっています。 ツールの利用 ツールの利用のアプローチでは、中央の医療LLMは各タスクに最適化されたソフトウェアサブシステム(ツール)によるさまざまなモダリティのデータの解析を外部に委託します。ツールの利用の一般的な例は、LLMに計算を自身で行うのではなく、電卓を使用することを教えることです。医療の場合、胸部X線を処理する医療LLMは、その画像を放射線学AIシステムに転送し、その応答を統合することができます。これは、サブシステムが提供するアプリケーションプログラミングインターフェース(API)を介して行うこともできますし、より幻想的には、異なる専門分野を持つ2つの医療AIシステムが会話をすることもできます。 このアプローチにはいくつかの重要な利点があります。サブシステム間の最大の柔軟性と独立性が実現され、ヘルスシステムはサブシステムの検証されたパフォーマンス特性に基づいてテックプロバイダ間で製品を組み合わせることができます。さらに、サブシステム間の人間が読めるコミュニケーションチャネルは、監査可能性とデバッグ可能性を最大化します。ただし、独立したサブシステム間のコミュニケーションをうまく行うことは難しい場合があり、情報の伝達が狭まったり、誤ったコミュニケーションや情報の損失のリスクが発生する可能性があります。 モデルの組み込み より統合されたアプローチとして、各関連する領域に特化したニューラルネットワークを取り、それをLLMに直接組み込むことが考えられます。つまり、ビジュアルモデルを核となる推論エージェントに組み込むことです。ツールの利用とは異なり、モデルの組み込みでは、研究者は開発中に特定のモデルを使用、改良、または開発することができます。Google Researchの最近の2つの論文では、これが実現可能であることを示しています。ニューラルLLMは通常、テキストを最初に単語のベクトル埋め込み空間にマッピングすることでテキストを処理します。両論文は、新しいモダリティのデータを既にLLMに馴染みのある入力単語埋め込み空間にマッピングするというアイデアに基づいています。最初の論文「個別データに基づく健康な多様なモダリティのLLM」では、イギリスバイオバンクでの喘息リスク予測が改善されることを示しています。このために、まず、スパイログラム(呼吸能力を評価するために使用されるモダリティ)を解釈するためのニューラルネットワーク分類器を訓練し、そのネットワークの出力をLLMへの入力として適応させることで実現します。 2つ目の論文、「ELIXR: Towards a general…

マシンラーニングエンジニアは、実際に何をしているのでしょうか?

「タイトルはもちろんトリックの質問ですデータサイエンティストの前にも、機械学習エンジニアというタイトルは、私たちの専門職の求人市場でトレンドとして発展していますが、そこには…」

数値計算のための二分法の使用方法

コンピュータ科学と数学のサブフィールドである数値計算は、コンピュータを用いた数値計算手法とアルゴリズムを用いて数学の問題を解決することに焦点を当てていますこれは…

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us