Search Results OPT

オープンソースLLMの歴史：ベースモデルの改善（パート2）

大規模言語モデル（LLM）に関するオープンソース研究は非常に価値がありますなぜなら、それは強力で影響力のある技術を民主化しようとするものだからですオープンソースのLLMは現在一般的に使用されており、...

ハイパーパラメータの調整：ニューラルネットワーク入門

前の投稿では、ニューラルネットワークがデータを予測して学ぶ方法について話しましたこれには2つのプロセスが関与しています：フォワードパスとバックワードパス、またはバックプロパゲーションとも呼ばれています...

LangChain、Amazon SageMaker JumpStart、およびMongoDB Atlasの意味検索を利用した検索増強生成

生成AIモデルは、企業の業務を革命化する可能性がありますが、企業はデータの保護やAI生成コンテンツの品質を確保しながら、そのパワーを活用する方法を慎重に考慮する必要があります検索強化生成（RAG）フレームワークは、ドキュメントリポジトリ、データベース、APIなど、複数のソースからの外部データをプロンプトに追加することで、アイデアの生成を支援します

「Amazon Bedrock のエージェント付きカスタマーサービスボットの基盤モデル（FM）を構築する」

会話エクスペリエンスの向上からエージェントのサポートまで、生成型人工知能（AI）と基盤モデル（FMs）は、より速く、より良いサポートを提供するためのさまざまな方法があります FMsの利用可能性と多様性が増しているため、最新のモデルバージョンで実験を行い、最新情報を追いつくのは困難です Amazon Bedrockは完全管理されたサービスであり、[…]

「Amazon Rekognitionを使用して、Amazon IVSライブストリームを適度に制御する」

「アマゾンインタラクティブビデオサービス（Amazon IVS）は、迅速かつ簡単なセットアップを提供するために設計されたマネージド型のライブストリーミングソリューションであり、インタラクティブなビデオ体験の構築や、インジェスションから配信までのインタラクティブなビデオコンテンツを処理しますライブストリーミングの利用が増えるにつれて、効果的なコンテンツモデレーションの必要性もますます重要になります[…]」

「AIの世界に向けたPythonの再設計」

「MojoはPythonと同じ構文を持っていますが、最大で35,000倍速く実行されます」

広州からロサンゼルスまで、自動車メーカーはAI技術を搭載した車両で驚きと感動を与えています

車好きには朗報です：現在から来週まで開催される2つの著名な自動車ショーが、AIによってパワードされた次世代の自動車デザインの展示で参加者を喜ばせています。世界中の何十万人もの自動車愛好家が、花の都として知られる中国の広州を訪れることが予想されます。その自動車ショーは、11月26日（日曜日）まで開催されます。このイベントでは、電気自動車（EV）や自動運転の新しい発展が紹介され、1100台の車両が展示されます。そして世界中で、天使の都であるロサンゼルスでは、今回のショーが史上最多の参加者数に達することが予想されています。11月26日まで開催されるこの展示会では、私設のコレクションからのクラシックでエキゾチックな車両のほか、最新のEVに試乗できる一般公開テストトラックも備えています。オートグアンジョウ Human Horizons、NEO、ZEEKR 最も期待されているのは、9月に発売された新しいフルエレクトリック車のEmeya Hyper-GTを披露するLotusです。この見事な高級車はスポーツカーの機動性を備え、デュアルのNVIDIA DRIVE Orinプロセッサによってパワードされた印象的な一連のインテリジェントな機能を実現しています。高性能な処理能力により、ドライバーは安全で確実な運転能力を楽しむことができ、オーバーザエア（OTA）のアップデートを通じて将来の機能もサポートします。安全性を重視して、Emeyaには最新の34個の周囲センサーが搭載され、多様かつ冗長なセンサーデータ処理をリアルタイムで行います。これにより、運転者はハンドルを握る際により一層の自信を持つことができます。Emeyaはバック側にDRIVE Orinが埋め込まれており、高度な運転支援システム（ADAS）の機能を提供し、自律走行の未来をサポートするヘッドルームも提供します。 Emeya Hyper-GTは、Lotusの革新的なElectric Premium Architecture上に構築されており、同じくNVIDIA DRIVE OrinによってパワードされるEletre Hyper-SUVもサポートしています。さらに、Lotusはエヴィヤハイパーカー、Eletre Hyper-SUV、最近発売された電動自転車であるタイプ136など、Lotusの電動車全体のラインアップも披露しています。また、エミラというLotusの最後の内燃機関車両も展示されています。 NVIDIA DRIVEエコシステムの他のメンバーも、オートグアンジョウで次世代のEVを特集しています： DENZAは、BYDとメルセデス・ベンツの合弁企業である、N7モデルラインアップのインテリジェントドライビング機能を強調しています。すべてのN7モデルにはNVIDIA…

このAI論文では、大規模なマルチモーダルモデルの機能を拡張する汎用のマルチモーダルアシスタントであるLLaVA-Plusを紹介しています

“`html 多様な現実世界の活動を効率的に実行できる汎用アシスタントを作成することは、長年にわたり人工知能の目標となってきました。最近では、新しいマルチモーダルな理解とオープンワールドの課題における生成スキルを持つ基礎モデルの創造に関心が高まっています。自然言語タスクのための汎用アシスタントを生成する大規模言語モデル（LLMs）の有効性にもかかわらず、コンピュータビジョンとビジョン言語の活動に対するマルチモーダルで汎用性の高いアシスタントの作成方法はまだ見つかっていません。マルチモーダルなエージェントを作成する現在の取り組みは、一般に2つのグループに分けることができます： (i) LLMを使用したエンドツーエンドのトレーニング。これにより、ビジュアル情報を解釈するためのLLMのトレーニングが連続的に行われ、画像テキストデータとマルチモーダルな命令実行データを使用して大規模なマルチモーダルモデル（LMMs）が作成されます。LLaVAやMiniGPT-4などのオープンソースのモデル、およびFlamingoやマルチモーダルGPT-4などの非公開のモデルは、印象的なビジュアル理解と推論スキルを示しています。これらのエンドツーエンドのトレーニングのアプローチは、LMMが状況に応じた学習などの新たなスキルを獲得するのには適していますが、実際の世界のマルチモーダルアプリケーションに不可欠な画像セグメンテーションや生成などの幅広い能力をシームレスに統合できる一貫したアーキテクチャを作成することはまだ難しい課題です。 (ii) LLMを使用したツールチェイン。これにより、LLMがトレーニングされたビジョンモデルなどのさまざまなツールを呼び出して必要な（サブ）タスクを実行することができるように、適切に設計されたプロンプトを使用します。VisProg、ViperGPT、Visual ChatGPT、X-GPT、MM-REACTなどがよく知られています。これらのアプローチの強みは、（新しい）ツールを安価に開発しAIエージェントに統合することで、さまざまなビジュアルタスクを処理できる能力です。ただし、プロンプトの柔軟性と信頼性を向上させる必要があります。広範で多様なツールセットから適切なツールを信頼性高く選択し、アクティブ化して最終的なマルチモーダルタスクの解決策を提供できるようにするためです。図1：LLaVA-Plusが習得したスキルを活用した可能性を示すグラフィカルな表現。清華大学、マイクロソフトリサーチ、ウィスコンシン大学マディソン校、香港科技大学、およびIDEA Researchの研究者は、この論文で、LLaVA-Plus（大規模な言語とビジョンアシスタント）を紹介しています。このマルチモーダルアシスタントは、視覚的な指示の微調整を通じてLMMの能力を体系的に強化するエンドツーエンドのトレーニング手法を用いてツールの使用スキルを獲得します。これまでに説明されたツールチェインとエンドツーエンドのトレーニングの利点を組み合わせる試みとして、これが初めて文書化された試みであると述べています。LLaVA-Plusに付属するスキルリポジトリには、多様なビジョンとビジョン言語のツールが豊富に用意されています。この設計は、「心の社会」という理論の例であり、個々のツールは特定のタスクのために作成され、それ単体では限定的な利用が可能ですが、これらのツールが組み合わさると、より高い知性を示す新たなスキルが生まれます。例えば、LLaVA-Plusはユーザーのマルチモーダルな入力に応じて、新しいワークフローを即座に作成し、スキルライブラリから適切なツールを選択してアクティブ化し、その実行結果を組み立てて、モデルトレーニング中には見えない様々な実世界のタスクを完了することができます。指示の微調整により、LLaVA-Plusは時間の経過とともに追加の機能やインストゥルメントを獲得することが可能です。特定のユースケースや機能のために作成された新しいマルチモーダルツールを考えてみてください。調整のための指示実行データを作成するために、このツールを必要とする関連するユーザー指示とその実行結果または後続結果を収集します。指示の微調整後、LLaVA-Plusはこの新しいツールを使用して以前には不可能だったジョブを達成する方法を学習し、より多くの機能を獲得します。 “` さらに、LLaVA-Plusは、マルチモーダルツールと組み合わせて視覚的な手がかりのみを使用することによって、これまでのLLMのツール使用トレーニングに関する研究とは異なるアプローチを取っています。一方、LLaVA-Plusは、すべての人間-AI接触セッションで未処理の視覚信号を使用することにより、LMMの計画と推論の能力を向上させます。要約すると、彼らの論文の貢献は以下の通りです： • 新しいマルチモーダルの指示従属ツールに関するデータの使用。ChatGPTとGPT-4をラベリングツールとして使用し、人間-AIインタラクションセッションでのツールとして使用するための視覚言語の指示従属データの選択のための新しいパイプラインを説明しています。 • 新しい大規模なマルチモーダルヘルパー。彼らはLLaVAを補完する広範で多様な外部ツールの統合を含む、多くの用途を持つLLaVA-Plusを作成しました。図1は、LLMの可能性を大幅に拡張するLLaVA-Plusの様子を示しています。彼らの実証調査は、特に幅広い実世界の活動におけるVisiT-Benchでの新しいSoTAのより良い結果を一貫して示すことにより、LLaVA-Plusの有効性を確認しています。 • ソースフリー。彼らが公開する資料には、生成されたマルチモーダルの指示データ、コードベース、LLaVA-Plusのチェックポイント、およびビジュアルチャットデモが含まれます。

「10の方法-人工知能が安全なアプリ開発を形作る」

「人工知能は、アプリ開発を含むさまざまな産業を革新しましたアプリは、マルウェア攻撃やデータ漏えい、プライバシーの問題、ユーザー認証の問題など、多くのセキュリティ上の問題に直面していますこれらのセキュリティの課題は、ユーザーデータのリスクだけでなく、アプリ開発者の信頼性にも影響を与えます人工知能をアプリ開発ライフサイクルに統合することで、セキュリティ対策を大幅に強化することができます[...]」

AI/MLを活用した観測性の向上

「AIOpsの世界でのパフォーマンス分析の変革について詳しく学び、AI/MLとAIOpsの融合が観測性の新時代をもたらした方法についてさらに知る」

Learn more about Search Results OPT - Page 27