Search Results 提供しています

この中国のAI研究は、最新のSOTAビジュアル言語モデルGPT-4V(ision)の詳細な評価と自動運転シナリオへの応用を提供しています

上海人工知能研究所、GigaAI、華東師範大学、香港中文大学、WeRide.aiの研究チームは、自律走行シナリオでのGPT-4V(ision)と呼ばれるビジュアル言語モデルの適用可能性を評価しています。GPT-4Vは、シーン理解と因果推論の分野で優れた性能を発揮し、さまざまなシナリオの処理と意図の認識において潜在的な可能性を示しています。方向判断や信号機の認識には依然として課題があり、さらなる研究と開発が必要とされています。この研究は、自動運転の実際の運転状況におけるGPT-4Vの有望な能力を明らかにし、改善のための具体的な領域を特定しています。この研究では、自律運転の状況でGPT-4V(ision)のシーン理解、意思決定、運転能力を評価しています。包括的なテストにより、GPT-4Vは既存のシステムに比べてシーン理解と因果推論の分野で優れたパフォーマンスを示しています。ただし、方向判断や信号機の認識などのタスクには課題が残り、自律運転能力を向上させるためにさらなる研究と開発が求められています。この研究結果は、GPT-4Vの潜在能力を強調し、引き続きの探索と改善の努力を通じて特定の制約に取り組む必要性を強調しています。従来の自律車両へのアプローチでは、オブジェクトの正確な認識と他の交通参加者の意図の理解に課題があります。LLMはこれらの問題に対処する可能性がありますが、視覚データの処理能力に制約があります。GPT-4Vの登場により、自動運転におけるシーン理解と因果推論を向上させる機会が提供されます。この研究は、実際の運転状況で様々な条件の認識と意思決定能力を包括的に評価し、自動運転の将来の研究に基礎的な示唆を提供することを目指しています。この手法は、自律運転シナリオの文脈におけるGPT-4V(ision)の包括的な評価を提供しており、ドライビングシーンの理解、意思決定、ドライバーとしての役割を評価しています。基本的なシーン認識、複雑な因果推論、さまざまな条件下でのリアルタイムの意思決定などのタスクが含まれます。評価には、オープンソースのデータセット、CARLAシミュレーション、インターネットからの選りすぐりの画像やビデオが使用されています。 GPT-4Vは、現行の自律システムに比べてシーン理解と因果推論の能力が向上しており、配布範囲外のシナリオの処理、意図の認識、実際の運転状況での的確な意思決定能力を示しています。ただし、方向判断、信号機の認識、ビジョンの基礎付け、空間推論などの課題が残っています。この評価は、GPT-4Vの能力が既存のシステムを上回っており、自動運転の将来の研究に基礎的な示唆を提供しています。この研究は、自律運転シナリオにおいてGPT-4V(ision)の包括的な評価を行い、既存のシステムに比べてシーン理解と因果推論の優れた性能を明らかにしています。GPT-4Vは、配布範囲外の手順の処理、意図の認識、実際の運転状況での的確な意思決定能力を示し、潜在的な可能性を示しています。ただし、方向判断、信号機の認識、ビジョンの基礎付け、空間推論などの課題が残ります。この研究は、方向判断、信号機の認識、ビジョンの基礎付け、空間推論の課題に対処するための追加の研究と開発の必要性を認識しています。また、最新バージョンのGPT-4Vでは、現在の研究で提示されたテスト結果と異なる応答が得られる可能性があることを指摘しています。

このAI論文は、機械学習パイプライン内のさまざまなタイプの漏えいについて包括的な概要と議論を提供しています

機械学習（ML）は、予測モデリング、意思決定支援、洞察的なデータ解釈を実現することにより、医学、物理学、気象学、気候解析などの分野を大きく変革しました。学習アルゴリズムやデータ操作ツールが豊富に備わったユーザーフレンドリーなソフトウェアライブラリの普及により、MLを基盤としたソフトウェアの成長が促進され、学習の障壁が大幅に低下しました。これらのツールは使いやすさを提供しますが、データ、前処理、特徴エンジニアリング、パラメータ最適化、モデル選択における特定の要件のためのカスタマイズが必要となるため、カスタムのMLベースのデータ分析パイプラインの構築は依然として課題です。見た目には簡単なMLパイプラインでも、誤って構築または解釈されると致命的な結果につながる可能性があります。したがって、MLパイプラインにおける再現性が正確な推論を保証するものではないということを強調することが重要です。これらの問題に取り組むことは、アプリケーションの向上とML手法の社会的な受け入れを促進する上で重要です。この議論は特に教師あり学習に焦点を当てており、ユーザーは特徴-ターゲットのペアとして提示されたデータを扱います。多くのテクニックやAutoMLにより、高品質なモデルの構築が民主化されましたが、この作業の範囲の限界を把握することが重要です。MLにおける包括的な課題であるデータの漏洩は、モデルの信頼性に大きな影響を与えます。漏洩の検出と防止は、モデルの正確性と信頼性を確保するために重要です。テキストでは、包括的な例、データ漏洩の事例の詳細な説明、および同定に関するガイダンスが提供されます。集合的な研究では、ほとんどの漏洩の事例に基づいていくつかの重要なポイントが提示されています。この研究は、Institute of Neuroscience and Medicine、Institute of Systems Neuroscience、Heinrich-Heine-University Düsseldorf、Max Planck School of Cognition、University Hospital Ulm、University Ulm、Principal Global Services（India）、University College London、London、The Alan…

「365データサイエンスは、11月20日まで無料のコースアクセスを提供しています」

11月6日（0700 PST）から11月20日（0700 PST）まで、365 Data Scienceの包括的なカリキュラム、インタラクティブなコース、実践的なデータプロジェクトへの無制限の無料アクセスをお楽しみくださいまた、業界で認められた証明書を無料で取得することもできます

Partners

T-Mobile US株式会社は、Amazon TranscribeとAmazon Translateを通じて人工知能を利用し、顧客の希望する言語でボイスメールを提供しています

この投稿は、T-Mobile US, IncのシニアシステムアーキテクトであるDhurjati Brahma、T-Mobile US, Incの主任エンジニア/アーキテクトであるJim Chao、およびT-Mobile US, IncのアソシエイトシステムアーキテクトであるNicholas Zellerhoffによって共著されましたT-Mobile US, Inc.は、お客様にボイスメールをテキストに変換するサービスを提供しており、お客様は素早くボイスメールを読むことができます

オラクルクラウドインフラストラクチャは、新たなNVIDIA GPUアクセラレートされたコンピュートインスタンスを提供しています

生成的AIと大規模な言語モデル(LLM)による画期的なイノベーションを実現するために、トレーニングと推論の計算上の要求が急速に増加しています。これらの現代の生成的AIアプリケーションには、スピードと正確性を持つ大規模なワークロードを処理できる最新のインフラストラクチャが必要です。このニーズに応えるため、Oracle Cloud Infrastructureは、NVIDIA H100 Tensor Core GPUをOCI Computeで一般提供することを発表しました。また、NVIDIA L40S GPUも近日中に一般提供される予定です。 OCIでのNVIDIA H100 Tensor Core GPUインスタンス NVIDIA H100 GPUを搭載したOCI Computeベアメタルインスタンスは、NVIDIA Hopperアーキテクチャを搭載しており、大規模なAIとハイパフォーマンスコンピューティングにおいて大きな飛躍を実現し、あらゆるワークロードに対して前例のないパフォーマンス、拡張性、柔軟性を提供します。 NVIDIA H100 GPUを使用する組織は、NVIDIA…

このAI研究論文は、視覚の位置推定とマッピングのための深層学習に関する包括的な調査を提供しています

もし私があなたに「今どこにいるの？」または「周りの様子はどうですか？」と尋ねたら、人間の多感覚知覚という独特な能力のおかげで、あなたはすぐに答えることができるでしょう。この能力により、あなたは自分の動きと周囲の環境を知覚し、完全な空間認識を持つことができます。しかし、同じ質問がロボットに対して投げかけられた場合、どのようにアプローチするでしょうか。問題は、このロボットが地図を持っていない場合、自分がどこにいるかわからないし、周りの様子も知らなければ地図も作成できないということです。要するに、これは「先に来たのは鶏か卵か？」という問題であり、機械学習の世界ではこの文脈で「位置推定と地図作成の問題」と呼ばれています。「位置推定」とは、ロボットの動きに関連する内部システム情報を取得する能力であり、位置、方向、速度などが含まれます。一方、「地図作成」とは、周囲の環境条件を知覚する能力であり、周囲の形状、視覚的特徴、意味属性などが含まれます。これらの機能は独立して動作することもあり、一方が内部状態に焦点を当て、他方が外部条件に焦点を当てることもあります。また、同時位置推定と地図作成（SLAM）として知られる単一のシステムとして連携することもあります。画像ベースの再配置、視覚的オドメトリ、SLAMなどのアルゴリズムには、センサーの測定の不完全さ、動的なシーン、不利な照明条件、現実世界の制約など、実用化を妨げる要素があります。上記の画像は、個々のモジュールが深層学習ベースのSLAMシステムに統合される様子を示しています。この研究では、深層学習ベースのアプローチと従来のアプローチの両方について包括的な調査を行い、次の2つの重要な質問に同時に答えます。深層学習は、視覚的位置推定と地図作成に有望ですか？研究者たちは、将来の汎用SLAMシステムにおいて、深層学習が独自の方向性を持つと考えています。以下にリストアップされた3つの特性がその理由です。第一に、深層学習は、視覚的SLAMフロントエンドに統合される強力な知覚ツールを提供します。これにより、オドメトリ推定や再配置のための難しい領域で特徴を抽出し、地図作成のための密な深度を提供することができます。第二に、深層学習はロボットに高度な理解力と相互作用能力を与えます。ニューラルネットワークは、マッピングやSLAMシステム内で場面の意味をラベリングするなど、一般的に数学的な方法では説明が難しい抽象概念と人間の理解可能な用語を結びつけることに優れています。最後に、学習手法により、SLAMシステムや個別の位置推定/地図作成アルゴリズムが経験から学び、新しい情報を積極的に活用することができます。深層学習は、視覚的位置推定と地図作成の問題を解決するためにどのように適用されるのでしょうか？深層学習は、SLAMのさまざまな側面をモデリングするための多目的なツールです。たとえば、画像から姿勢を直接推定するエンドツーエンドのニューラルネットワークモデルを作成するために使用することができます。これは、特徴のない領域、動的な照明、モーションブラーなどの厳しい条件を扱う際に特に有益です。深層学習は、SLAMの関連付け問題を解決するために使用されます。画像を地図に接続し、ピクセルに意味を付け、以前の訪問時の関連シーンを認識することで、再配置、意味マッピング、ループクロージャ検出を支援します。深層学習は、興味のあるタスクに関連する特徴を自動的に発見するために活用されます。例えば、幾何学的制約などの先行知識を利用することで、SLAMのための自己学習フレームワークが構築され、入力画像に基づいてパラメータを自動的に更新することができます。深層学習技術は、意味のあるパターンを抽出するために大規模かつ正確にラベル付けされたデータセットに依存しますが、不慣れな環境に対して一般化することが困難な場合があります。これらのモデルは解釈可能性に欠けており、しばしばブラックボックスとして機能します。また、位置推定と地図作成システムは計算量が多く、高度に並列化可能ですが、モデルの圧縮技術が適用されていない限り、計算負荷が高くなる場合があります。

「イギリスの全ての人に無料のAIトレーニングを提供しています」

「ジョニー・コットムは、一人でスタートアップを運営する際に必要なジャグリングの技術を知っています昨年、エコフレンドリーな水筒ブランドであるBreakBottleを立ち上げて以来、彼は投資家と話し合い、小売業者にプレゼンテーションを行い、デジタルマーケティングキャンペーンを運営する責任を一身に引き受けてきました今日、ジョニーはさまざまなAIツールを利用して、最も時間のかかる作業を効率的に管理し、クリエイティブな共同作業者としての役割を果たしていますソーシャルコピーの初稿の作成から販売戦略の策定、新しいアイデアのブレストまで、AIの活用によりジョニーは1人以上の力を持つことができ、ビジネスの成長に役立てるために自分の時間をより良く使うことができると述べています BreakBottleのような企業だけでなく、AIの信じられないほどの潜在能力による恩恵を受けることができるのは、あらゆる規模の企業や英国全体ですPublic Firstによってまとめられた最近の英国経済影響レポートは、AIパワードのイノベーションが2030年までに英国経済に対して4000億ポンド以上の経済価値を創出する可能性を示しています AIパワードの成長は、誰にとっても持続可能性がある場合になりますレポートはまた、英国における技術的なスキルの深刻な不足を指摘しましたこの問題が解決されない限り、AIやその他の技術的な専門知識への需要が急増する中で、均等な全国的な成長に対する頑固な障壁となり続けるでしょう Googleでは、健全な経済を持つためには、誰もが参加する機会を持つ必要があると長年感じてきましたそれがなぜ、私たちは長年にわたりデジタルスキルトレーニングに集中し、2015年以来、英国全土の500以上の場所で100万人以上の英国人に無料のトレーニングを提供してきたのです全員に無料のAIトレーニング今日、私たちはデジタルスキルトレーニングを拡大し、英国のすべての人々に新しいAIトレーニングを提供しますAIに特化した新しい基礎トレーニングシリーズは、人々や企業がAIの恩恵を受けるための実践的なスキルと知識を提供しますそれが時間の節約、新しい仕事の獲得、またはビジネスの成長であってもAIを活用する方法についての明確な理解を得ることができますGoogleの専門家が設計した10の簡単なモジュールには、実践的なアドバイスやヒントが満載で、本日2つのモジュールが公開されます AIによる生産性の向上：AIツールが時間を節約するための最もスマートな方法の紹介です学習者は、AIの利点や日常の製品でAIがどのように役立っているか、大規模な言語モデルが何を行えるのか、アイデアのブレストからコードの作成、または管理業務の負担軽減まで、AIを活用するための具体的な理解を得ることができます機械学習の理解：小規模なビジネスリーダーやVoAGIサイズのビジネスリーダーを対象としたこのコースは、効率の改善、コストの削減、成長の推進に対する機械学習の可能性を教えてくれますさまざまな機械学習モデルの適用方法、投資のタイミングや方法、機械学習プロジェクトのためのデータとリソースの準備方法についてカバーしています英国の小規模なビジネスやVoAGIサイズのビジネスが機械学習ツールを使用しているのはわずか2%に過ぎないという、新しいデータによると、私たちは大きな潜在能力を見ています GoogleのSVP兼CFOであるルース・ポラット氏が主催するGoogle Digital Garageのイベントで最初にトレーニングを受けた85人の熱心な学習者の反応を見たことは誇りに思いますそして、今後数週間で次の8つのモジュールをリリースすることに興奮していますこれらのモジュールでは、データの使用方法、クラウドコンピューティング、サイバーセキュリティ、デジタルワールドにおけるリーダーシップなどのトピックをカバーしますこれらは、AIを活用したビジネスを運営するために必要なスキルと専門知識です英国のAIリーダーシップをサポートするためのパートナーシップ英国には持続可能で包括的な技術主導の成長の素晴らしい機会がありますこれを達成するためには、集団の努力が必要ですそのため、この新しいAIトレーニングと並行して、私たちは新しいナショナルスキルサービスの創設を呼びかけていますこれは、英国のデジタルスキルギャップを埋め、人々を将来の機会に備えるための生涯学習を特定し、提供し、認定するものです一方、Googleでは、BreakBottleのような人々や企業にデジタルツールとスキルを提供し、エコシステムと連携して、誰もが利益を受けるAIパワードの未来を構築するために、引き続き努力を重ねていきます」

「AWSは、人工知能、機械学習、生成AIのガイドを提供しており、AI戦略を計画するための新しい情報を提供しています」

人工知能（AI）と機械学習（ML）のブレークスルーは、数ヶ月間の間、見出しを賑わせてきました - そしてその理由は十分にあるのですこの技術の新たに出現し進化する能力は、あらゆるセクターや産業の顧客に新たなビジネスの機会を約束していますしかし、この革命の速さは、組織や消費者が何を評価すべきかを判断するのを困難にしています...

「2023年、オープンLLMの年」

2023年には、大型言語モデル（Large Language Models、LLMs）への公衆の関心が急増しました。これにより、多くの人々がLLMsの定義と可能性を理解し始めたため、オープンソースとクローズドソースの議論も広範な聴衆に届くようになりました。Hugging Faceでは、オープンモデルに大いに興味を持っており、オープンモデルは研究の再現性を可能にし、コミュニティがAIモデルの開発に参加できるようにし、モデルのバイアスや制約をより簡単に評価できるようにし、チェックポイントの再利用によってフィールド全体の炭素排出量を低減するなど、多くの利点があります（その他の利点もあります）。では、オープンLLMsの今年を振り返ってみましょう！文章が長くなりすぎないようにするために、コードモデルには触れません。 Pretrained Large Language Modelの作り方まず、大型言語モデルはどのようにして作られるのでしょうか？（もし既に知っている場合は、このセクションをスキップしてもかまいません）モデルのアーキテクチャ（コード）は、特定の実装と数学的な形状を示しています。モデルのすべてのパラメータと、それらが入力とどのように相互作用するかがリストとして表されます。現時点では、大部分の高性能なLLMsは「デコーダーのみ」トランスフォーマーアーキテクチャのバリエーションです（詳細は元のトランスフォーマーペーパーをご覧ください）。訓練データセットには、モデルが訓練された（つまり、パラメータが学習された）すべての例と文書が含まれています。したがって、具体的には学習されたパターンが含まれます。ほとんどの場合、これらの文書にはテキストが含まれており、自然言語（例：フランス語、英語、中国語）、プログラミング言語（例：Python、C）またはテキストとして表現できる構造化データ（例：MarkdownやLaTeXの表、方程式など）のいずれかです。トークナイザは、訓練データセットからテキストを数値に変換する方法を定義します（モデルは数学的な関数であり、したがって入力として数値が必要です）。トークン化は、テキストを「トークン」と呼ばれるサブユニットに変換することによって行われます（トークン化方法によっては単語、サブワード、または文字になる場合があります）。トークナイザの語彙サイズは、トークナイザが知っている異なるトークンの数を示しますが、一般的には32kから200kの間です。データセットのサイズは、これらの個々の「原子論的」単位のシーケンスに分割された後のトークンの数としてよく測定されます。最近のデータセットのサイズは、数千億から数兆のトークンに及ぶことがあります！訓練ハイパーパラメータは、モデルの訓練方法を定義します。新しい例ごとにパラメータをどれだけ変更すべきですか？モデルの更新速度はどのくらいですか？これらのパラメータが選択されたら、モデルを訓練するためには1）大量の計算パワーが必要であり、2）有能な（そして優しい）人々が訓練を実行し監視する必要があります。訓練自体は、アーキテクチャのインスタンス化（訓練用のハードウェア上での行列の作成）および上記のハイパーパラメータを使用して訓練データセット上の訓練アルゴリズムの実行からなります。その結果、モデルの重みが得られます。これらは学習後のモデルパラメータであり、オープンな事前学習モデルへのアクセスに関して多くの人々が話す内容です。これらの重みは、推論（つまり、新しい入力の予測やテキストの生成など）に使用することができます。事前学習済みLLMsは、重みが公開されると特定のタスクに特化または適応することもあります。それらは、「ファインチューニング」と呼ばれるプロセスを介して、ユースケースやアプリケーションの出発点として使用されます。ファインチューニングでは、異なる（通常はより専門化された小規模な）データセット上でモデルに追加の訓練ステップを適用して、特定のアプリケーションに最適化します。このステップには、計算パワーのコストがかかりますが、モデルをゼロから訓練するよりも財政的および環境的にはるかにコストがかかりません。これは、高品質のオープンソースの事前学習モデルが非常に興味深い理由の一つです。コミュニティが限られたコンピューティング予算しか利用できない場合でも、自由に使用し、拡張することができます。 2022年 – サイズの競争からデータの競争へ 2023年以前、コミュニティで利用可能だったオープンモデルはありましたか？ 2022年初頭まで、機械学習のトレンドは、モデルが大きければ（つまり、パラメータが多ければ）、性能が良くなるというものでした。特に、特定のサイズの閾値を超えるモデルは能力が向上するという考えがあり、これらの概念はemergent abilitiesとscaling lawsと呼ばれました。2022年に公開されたオープンソースの事前学習モデルは、主にこのパラダイムに従っていました。 BLOOM（BigScience Large Open-science…

AIアドバイザーと計画ツール：金融、物流、それ以上を変革する

「AIアドバイザーやプランニングツールが金融、物流、医療、教育の根本的な変革を遂げる方法を探索してくださいこれらのAIシステムがどのようにデータ駆動の洞察を提供し、複雑なプロセスを最適化し、未来を形作っているのか学んでください」

Tech

Learn more about Search Results 提供しています