Learn more about Search Results 17

幸運なことに、「The Day Before」はGeForce NOWで17のゲームをリードしています

17つの新しいゲームがGFN Thursdayに参加します。その中にはThe Day Before、Avatar: Frontiers of Pandora、そしてクラウドに参加する100番目のPC Game PassタイトルであるOri and the Will of the Wispsも含まれています。 GeForce NOWライブラリに参加しましょう。 今週はまた重要な節目です:500以上のゲームとアプリケーションがRTX ONをサポートしています。 GeForce NOW UltimateとPriorityメンバーは、クラウド上のNVIDIA RTXでパワードされたゲーミングリグを使用してほぼすべてのデバイスでシネマティックなレイトレーシングを体験することができます。 GeForce…

2024年の予測17:RAG to RichesからBeatlemaniaとNational Treasuresへ

メリアム・ウェブスターの前に譲れ:今年、企業は年間のワードに追加するための多くの候補を見つけました。「生成的AI」と「生成的事前学習変換器」の後には、「大規模言語モデル」と「検索増強生成」(RAG)のような用語が続き、さまざまな産業が変革的な新技術に注目しました。 生成的AIは今年の初めにはまだ注目されていなかったが、終わりには大きなインパクトを与えました。多くの企業が、テキスト、音声、動画を取り込み、生産性、イノベーション、創造性を革新する新しいコンテンツを生み出す能力を利用するために全力で取り組んでいます。 企業はこのトレンドに乗っています。OpenAIのChatGPTなどのディープラーニングアルゴリズムは、企業のデータをさらにトレーニングすることで、63のビジネスユースケース全体で年間2.6兆ドルから4.4兆ドル相当の価値を生み出すことができると、マッキンゼー・アンド・カンパニーによって評価されています。 しかし、大量の内部データを管理することは、AIの拡大における最大の障害とされてきました。NVIDIAのAIの専門家の一部は、2024年は友達との電話に関するすべてだと予測しており、クラウドサービスプロバイダーやデータストレージおよび分析会社など、大規模データを効率的に処理し、調整し、展開するノウハウを持つ企業や個人とのパートナーシップや協力関係を構築することが重要だと述べています。 大規模言語モデルがその中心にあります。NVIDIAの専門家によると、LLM研究の進展は、ますますビジネスや企業向けのアプリケーションに適用されるようになります。RAG、自律型インテリジェントエージェント、マルチモーダルインタラクションのようなAIの機能は、ほぼすべてのプラットフォームを介してよりアクセス可能で容易に展開できるようになります。 NVIDIAの専門家の予想を聞いてください: MANUVIR DASエンタープライズコンピューティング部門副社長 一揃いは全てに合わない:カスタマイズが企業にやってきます。企業は1つまたは2つの生成的AIアプリケーションを持つのではなく、さまざまな部門に適した独自のデータを使用した何百ものカスタマイズされたアプリケーションを持つことになるでしょう。 これらのカスタムLLMは、稼働中にデータソースを生成的AIモデルに接続するためのRAGの機能を備え、より正確で明確な応答を提供します。Amdocs、Dropbox、Genentech、SAP、ServiceNow、Snowflakeなどのリーディングカンパニーは、既にRAGとLLMを使用した新しい生成的AIサービスを構築しています。 オープンソースソフトウェアが先頭を走っています:オープンソースの事前学習モデルのおかげで、特定のドメインの課題を解決する生成的AIアプリケーションがビジネスの運用戦略の一部になるでしょう。 企業がこれらの先行モデルをプライベートまたはリアルタイムのデータと組み合わせると、組織全体で加速された生産性とコストの利益を見ることができるようになります。クラウドベースのコンピューティングやAIモデルファウンドリーサービスから、データセンターやエッジ、デスクトップまで、ほぼすべてのプラットフォームでAIコンピューティングとソフトウェアがよりアクセス可能になります。 棚卸しのAIとマイクロサービス:生成的AIは、開発者が複雑なアプリケーションを構築しやすくするアプリケーションプログラミングインターフェース(API)エンドポイントの採用を促しています。 2024年には、ソフトウェア開発キットとAPIが進化し、開発者がRAGなどのAIマイクロサービスを利用してオフシェルフのAIモデルをカスタマイズすることができるようになります。これにより、企業は最新のビジネス情報にアクセスできる知能を持つアシスタントや要約ツールを使用して、AIによる生産性の完全な可能性を引き出すことができます。 開発者は、これらのAPIエンドポイントをアプリケーションに直接埋め込むことができ、モデルとフレームワークをサポートするために必要なインフラストラクチャの維持について心配する必要はありません。エンドユーザーは、自分のニーズに適応するより直感的でレスポンシブなアプリケーションを体験することができます。 IAN BUCKハイパースケールとHPC部門副社長 国家的な財産:人工知能は新しい宇宙競争となり、すべての国が研究と科学の重要な進展を推進し、GDPを向上させるために自国の卓越の中心を作ろうとしています。 数百個のアクセラレートされた計算ノードを使用するだけで、国は高効率で大規模なパフォーマンスを発揮するエクサスケールAIスーパーコンピュータを迅速に構築することができます。政府資金による創発型AI卓越センターは、新しい雇用を創出し、次世代の科学者、研究者、エンジニアを育成するためにより強力な大学のプログラムを構築することで、国の経済成長を後押しします。 飛躍的な進歩:企業リーダーは、二つの主要な要因に基づいて量子コンピューティングの研究イニシアチブを立ち上げます。まず、従来のAIスーパーコンピュータを使用して量子プロセッサをシミュレートする能力、そして、ハイブリッドクラシカル量子コンピューティングのためのオープンかつ統一された開発プラットフォームの利用が可能になることです。これにより、開発者は、量子アルゴリズムを構築するためにカスタムで特殊な知識を必要とせず、標準のプログラミング言語を使用することができます。 かつてはコンピュータ科学の奇妙なニッチと考えられていた量子コンピューティングの探求は、素材科学、製薬研究、サブアトミック物理学、物流などの分野で急速な進歩を追求する企業がアカデミアや国立研究所に加わることで、より一般的なものになるでしょう。 KARI BRISKIAIソフトウェア担当副社長 RAGから富へ:2024年、企業がこれらのAIフレームワークを採用するにつれ、再試行補完生成はさらに注目されるでしょう。…

「11/9から17/9までの週のトップ重要なコンピュータビジョンの論文」

「コンピュータビジョンは、人工知能の一分野であり、機械が視覚世界を解釈し理解することを可能にする技術です画期的な研究や技術の進展により、コンピュータビジョンは急速に進化しています…」

「PhysObjectsに会いましょう:一般的な家庭用品の36.9K個のクラウドソーシングと417K個の自動物理的概念アノテーションを含むオブジェクト中心のデータセット」

現実世界では、情報はしばしばテキスト、画像、または動画の組み合わせによって伝えられます。この情報を効果的に理解し、対話するためには、AIシステムは両方のモダリティを処理できる必要があります。ビジュアル言語モデルは、自然言語理解とコンピュータビジョンの間のギャップを埋め、より包括的な世界の理解を可能にします。 これらのモデルは、テキストとビジュアル要素を組み込んだ豊かで文脈に即した説明、ストーリー、または説明を生成することができます。これは、マーケティング、エンターテイメント、教育など、さまざまな目的のコンテンツを作成するために役立ちます。 ビジュアル言語モデルの主なタスクには、ビジュアルクエスチョンアンサリングと画像キャプションがあります。ビジュアルクエスチョンアンサリングでは、AIモデルに画像とその画像に関するテキストベースの質問が提示されます。モデルはまずコンピュータビジョンの技術を使用して画像の内容を理解し、NLPを使用してテキストの質問を処理します。回答は理想的には画像の内容を反映し、質問に含まれる特定のクエリに対応する必要があります。一方、画像キャプションでは、画像の内容を説明する記述的なテキストキャプションや文を自動生成することが含まれます。 現在のビジュアル言語モデルは、一般的なオブジェクトの物質の種類や壊れやすさなどの物理的な概念を捉えることを改善する必要があります。これにより、物体の物理的な推論を必要とするロボットの識別タスクが非常に困難になります。この問題を解決するために、スタンフォード大学、プリンストン大学、Google DeepMindの研究者らはPhysObjectsを提案しています。これは、一般的な家庭用品の36.9Kのクラウドソースおよび417Kの自動物理的概念アノテーションのオブジェクト中心のデータセットです。クラウドソースのアノテーションは、分散グループの個人を使用して大量のデータを収集し、ラベル付けする方法です。 彼らは、PhysObjectsでファインチューンされたVLMが物理的な推論能力を大幅に向上させることを示しました。物理的に基礎づけられたVLMは、保持データセットの例において予測精度が向上しています。彼らはこの物理的に基礎づけられたVLMをLLMベースのロボットプランナーと組み合わせてその利点をテストしました。LLMはシーン内のオブジェクトの物理的な概念についてVLMにクエリを行います。 研究者は、EgoObjectsデータセットを画像ソースとして使用しました。これは、PhysObjectsを構築する際に公開された最大の実オブジェクト中心のデータセットでした。リアルな家庭の配置のビデオで構成されているため、家庭用ロボティクスのトレーニングに関連しています。平均して、117,424枚の画像、225,466個のオブジェクト、4,203個のオブジェクトインスタンスIDが含まれています。 彼らの結果は、物理的に基礎づけられたVLMを使用しないベースラインと比較して、物理的な推論を必要とするタスクの計画パフォーマンスが向上したことを示しています。彼らの今後の研究では、幾何学的な推論や社会的な推論など、物理的な推論を超えて拡大する予定です。彼らの手法とデータセットは、VLMを用いたより洗練された推論のための第一歩です。

「REPLUG」をご紹介しますこれは、凍結された言語モデルと凍結/調整可能なリトリーバを組み合わせた、検索増強型言語モデリング(LM)フレームワークですこれにより、GPT-3(175B)の言語モデリングの性能が6.3%向上します

近年、言語モデルは人工知能の中でも最も急速に成長している分野の一つとなっています。これらのモデルは、自然言語テキストの処理や生成を行うために開発され、最も革新的で画期的なAIアプリケーションの一部を駆動しており、AIの拡大における新たな時代の最先端に位置しています。特にGPT-3という言語モデルは、その非凡な能力とパフォーマンスにより、世界中で話題を集めています。GPT-3はトランスフォーマーアーキテクチャを使用してテキストを処理し、人間のように質問に答えることができるモデルを生み出します。さらに、このモデルは長いパラグラフを要約したり、コードを完成させたり、非常に高速かつ正確にタスクを完了させることさえ可能です。 GPT-3のような言語モデルはまだ完璧とは言えず、新しいプロンプトに対して正確かつ適切な応答を生成する際に制約があります。そこで、REPLUGという新しい手法が登場します。REPLUGは、検索補完型言語モデルフレームワークであり、ブラックボックス言語モデルのパフォーマンスを向上させる手法です。検索システムは、与えられたプロンプトに一致する大規模なテキストコーパス内の最適なパッセージを見つけ、その後、言語モデルを取得したパッセージに合わせて調整します。これにより、言語モデルは特にトレーニングデータに存在しないプロンプトの場合でも、より正確な回答を生成することができます。 REPLUG手法は、2つの主要なステップで構成されています- 文書の検索と入力の再構築です。まず、リトリーバーを使用して外部コーパスから関連文書を特定します。次に、各取得された文書は元の入力コンテキストに別々に追加され、複数のパスからの出力確率が結合されます。この手法では、異なるモダリティ間のネットワークを学習するために、アテンションメカニズムを強化するディープニューラルネットワークが使用されます。 REPLUGは、大規模な画像キャプションデータセットを含むさまざまなベンチマークデータセットでテストされ、精度とスケーラビリティの面で既存のシステムに比べてより良い結果を示しました。REPLUGの最大の利点の一つは、基礎となる言語モデルのアーキテクチャを変更する必要がないということです。GPT-3などの現行モデルは、検索システムを追加することで強化することができます。これにより、REPLUGは簡単にアクセスでき、実装することができます。チューニングされたリトリーバーを使用したREPLUGは、言語モデリングにおけるGPT-3(175B)のパフォーマンスを6.3%向上させるだけでなく、Codexの5ショットMMLUにおけるパフォーマンスを5.1%向上させます。 結果として、REPLUGの導入はNLPの分野においてゲームチェンジャーとなるようです。REPLUGは、ブラックボックス言語モデルと検索システムの両方の利点を組み合わせて、従来の言語モデルを凌駕するハイブリッドモデルを生成します。REPLUGによって使用されるディープニューラルネットワークアーキテクチャはスケーラブルであり、大量のマルチモーダルデータを処理する必要がある実世界のアプリケーションに適しています。REPLUGの潜在的な応用範囲は非常に広大であり、将来の展望も非常に有望です。

「17/7から23/7までのトップコンピュータビジョン論文」

コンピュータビジョンは、視覚的な世界を解釈し理解するために機械を可能にする人工知能の分野であり、画期的な研究と技術の進歩により急速に進化しています

「TxGNN(テキストジーノーディープラーニング)にお会いしましょう:ジオメトリックディープラーニングとヒューマンセンタードAIを活用して、17,080の疾患の広範な範囲にわたる治療利用のゼロショット予測を行う新しいモデル」

世界中の数十億人の医療ニーズを満たすためには、緊急に治療法を開発する必要があります。しかし、現在、臨床的に認識された疾患のごく一部にしか承認された治療法がありません。遺伝子の機能やそれが生成する分子の変化は、疾患の一般的な原因です。正常な分子活性を回復させる可能性のある薬剤は、これらの疾患に対する潜在的な防御手段です。残念ながら、損傷した遺伝子の生物学的な活動を回復させる治療法は、まだ多くの疾患に対して困難です。さらに、ほとんどの疾患は多くの遺伝子の変化によって引き起こされ、個々の遺伝子内でも変異パターンは大きく異なることがあります。疾患に関連するプロセスや活動に関与する遺伝子のネットワークであるインタラクトームは、これらの遺伝的な出来事を説明するための優れたツールです。疾患の中断された遺伝子アーキテクチャを解読し、それに対応する薬剤を作成するために、機械学習はハイスループットの分子インタラクトームと電子医療記録データを分析するために使用されています。 新しい薬剤開発は困難であり、特に治療選択肢の少ない疾患に対しては、効率の低い薬剤をより安全で効果的なものに置き換えることができます。FDAはわずか500の人間の疾患に対して治療法を承認しています。分析に含まれる17,080の臨床的に認識された疾患のうち、1,363には特定の薬剤が処方されており、そのうち435は1つの処方箋、182は2つの処方箋、128は3つの処方箋しかありませんでした。新しい薬剤の発見は、治療法のある疾患にとっても治療的に重要であり、より少ない副作用を持つより多くの治療選択肢を提供し、特定の患者集団で効果のない薬剤を置き換えることができます。 疾患の分子原因と潜在的な治療法についてより多くの知識が必要な疾患に興味を持つ研究者によって導入された治療法予測のための幾何学的な深層学習技術であるTXGNNが紹介されています。TXGNNは、現在治療中の疾患に層状に配置された疾患によるネットワークでティーチングされます。この知識グラフは、17,080の一般的および珍しい疾患に関する数十年にわたる生物学的研究を統合し、まさにTXGNNの治療中心のグラフの幾何学を反映するように最適化されています。グラフニューラルネットワークモデルは、治療候補と疾患を潜在的な表現空間に統合します。TXGNNは、潜在的な表現空間で作用するメトリック学習モジュールを使用し、監督付き深層学習の制約を回避して訓練中に見られる疾患から無視された疾患への治療法の予測を行います。 TxGNNは、17,080の臨床的に認識された疾患と7,957の治療候補を含む知識グラフで事前訓練されたグラフニューラルネットワークです。統一された形式でさまざまな治療タスクを実行することができます。TxGNNは、訓練後に正解ラベルの微調整や追加パラメータの必要がないため、未訓練の疾患に対してゼロショット推論が可能です。最先端の手法と比較して、TxGNNは効果的に競争を上回り、指示タスクでは最大で49.2%、禁忌タスクでは35.1%の精度向上があります。 実験デザインと方法論 – 網羅的なパフォーマンス評価のためのデータセットの分割 疾患領域の分割: 多くの疾患は治療の可能性がありますが、効果的な治療法は存在せず、生物学的な理解もほとんどありません。研究チームによって開発されたデータの分割を使用して、TXGNNがこのような状況で薬剤-疾患の関連性を予測する潜在能力をテストします。 まず、グループの疾患と関連する薬剤-疾患のエッジをテストセットにコピーします。これにより、トレーニング中にTXGNNが選択された疾患カテゴリの現在の指示や禁忌を表すエッジの存在に無知になります。これにより、生物学的なメカニズムが不明な障害の治療の困難さが模倣されます。 システマティックデータセットの分割: 治療不能な疾患の予測は、実装されている機械学習モデルに非常に適しているはずです。現在治療法が存在する疾患に対しては、将来の治療法を予測することははるかに簡単です。研究者は、この分割を使用して、モデルが以前に発見されていない疾患を予測する能力を厳密に調査しました。研究者はまず、すべての疾患をランダムに分割しました。トレーニング中に治療法が認識されない場合、およびテストセットが一意の疾患を含む場合、研究者はテストセットに関連するすべての薬剤-疾患関係をテストセットに移します。各イテレーションで100以上の一意の疾患がテストセットに含まれます。 疾患中心のデータセットの分割: 研究者は、薬剤候補が臨床でどのように使用されるかをモデル化するために疾患中心の評価を使用します。まず、研究者はKG内のすべての薬剤をテストセットのすべての疾患と関連付けますが、トレーニングセットの薬剤-疾患関連を除外します。その後、研究者は可能なすべての組み合わせを互いに相互作用する可能性に基づいて評価します。研究者はその後、上位Kの薬剤を回収することによってリコールを計算します(つまり、テストセット内の薬剤と疾患のうち、全体のKに含まれる数)。最後のステップは、ランダムなスクリーニングベースラインの確立です。この場合、薬物セット内の上位Kの薬剤がランダムにサンプリングされ、リコールが計算されます。 成果 TXGNNにおける幾何学的な生物学的事前情報を用いた治療応用の予測。TXGNNは、タンパク質相互作用ネットワーク内の疾患に影響を及ぼすネットワークを標的とする薬物が最も成功する可能性が高いという仮説に基づいています。TXGNNは、TXGNNの知識グラフの幾何学を捉えるために最適化されており、治療候補と障害(疾患の概念)を潜在表現空間にマッピングする知識に基づくGNNです。 ゼロショット治療応用予測のための参照TXGNNの使用。研究者は、TXGNNの指示および禁忌の予測能力をテストします。TXGNNは、現在利用可能な治療法が存在しないStargardt病16や高オキサル酸尿症などの疾患を治療するために設計されているため、その性能は「ゼロショットパフォーマンス」という指標を用いて測定されます。ゼロショットパフォーマンスでは、モデルのトレーニング中に見られなかったテストセット(ホールドアウトセット)と呼ばれる別のデータセットの疾患に対する治療利用を予測するようにモデルに求められます。 5つの疾患タイプの治療利用を予測する際の100%の正確性。類似した生物学的基盤を持つ障害には似た治療法が使用される可能性があります。 治療を定期的に拒否する患者の治療利用を予測できない場合があります。 1,363の指示があり、1,195の禁忌がある疾患に対して100%の正確性。 推奨される治療法と禁忌とされる治療法について慎重な考慮を行います。 TXGNNの予後を現在の治療法と比較します。研究者は、TXGNNのデータセットとモデルの開発が完了した後に承認された10の新たに発売された薬剤を考慮して、TXGNNが確証バイアスによって操作されていないことを示すために、TXGNNが研究者に予測を提供するようにしました。TXGNNのデータセットでは、薬物-疾患ノードは直接接続されていません。 特徴 薬物が存在しない疾患に関して、および私たちの分子の知識が乏しい場合、TXGNNは治療利用の「ゼロショット」予測能力を持っています。…

新たな人工知能の研究が、言語モデルの中でマルチモーダルな連鎖思考推論を提案し、ScienceQAにおいてGPT-3.5を16%上回る結果を示しました(75.17% → 91.68%)

最近の技術の進展により、大規模言語モデル(LLM)は複雑で洗練された推論タスクで非常に優れた成績を収めています。これは、デモンストレーションのプロンプトに対して中間の推論ステップを生成することによって実現されます。これはチェーン・オブ・ソート(CoT)プロンプティングとも呼ばれます。しかし、CoTに関する現在の研究のほとんどは言語モダリティに焦点を当てており、マルチモーダルなCoT推論を抽出するために、研究者はしばしばマルチモーダル-CoTパラダイムを使用します。マルチモーダル-CoTは、ビジョンや言語など、さまざまなモダリティの入力がある場合でも、多段階の問題を中間の推論プロセスに分割し、最終的な出力を生成します。マルチモーダル-CoTを実行する最も人気のある方法の1つは、LLMにCoTを実行する前に、複数のモダリティからの入力を単一のモダリティに組み合わせることです。しかし、この方法にはいくつかの欠点があります。1つは、データを1つのモダリティから別のモダリティに変換する際に生じる重要な情報の損失です。マルチモーダルなCoT推論を実現する別の方法は、ビジョンと言語のさまざまな特徴を組み合わせて、小さな言語モデルを微調整することです。 ただし、このアプローチの主な問題は、これらの言語モデルが幻覚的な推論パターンを生成する傾向があることであり、これが回答推論に大きな影響を与えます。そのようなエラーの影響を軽減するために、Amazonの研究者はビジュアル特徴を分離されたトレーニングフレームワークで組み合わせるMultimodal-CoTを提案しました。このフレームワークは、推論プロセスを2つのフェーズに分割します:根拠生成と回答推論。モデルは、ビジョンの側面を両方のステージに取り入れることで、より説得力のある議論を生成し、より正確な回答推論を作成するのに役立ちます。この研究は、異なるモダリティでのCoT推論を研究した最初のものです。Amazonの研究者によって提供された技術は、ScienceQAベンチマークで最先端のパフォーマンスを発揮し、GPT-3.5の正確さを16%上回り、人間のパフォーマンスを上回りました。 マルチモーダル回答CoTの推論と推論生成のステージは、同じモデルアーキテクチャを使用しており、入力と出力の種類が異なります。ビジョン-言語モデルの例を取ると、モデルは根拠生成の段階で視覚と言語の両ドメインのデータを受け取ります。根拠が生成されると、回答推論のステップで初期の言語入力に追加され、次のステージの言語入力のためのデータが作成されます。モデルは、更新されたデータを受け取り、所望の結果を生成するためにトレーニングされます。エンコーディング、インタラクション、デコーディングの3つの主要な機能を実行するトランスフォーマーベースのモデルが基盤となっています。要するに、言語テキストはTransformerエンコーダに供給され、テキスト表現が作成されます。このテキスト表現は、ビジョン表現と組み合わされ、Transformerデコーダに供給されます。 彼らの手法の有効性を評価するために、研究者はScienceQAベンチマークで多くのテストを実施しました。ScienceQAベンチマークは、注釈付き回答が含まれる21,000以上のマルチモーダルな科学の質問からなる大規模なデータセットです。研究者は、その手法がベンチマークで従来の最先端のGPT-3.5モデルを16%上回ると結論付けました。要するに、Amazonの研究者は、マルチモーダル-CoTを実行するためにビジョンと言語の表現を組み合わせるために言語モデルを微調整するという2段階のフレームワークを提案し、情報的な根拠を生成して最終回答を推論するモデルを生成します。モデルのGitHubリポジトリは以下からアクセスできます。

チャットボットは学校での不正行為を助長しているのか?最新の研究結果が驚くべき結果を明らかにしています

「スタンフォード大学の研究者によると、ChatGPTなどのA.I.ツールの使用は高校での不正行為の増加にはつながらなかったということが分かりましたこの結果は、この種のツールの効果的かつ倫理的な使用を証明する上で非常に価値があります」

「バイデン政権によるAIヘルスケアアプリのラベリングシステム案」

バイデン政権が、健康ケアアプリに人工知能を活用した新しいラベリングシステムを導入し、安全性と信頼性を最優先にしていますこれにより、より良い健康ケアを提供することが可能になります

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us