Learn more about Search Results これ - Page 2
- You may be interested
- 「2020年と2021年のトップの声、グレッグ...
- 「交通バスのカメラを使用して交通を監視...
- このAIニュースレターはあなたが必要なも...
- 「AIプロジェクトに適したGPU戦略の選択」
- 「私たちの10の最大のAIの瞬間」
- 「OpenAIの研究者たちは、敵対的なトレー...
- Google MapsのAir Quality APIから大気汚...
- 「12か国がソーシャルメディア巨人に違法...
- ディープラーニングのマスタリング:分岐...
- Hugging Faceデータセットとトランスフォ...
- Google Researchがジェネレーティブな無限...
- ODSC West 2023の基調講演:責任ある生成A...
- 安全ループに会いましょう:複雑なAIタス...
- 「2023年の公共セクターにおけるデータス...
- DALLE-3の5つの使用例
KAISTの研究者たちは、地面セグメンテーションを利用した堅牢なグローバル登録フレームワークであるQuatro++を導入しましたこれは、LiDAR SLAMにおけるループクロージングに利用されます
LIADR SLAMにおけるスパースネスと退化問題に取り組むため、KAISTの研究者が開発した堅牢なグローバル登録フレームワークであるQuatro++が紹介されました。この手法は従来の成功率を上回り、地面セグメンテーションを通じてループクロージングの精度と効率を向上させました。Quatro++は学習ベースのアプローチよりも優れたループクロージング性能を示し、学習ベースの手法よりも高品質なループ制約とより正確なマッピング結果を提供します。 この研究では、グラフベースのSLAMにおけるグローバル登録がループクロージングに与える影響を調査しました。Quatro++は学習ベースの手法と比較して、特にループクロージングの改善、ループ制約の向上、より正確なマップ作成に効果的です。それは異なる視点で一貫した結果を提供し、他の手法で見られる軌道の歪みを減少させます。 Quatro++はロボティクスとコンピュータビジョンにおける基本的な3Dポイントクラウドの登録の重要な課題を解決する手法です。多くのLIADRベースのSLAM手法ではオドメトリやループ検出が優先される一方、ループクロージングにおけるループ制約の重要性は十分に研究されていません。LIADR SLAMにおけるグローバル登録手法が直面するスパースネスと退化課題を克服するために、Quatro++は地面セグメンテーションを組み込んだ堅牢なグローバル登録フレームワークを導入しています。 Quatro++はLIADR SLAMのための非常に効果的なグローバル登録フレームワークであり、スパースネスと退化の問題に取り組んでいます。特に地上車両において地面セグメンテーションを利用した堅牢な登録が可能です。Quatro++を特徴づける1つの重要な特徴は、地面セグメンテーションを用いた準-SO推定の利用です。KITTIデータセット上の実験結果は、Quatro++がループクロージングにおける並進および回転の正確性を大幅に向上させることを示しており、また、ロール角やピッチ角の補償によりINSシステムでも適用可能であることが示されています。 Quatro++は、スパースネスと退化の問題に取り組んでLIADR SLAMで優れた成功率を達成しました。フレームワークの地面セグメンテーションにより、グローバル登録における地上車両の成功率が著しく向上し、より正確なマッピングと改善されたループ制約の品質をもたらしました。Quatro++は、異なるデータセットやLIADRセンサーの構成で、ループクロージングにおいてRANSAC、FGR、TEASERを上回る性能を発揮しています。並進および回転の正確性の向上が可能なINSシステムにおける実用性は、その柔軟性と様々なシナリオでの適用可能性を示しています。 まとめると、Quatro++はスパースネスと退化の課題に取り組み、LIADR SLAMのグローバル登録において既存の手法を上回る成功率を達成しました。地面セグメンテーション手法は、登録とループクロージングの堅牢性を大幅に向上させ、より精度の高いマッピングを実現しました。フロントエンドの対応ベースの登録には制限がありますが、地面セグメンテーションにより遠距離の場合に特に高い成功率を示し、計算コストを削減しました。
「関係深層学習ベンチマーク(RelBench)に出会ってください:関係データベース上の機械学習のためのリアルな、大規模で多様なベンチマークデータセットのコレクション」
人工知能(AI)と機械学習(ML)の急速な進歩の分野において、効果的で自動化され、適応性のある手法を見つけることは非常に重要です。AIとMLの手法の持続的な向上は、機械が何を達成できるかと人間が機械とどのように相互作用するかの可能性を再定義しました。 ディープラーニングを含むAIの分野はデータに完全に依存しており、重要なデータはデータウェアハウスに格納されており、これは主外部キーの関係を介して複数のテーブルに分散されています。このようなデータを使用してMLモデルを開発することはいくつかの困難を伴い、既存のML手法は複数の関係テーブルにまたがるデータから直接学習するのに適していません。現在の手法では、データをフィーチャーエンジニアリングと呼ばれる手順を介して単一のテーブルに変換する必要があります。 この課題に対処するため、スタンフォード、Kumo AI、イエール、マックス・プランク、イリノイ大学アーバナ・シャンペーン校の研究者チームは最近、Relational Deep Learningを提案しました。このエンドツーエンドのディープレプリゼンテーション学習手法は、複数のテーブルに分散されたデータを扱うことができます。この手法は、関係テーブルを異種グラフとして基本的な方法で再構築するために開発されました。このグラフモデルでは、各テーブルの行がノードを表し、主外部キーの関係がエッジを定義します。 Message Passing Neural Networks(MPNN)を使用して複数のテーブルを自動的にトラバースし、学習することで、手動のフィーチャーエンジニアリングを必要とせずに、すべての入力データを活用する表現を抽出します。チームはまた、ベンチマークデータセットとRelational Deep Learningの実装を含む包括的なフレームワークであるRELBENCHを提供しています。これらのデータセットには、Amazon Product Catalogの書籍レビューやStack Exchangeなどのサイトでの会話など、さまざまな主題が含まれています。 RELBENCHには、次の3つの主要なモジュールが含まれています。 データモジュール:RELBENCHのデータモジュールは、関係データセットを効率的に使用するためのフレームワークを提供します。その中には、時間的なデータ分割、タスクの指定、データの読み込みという3つの主要な機能が含まれています。 モデルモジュール:このモジュールは、未処理のデータをグラフ表現に変換することで、Graph Neural Networks(GNN)の予測モデルを構築します。頑健なディープラーニングライブラリPyTorch Geometricを使用して、RELBENCHはいくつかの広く使用されているGNNアーキテクチャのベンチマークを行います。このモジュールはモデルアーキテクチャの柔軟性を可能にし、予測モデルの開発と生の関係データの間のギャップを埋めるのに不可欠です。 評価モジュール:このモジュールは、モデルの性能を評価するための一貫した手順を作成します。モデルの予測を方法論的に評価することで、モデルの効果を定量化する量的な指標を提供します。このモジュールは、深層学習フレームワークから独立して作られているため、さまざまな人気のある深層学習ツールと連携します。この柔軟性により、研究者や実践者は評価手順を犠牲にすることなく、自分の選択したフレームワークを使用することができます。
東京理科大学の研究者は、材料科学におけるこれまで知られていなかった準結晶相を検出する深層学習モデルを開発しました
物質における新しい結晶構造を発見する探求は、電子から製薬まで幅広い産業において重要な意味を持ち、科学的な探求の中核となってきました。原子の秩序だった配置によって定義される結晶材料は、技術の進歩で重要な役割を果たします。これらの構造を正確に特定し、特徴づけるためには、X線回折などの方法に依存してきました。しかし、異なる結晶構造の複雑な混合物を持つ多相サンプルの出現は、正確な特定に困難をもたらしました。 この課題に対処するために、東京理科大学(TUS)の研究者と一流の機関との共同研究により、新しい深層学習モデルが紹介されました。研究では、多相粉末X線回折パターンから舞い降りた抽象的な二十面体の非周期結晶(i-QC)相を検出することができる機械学習ベースのバイナリ分類器の開発が概説されています。 研究者たちは、80の畳み込みニューラルネットワークを利用したバイナリ分類器を構築しました。彼らは、予想されるi-QC相パターンをシミュレートするために設計された合成的な多相X線回折パターンを使用してこのモデルを訓練しました。厳格な訓練の結果、このモデルは非凡な性能を発揮し、92%を超える精度を誇りました。440以上の測定されたX線回折パターンを解析し、6つの合金系で異なる未知の材料からの結晶構造を正確に特定しました。 このモデルは、優位な成分を検出する能力にとどまらず、混合物中で主要な成分でない場合でも、舞い降りたi-QC相を効果的に特定する能力を持っています。また、その潜在性はi-QC相に留まらず、新たな十角形および十二角形非周期結晶やさまざまな結晶材料の特定にも応用する可能性を示唆しています。 このモデルは、多相サンプルの特定プロセスを迅速化するという精度を持っています。このモデルの成功によって支えられたこの技術革新は、中空シリカ、鉱物、合金、液晶など、物質科学の相特定に重要な役割を果たしており、エネルギー貯蔵の最適化から電子技術の進歩まで、多様な産業分野において革新的な技術進展の約束を持っています。 この研究の影響は、単なる非周期結晶相の特定を超えて、物質分析におけるパラダイムシフトをもたらします。これにより、物質科学において未知の領域を探索するための科学者の能力が向上し、加速された発見と革新の時代が到来するでしょう。
ダックAIは、DuckTrackを紹介します:マルチモーダルコンピュータインタラクションデータコレクター
ユーザーの相互作用の正確で精密なトラッキングは、コンピューターエージェントの機能を進化させる上で重要な基盤となります。このタスクは、インテリジェントシステムの開発とトレーニングにおいて中心的な役割を果たしています。認知プロセスを模倣し、独立して業務を実行することを目的としたこれらのシステムの効果は、ユーザーの相互作用の慎重な調査と体系的な記録に依存しています。 ダックAIの研究者は、コンピューターエージェントが収集されたデータに適切に訓練されるように、さまざまな入力を正確に記録するためのDuckTrackを開発しました。DuckTrackは、主要なオペレーティングシステムと互換性のある使いやすいデスクトップアプリを通じて、マウス、キーボード、画面のビデオ、および音声データを同期して収集します。 さらに、DuckTrackはコミュニティデータ収集イニシアチブを開始しました。 このオープンソースの取り組みでは、さまざまなコンピューターの相互作用データの収集に参加する貢献者を募集しています。 DuckTrackは、すべての主要なオペレーティングシステムでスムーズに動作し、Pythonで作成されています。 DuckTrackの機能概要には、マウスおよびキーボードアクションの正確で精密な記録と再生の能力が示されています。 リサーチャーは、画面の録画をOBSと統合することで、その汎用性をさらに向上させると述べています。 DeepTruckでは、描画タスクにおいて構造的類似性指数(SSIM)は常に0.9を超えています。各イベントは、市場に存在する既存のトラッカーよりも低い誤差範囲で0.03ms ± 0.4msで記録されています。 DuckTrackは、パフォーマンスメトリックにおいて卓越したコミットメントを示しており、最高のトラッキングおよび再生ソリューションを求めるユーザーにとって信頼性のある選択肢となっています。 しかし、DuckTrackにも一定の制限があります。再生時にダブルクリックやトリプルクリックをリアルに再現することは現実的には難しく、これらのアクションの正確性に影響を与えます。さらに、DuckTrackはトラックパッドのジェスチャーを記録することができず、ゲームなどの生の情報を含むシナリオで入力をキャプチャする際に制限があります。 開発者たちは、これらの制限に対処し、コミュニティとの関与を継続することでDuckTrackの能力を向上させるために積極的に取り組んでいます。 リサーチャーは、M2 Pro MBP 14(macOS Sonoma 14.0を実行)、Intel i7-10510U System76 Lemur Pro 9(PopOS!…
中国からのこのAI論文では、「モンキー」という新しい人工知能のアプローチが紹介されていますこれは、大規模なマルチモーダルモデルで入力の解像度と文脈関連性を向上させるための方法です
大規模なマルチモーダルモデルは、テキストや画像を含むさまざまなデータを処理し分析する能力があるため、ますます人気が高まっています。学界では、画像のラベリング、ビジュアルな質問への回答など、さまざまなマルチモーダルな活動でその知識が認識されています。LLaVA、MiniGPT4、mPLUG-Owl、Qwen-VLなど、最先端のモデルは、この分野での迅速な進歩の例です。ただし、特に複雑なシナリオの取り扱い時には、さまざまな画像解像度の幅広さや、トレーニングデータの品質の必要性など、いくつかの障害があります。画像エンコーダは改善され、大規模なデータセットが使用されて入力解像度を増やすことで、これらの困難を克服するための取り組みがなされています。 さらに、LLaVAは、マルチモーダルな状況での指示調整を革新的に拡張することで、マルチモーダルな指示に従うデータを統合しています。しかし、これらの手法は頻繁に画像の入力サイズを持続可能に管理し、かつ大規模なトレーニングコストに対処するための支援が必要です。データセットが大きくなるにつれて、画像とテキストの関連性の微妙なニュアンスを理解するために、より複雑な画像の説明が必要とされる状況が増えてきます。これは、COYOやLAIONなどのデータセットで見られる簡潔な一文のキャプションで満たされる必要がある条件です。これらの制約により、華中科技大学と金山研究所の研究者らは、Monkeyと呼ばれるLMMパラダイムのコンテキストで入力解像度を高めるためのリソース効率の良い技術を提案しています。既存のLMMを活用することで、時間のかかる事前トレーニングプロセスを回避することができるため、大規模なオープンソースの作業が豊富に存在していることに感謝します。 研究チームは、高解像度の画像をより管理しやすく、局所的な部分に分割するためのスライディングウィンドウアプローチを使用するシンプルかつ効率的なモジュールを提案しています。静的なビジュアルエンコーダ、複数のLoRA修正、および訓練可能なビジュアルリサンプラは、各パッチを個別にエンコードします。その後、言語デコーダには、これらのパッチのエンコーディングとグローバルな画像のエンコーディングが与えられ、より良い画像理解が行われます。また、BLIP2、PPOCR、GRIT、SAM、ChatGPT OpenAIなどの多くのジェネレータからのマルチレベルの手がかりを組み合わせた技術も開発し、豊富で高品質なキャプションデータを提供しています。 まず、彼らのモデルの画像キャプショニングの割り当ては、画像のさまざまなアクセサリやバックドロップの赤い旗など、間違いや抜けがなくほぼすべての側面を正確に説明することができます。キャプションに含まれる茶色のバッグは、写真をよく見ないとすぐには明らかでないかもしれませんが、モデルの説明では強調されています。この小さなヒントにより、モデルは確実に検証することができなくても理に適った結論を導くことができます。これにより、モデルは小さなアイテムにも注意を払い、論理的かつ正確な説明を提供する能力を示しています。ビジュアルの詳細な説明の提供だけでなく、モデルはさまざまな言語とそれらに対応する信号を区別することもできます。 この情報を使用することで、Monkeyによる写真の効用を合理的に予測することができます。写真の水印である “life quotes Tumblr” に “e” が欠けていても、モデルはそれに関する質問に答えることができます。これは、トレーニング後により高い解像度の写真の小さなテキストを読む能力を示しています。さらに、モデルが “October 6, 1966” という日付に関する質問に正しく応答することで、チャートからデータを読み取り、濃密なテキスト素材の中から適切な応答を特定する能力も示されています。この現象は、モデルが特定のテキストとそれに対応する目標の整合性を正確に表現できる能力を示し、濃密であいまいなテキストでもクエリに正確に応答する能力と、目的と全体的な知識の関連性を強調しています。 Monkeyの利点は次のようにまとめられます: 1. コンテキスト内の関連性。研究チームは、説明の生成においてさまざまなターゲット間の関係を理解し、テキスト説明を作成する際に共通の知識をより効果的に探索するためのマルチレベル戦略を提案することで、モデルの能力を向上させています。これにより、より深い洞察と詳細な結果が生み出されます。 2. 事前トレーニングなしで、1344 x 896までの解像度をサポート。LMMに通常使用される448 x…
このAI論文では、「Lightning Cat」というスマート契約の脆弱性検出ツールを紹介していますこれは、深層学習をベースにしたツールです
スマートコントラクトは、分散型アプリケーションの開発においてブロックチェーン技術で重要な役割を果たしています。スマートコントラクトの脆弱性は、潜在的な財務損失やシステムのクラッシュといった重大な脅威をもたらします。静的解析ツールなど従来の脆弱性検出方法は、事前に定義されたルールに依存するため、偽陽性や偽陰性が頻繁に発生します。この問題に対応するため、中国のSalus Securityの研究チームが「Lightning Cat」という新しいAIソリューションを導入し、スマートコントラクトの脆弱性検出に深層学習技術を活用しています。 論文の要点は3つの部分に分けられます。まず、スマートコントラクトの脆弱性検出に深層学習手法を活用したLightning Catソリューションの紹介です。次に、重要なデータ前処理手法が提案されており、CodeBERTを通じた意味的な特徴の抽出に重点が置かれています。最後に、実験結果はOptimised-CodeBERTが他のモデルより優れた性能を示していることを示しています。 研究者たちは、静的解析ツールの制限に取り組み、Lightning Catフレームワーク内に3つの最適化された深層学習モデル(Optimised-CodeBERT、LSTM、CNN)を提案しています。CodeBERTモデルは、スマートコントラクトの脆弱性検出の特定のタスクに対応するためにファインチューニングされた、事前学習済みのトランスフォーマーベースのモデルです。意味解析能力を向上させるために、研究者たちはデータ前処理でCodeBERTを使用し、コードの構文と意味に対するより正確な理解を可能にしています。 実験はSolidiFIベンチマークデータセットを使用して行われました。これには、7つの異なるタイプの脆弱性が含まれた9369の脆弱なコントラクトが注入されています。結果は、Optimised-CodeBERTモデルが優れた93.53%のf1スコアを達成し、脆弱性の特徴を正確に抽出する重要性が示されています。データ前処理におけるCodeBERTの使用は、構文と意味のより正確な把握に貢献しています。 研究者たちは、Lightning Catを静的解析ツールを超えるソリューションと位置付け、深層学習を活用して適応し続けることを強調しています。データ前処理においてCodeBERTが効果的に使用され、構文と意味の両方を捕捉する能力が評価されています。Optimised-CodeBERTモデルの優れたパフォーマンスは、脆弱性の特徴の抽出における精度によります。 結論として、研究者たちはスマートコントラクトの脆弱性検出が財務損失を防止し、ユーザーの信頼を保つ上で重要な役割を果たすことを主張しています。深層学習に基づくアプローチと最適化されたモデルを備えたLightning Catは、精度と適応性の面で既存のツールを凌駕する有望なソリューションとして浮上しています。
グローバルなチョコレート貿易の概要
この記事では、「チョコレートおよびその他のココアを含む食品製品」という貿易カテゴリに焦点を当てながら、UNコムトレード国際貿易データベースを探求しますこの特定の焦点によって、私たちは・・・
マイクロソフトリサーチは、Florence-2という新しいビジョン基盤モデルを導入しましたこれは、さまざまなコンピュータビジョンやビジョン言語のタスクに対応する統一されたプロンプトベースの表現を持っています
人工一般知能(AGI)システムでは、タスクに関係なく利点を提供する事前トレーニング可能な適応的表現の使用に向けた noticeable な傾向が見られました。自然言語処理(NLP)は、この傾向の良い例です。洗練されたモデルは、明快な指示で複数のドメインとタスクをカバーする包括的な知識を持つ柔軟性を示します。NLPの人気は、コンピュータビジョンにおいて補完的な戦略を促しています。特徴やマスキングされた輪郭、オブジェクト配置など、コンピュータビジョンでは特徴的な視覚データの処理が必要です。コンピュータビジョンにおいて普遍的な表現を実現するためには、図1に示されるように、2次元に配置されたさまざまな厳しい課題を上手に処理する必要があります。 図1 空間の階層性:モデルは、細部のピクセル情報と画像レベルのアイデアを理解することで異なるサイズの空間情報を認識する必要があります。図に示したビジョンにおける複雑な空間の階層をサポートするためには、モデルはさまざまな粒度を管理できる能力を持たなければなりません。 意味的な粒度:コンピュータビジョンでは、普遍的な表現はさまざまな意味的な粒度をカバーする必要があります。抽象的なタイトルからより詳細な説明へのパラダイムの変化により、さまざまな使用方法に対する柔軟な理解が提供されます。 この追求は、特異性と重要な挑戦に特徴付けられます。主要な障害は、より多くのデータの必要性であり、空間の階層性と意味的な粒度の複雑なニュアンスを捉える基盤モデルの開発を妨げます。ImageNet、COCO、Flickr30k Entitiesなどの既存のデータセットは、特殊なアプリケーション向けに広範に人間によってラベル付けされています。この制約に対処するためには、より大規模なスケールで各画像の詳細な注釈を生成することが不可欠です。また、コンピュータビジョンで空間の階層性と意味的な粒度をシームレスに統合するモデルが存在しません。タスク固有のデザインにより、従来のモデルは、意味的セグメンテーション、オブジェクト識別、画像キャプションなどのタスクで優れたパフォーマンスを発揮します。ただし、異なるビジョンタスクに対してタスク非依存的な方法で適応できる完全で統一的なモデルを作成することは、重要です。 統一された事前トレーニングとネットワークデザインを通じて、このモデルは、コンピュータビジョンにおける空間、時間、多モーダルの特徴の統合を先駆的に行っています。最初の進化的イテレーションは、ノイズのあるテキスト-イメージのペアリングでの事前トレーニングとカスタマイズされたアダプタを使用したタスク固有の微調整を通じて転送学習に優れています。ただし、大規模なタスク固有のデータセットとアダプタへの依存は、上記の2つの主要な問題に取り組む際にギャップを生じさせる原因となります。この研究では、Azureの研究者が、豊富なビジュアル注釈を使用して獲得された普遍的なバックボーンを提供しています。これにより、不完全かつ包括的なデータと均一なアーキテクチャの不足を成功裏に解決できる、様々なビジョンタスクに対するプロンプトベースの統一された表現が実現されます。 多タスク学習には、大規模で高品質な注釈付きデータが必要です。時間のかかる人間の注釈に頼らずに、彼らのデータエンジンは、\fld という広範なビジュアルデータセットを作成します。このエンジンには2つの効果的な処理モジュールがあります。第1のモジュールでは、特化モデルを使用して写真に共同でおよび自律的に注釈を付けることにより、従来の単一および手動の注釈戦略から脱却します。集団の知恵理論に類似して、多くのモデルが協力して一致を作り出し、より公平で信頼性のある画像解釈を実現します。習得された基本モデルを使用して、第2のモジュールはこれらの自動注釈を反復的に洗練し、フィルタリングします。 彼らのモデルは、この大規模なデータセットを活用して、シーケンス対シーケンス(seq2seq)アーキテクチャを使用して、イメージエンコーダとマルチモダリティエンコーダ‐デコーダを統合しています。このアーキテクチャは、タスク固有のアーキテクチャの調整を必要とせずに、さまざまなビジョンタスクをサポートします。これは、NLPコミュニティの柔軟なモデル作成と統一された基盤の目標と一致しています。データセット内のすべての注釈は、一貫してテキストの出力に標準化されます。これにより、目標と同じ損失関数を使用して単一の多タスク学習戦略を一貫して最適化することが可能になります。その結果、統一されたパラメータを持つ単一のモデルの制御下で、オブジェクト認識、キャプション付け、およびグラウンディングを含むさまざまな機能を処理できる柔軟なビジョン基盤モデル、またはモデルが作成されます。大規模な言語モデル(LLM)が使用する方法と一致して、テキストをプロンプトとして活用することにより、タスクを活性化させます。 彼らの方法は、一般的な表現を達成し、多くの視覚的タスクで広範な利用が可能です。主な見つかりとしては以下のとおりです: モデルは柔軟なビジョン基礎モデルであり、RefCOCOでの参照表現の理解、Flick30kでの視覚的根拠、およびCOCOでのキャプション作成などのタスクにおいて、新しい最先端のゼロショット性能を提供します。 モデルは小さなサイズにもかかわらず、公開された人間によるアノテーションデータを使用して微調整した後、より専門化されたモデルと競合します。特に、改良されたモデルはRefCOCOで新しいベンチマークの最先端スコアを設定しています。 事前に学習されたバックボーンは、下流のタスクであるCOCOオブジェクト検出、インスタンスセグメンテーション、およびADE20K意味セグメンテーションにおいて、教師付きおよび自己教師付きモデルを上回ります。彼らのモデルは、Mask-RCNN、DINO、およびUperNetフレームワークを使用しており、COCOおよびADE20Kデータセットに対してそれぞれ6.9、5.5、および5.9ポイントの大幅な向上をもたらし、またImageNetでの事前学習モデルのトレーニング効率を4倍にしています。
私の人生の統計:1年間習慣を追跡し、これが私が学んだことです
これはおそらく私が人生で行った中で最も長くて時間のかかる実験だと思いますその上、科学的な意義はほとんどありません - 人口サンプルはただ1人だけです - そして非常に...
KAISTのAI研究者が、「KTRL+F」という技術を導入しましたこれは、ドキュメント内で意味的なターゲットをリアルタイムで特定するための知識を補完するコンピューター上の検索タスクです
KTRL+Fタスクは、リアルタイムでドキュメント内の意味的な対象を特定するための知識拡張型インドキュメント検索問題であり、単一の自然なクエリを通じて外部知識を組み込みます。既存のモデルは、幻視、低レイテンシ、表面的な知識の活用の難しさなどの課題に直面しています。これを解決するため、KAIST AIとSamsung Researchの研究者は、スピードとパフォーマンスのバランスを取るための知識拡張型フレーズ検索モデルを提案しています。 従来の機械読解タスクとは異なり、KTRL+Fは、提供された文脈を超えた情報の活用能力に基づいてモデルを評価します。提案されたモデルは、外部知識の埋め込みをフレーズ埋め込みに組み込むことで、スピードとパフォーマンスのバランスを効果的に取ります。このモデルは文脈知識を強化し、正確かつ包括的な検索とドキュメント内の情報リトリーバルを可能にします。 KTRL+Fは従来のレキシカルマッチングツールや機械読解の制限に取り組んでいます。それはリアルタイムでドキュメント内の意味的な対象を特定し、単一の自然なクエリを通じて外部の知識を活用する能力に焦点を当てています。評価指標は、モデルがすべての意味的なマークを見つける能力、外部コマンドの活用、およびリアルタイムでの操作能力を評価します。KTRL+Fは、改善されたドキュメント内検索機能による情報アクセス効率の向上を目指しています。 KTRL+Fはリアルタイムで意味的な対象を特定する課題に取り組んでいます。このモデルは、外部知識の埋め込みをフレーズ埋め込みに追加することで、スピードとパフォーマンスのバランスを取ります。ジェネレーティブ、エキストラクティブ、検索ベースのモデルなど、さまざまなベースラインを、List EM、List Overlap F1、Robustness Scoreなどのメトリクスを使用して分析します。外部知識の組み込みは評価され、ユーザースタディによって、KTRL+Fの問題解決によって実現された検索体験の向上が検証されます。 ジェネレーティブベースラインは、事前学習された言語モデルを効果的に活用しますが、容量を拡大することがパフォーマンスを向上させることはまれです。エキストラクティブベースラインであるSequenceTaggerは、外部知識を利用することができないため、追いつく必要があります。提案されたモデルは、表面的な知識の埋め込みをフレーズ埋め込みに組み込むことで、スピードとパフォーマンスのバランスを取ります。ユーザースタディによって、ユーザーがモデルを使用することで検索時間とクエリを削減できることが確認され、検索体験の向上の効果が検証されます。 結論として、KTRL+Fは知識拡張型のドキュメント内検索タスクを紹介し、知識拡張型フレーズ検索モデルを提案しています。このモデルは外部知識の埋め込みをフレーズ埋め込みに組み込むことで、スピードとパフォーマンスのバランスを効果的に取ります。KTRL+Fの拡張性と実用性は、情報検索と知識拡張の将来の向上についての機会を示唆しています。 将来の研究方向には、リアルタイム処理において外部知識を検索可能なインデックスに取り込むエンドツーエンドトレーニング可能なアーキテクチャの探索、ニュースなどのタイムリーな知識の組み込み、さまざまなエンティティリンカーを使用したモデル間の比較による高品質な表面的知識の意義の調査が含まれます。提案されたモデルにおける知識集約デザインのさらなる評価、およびKTRL+Fにおけるベースラインモデルとその制限の理解を深めるための追加の実験が推奨されます。
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.