Learn more about Search Results A - Page 708

ランキングアルゴリズム入門

ランキング学習(LTR)は、クエリに対する関連性に基づいてアイテムのリストを並べ替えることを目的とした、教師あり機械学習アルゴリズムの一種です古典的な機械学習では、問題の中で...

「あなたのデータは(ついに)クラウドにありますそして、オンプレミスでの行動をやめてください」

「あなたがほとんどのキャリアでハンマーと釘で家を建ててきたと想像してくださいそして、私がネイルガンをあなたに与えたとしますしかし、木に押し付けてトリガーを引く代わりに、それを横に向けてしまいます...」

「気をつけるべき3つのサイレントなパンダのミス」

プログラミングで犯すミスを知らないことは、必ずしも私たちを愚か者にするわけではありませんしかし、望ましくない結果をもたらす可能性があります一部のミスはダイヤのように輝き、...

「大規模言語モデル(LLM)を実世界のビジネスアプリケーションに移す」

大規模な言語モデルはどこにでも存在します顧客との会話やVCの提案において、LLM技術の準備がどの程度進んでいるか、そして将来の応用にどのように貢献するかについての質問が含まれます私は以前の投稿でそれについていくつかのパターンを取り上げましたここでは、Persistent Systemsが製薬業界向けのアプリケーションについて実際のパターンについて話します

「ディープフェイクの解明:ヘッドポーズ推定パターンを活用した検出精度の向上」

「フェイク」動画の制作能力の出現は、視覚コンテンツの信頼性に関する重大な懸念を引き起こしました。本当と偽りの情報を区別することは、この問題に対処する上で重要です。深層学習と顔の特徴点を活用したさまざまなアルゴリズムは、この課題に取り組む上で魅力的な結果を示しています。フェイク動画を検出する上での主な課題は、説得力のあるディープフェイク技術によって引き起こされる潜在的な被害です。この技術は、欺瞞、証拠の改ざん、プライバシーの侵害、誤情報などに使用することができます。これらの動画を検出するには、顔の動き、テクスチャ、時間的一貫性を分析するなどの技術を組み合わせる必要があり、しばしば畳み込みニューラルネットワーク(CNN)のような機械学習を利用します。 最近の研究では、さまざまなアプローチを使用してディープフェイクを検出することに焦点を当てています。一部の研究では、ディープフェイクを異常値として扱い、深さ、背景、およびローカルグローバル情報の不整合を探索しています。他の研究では、ディープフェイクを独自のパターンと見なし、顔の特徴と色空間を分析するために深層学習技術を利用しています。これらの取り組みは、本物のコンテンツとディープフェイク動画を区別するための持続的な努力に貢献しています。 この文脈で、最近発表された新しい論文では、真実の動画とディープフェイクのコンテンツを区別するためのユニークな識別子として、ヘッドポーズ推定(HPE)の使用が提案されました。著者らは、動画中の個人のヘッドポーズを分析することで、本物とディープフェイクのコンテンツを区別するのに役立つと提案しています。このアプローチでは、動画操作中に導入される不整合を検出するために、ヘッドの向きの角度に焦点を当てています。この研究は、さまざまな手法とデータセットを使用して、この技術の有効性を評価し、ディープフェイクの検出戦略の改善に貢献することを目指しています。 提案された手法の主なアイデアは、ヘッドポーズ推定を使用してディープフェイク動画を検出するための特徴的な要素とすることです。 HPEは、画像や動画中の人物の頭の位置と向きを決定することです。この情報を使用して、ディープフェイクの操作によって導入される不整合を特定することができます。なぜなら、ヘッドの位置の微小な変化でも正確に再現することは困難だからです。この研究では、3つのHPE手法を分析し、人気のあるFF++ディープフェイクデータセットで水平および垂直の分析を行っています。目標は、ディープフェイクの検出に最も効果的な手法を特定することです。 著者らは、ヘッドポーズパターンを使用してディープフェイク動画を検出するための実験を行いました。「FaceForensics++」データセットを使用し、リアルな動画と操作された動画を含んでいます。彼らはKNNと動的時間歪み(DTW)を使用してシーケンスを整列させ、時系列パターンを捉えるために深層学習モデル(1D畳み込みとGRU)を使用しました。これらの手法は、ヘッドポーズに基づいて動画を本物または偽物として分類することを目指しています。最良の結果は、FSA-NetとKNN-DTWを使用したHPEベースの手法から得られました。この手法は、いくつかの最先端の手法を上回り、データセットの異なるサブセット間での安定性と転移性を示しました。この研究は、ヘッドポーズパターンがディープフェイクの検出に効果的であり、特にFaceSwapのようなより現実的でない攻撃に対して有効であることを示しています。 結論として、本記事では、ディープフェイク動画の増加する脅威に対応するために最近発表された新しい手法を紹介しました。このアプローチでは、ヘッドポーズ推定(HPE)を使用して動画内のヘッドの向きを分析し、不整合を特定することでディープフェイクを識別します。この研究チームは、FF++ディープフェイクデータセットを使用して3つのHPE手法を評価し、KNNと動的時間歪み(DTW)および深層学習モデルを使用した実験を行いました。FSA-NetとKNN-DTWを使用したHPEベースの手法は、最先端の手法を凌駕し、優れた性能を示しました。これは、ヘッドポーズパターンを使用してディープフェイクを効果的に検出する可能性を強調しており、特にFaceSwapなどの現実的でない操作に対して有効です。

カーネル密度推定器のステップバイステップの説明

KDEは、基礎となるプロセスについての仮定をすることなく、任意のデータから視覚的に魅力的なPDFを作成することができます

「ウェブマップを使用した空間データの表示」

地図を作る方法はたくさんありますQGISやArcGISなどのデスクトップGISソフトウェア、LeafletやMapbox GL JSなどのウェブフレームワーク、またはインクと紙を使って昔ながらの方法で作ることもできますウェブ...

新しいタンパク質設計のためのディープラーニング

ワシントン大学とベルギーのゲント大学の科学者たちは、深層学習技術を用いて、デノボ計算タンパク質設計における現在のエネルギーベースの物理モデルを強化しました

「文書理解の進展」

Google Research、Athenaチームのソフトウェアエンジニア、サンディープ・タタ氏による投稿 過去数年間で、複雑なビジネスドキュメントを自動的に処理し、それらを構造化されたオブジェクトに変換するシステムの進歩が急速に進んでいます。領収書、保険見積もり、財務報告書などのドキュメントからデータを自動的に抽出するシステムは、エラーが多く手作業が必要な作業を回避することで、ビジネスワークフローの効率を劇的に向上させる潜在能力を持っています。Transformerアーキテクチャに基づいた最近のモデルは、驚異的な精度の向上を示しています。PaLM 2などのより大規模なモデルは、これらのビジネスワークフローをさらに効率化するために活用されています。しかし、学術文献で使用されるデータセットは、現実のユースケースで見られる課題を捉えることができていません。その結果、学術ベンチマークはモデルの精度を高く報告していますが、同じモデルを複雑な現実世界のアプリケーションに使用すると、精度が低下します。 KDD 2023で発表された「VRDU: A Benchmark for Visually-rich Document Understanding」では、このギャップを埋め、研究者がドキュメント理解タスクの進捗状況をより正確に追跡できるようにするため、新しいVisually Rich Document Understanding(VRDU)データセットの公開を発表しています。私たちは、ドキュメント理解モデルが頻繁に使用される実世界のドキュメントの種類に基づいて、良いドキュメント理解ベンチマークのための5つの要件をリストアップしています。そして、現在研究コミュニティで使用されているほとんどのデータセットがこれらの要件のいずれかを満たしていないことを説明し、一方でVRDUはこれらの要件をすべて満たしていることを説明しています。私たちは、VRDUデータセットと評価コードをクリエイティブ・コモンズ・ライセンスの下で公開することを発表できることを喜んでいます。 ベンチマークの要件 まず、実世界のユースケースでの最先端のモデルの精度(例:FormNetやLayoutLMv2との比較)を学術ベンチマーク(例:FUNSD、CORD、SROIE)と比較しました。その結果、最先端のモデルは学術ベンチマークの結果とは一致せず、実世界でははるかに低い精度を提供しました。次に、ドキュメント理解モデルが頻繁に使用される典型的なデータセットを学術ベンチマークと比較し、実世界のアプリケーションの複雑さをより良く捉えるための5つのデータセットの要件を特定しました: リッチスキーマ:実際の実務では、構造化抽出のためのさまざまな豊富なスキーマが存在します。エンティティには異なるデータ型(数値、文字列、日付など)があり、単一のドキュメント内で必須、オプション、または繰り返しの場合もあり、さらにネストする場合もあります。ヘッダ、質問、回答などの単純なフラットなスキーマの抽出タスクでは、実務でよく遭遇する問題を反映していません。 レイアウト豊かなドキュメント:ドキュメントには複雑なレイアウト要素が含まれている必要があります。実践的な設定での課題は、ドキュメントにテーブル、キーと値のペア、単一列と二列のレイアウトの切り替え、異なるセクションのフォントサイズの変化、キャプション付きの画像や脚注などが含まれることです。これに対して、ほとんどのドキュメントが文、段落、セクションヘッダを持つ文章で構成されているデータセットとは対照的です。これは、長い入力に関する古典的な自然言語処理文献の焦点となるようなドキュメントの種類です。 異なるテンプレート:ベンチマークには異なる構造のレイアウトやテンプレートが含まれるべきです。特定のテンプレートから抽出することは、高容量モデルにとっては容易ですが、実際の実務では新しいテンプレート/レイアウトにも対応できる汎化能力が必要です。ベンチマークのトレーニングとテストの分割によって測定される能力です。 高品質なOCR:ドキュメントは高品質な光学文字認識(OCR)の結果を持っている必要があります。このベンチマークでは、VRDUタスク自体に焦点を当て、OCRエンジンの選択によってもたらされる変動性を除外することを目指しています。 トークンレベルの注釈:ドキュメントには、対応する入力テキストの一部としてマッピングできる正解の注釈が含まれている必要があります。これにより、各トークンを対応するエンティティの一部として注釈付けすることができます。これは、単にエンティティから抽出するための値のテキストを提供するだけではありません。これは、与えられた値に偶発的な一致があることを心配する必要がないクリーンなトレーニングデータの生成に重要です。たとえば、一部の領収書では、「税抜き合計」フィールドが「合計」フィールドと同じ値を持つ場合があります。トークンレベルの注釈があれば、両方の一致する値が「合計」フィールドの正解としてマークされたトレーニングデータを生成することを防ぐことができ、ノイズのない例を生成できます。 VRDUのデータセットとタスク VRDUデータセットは、登録フォームと広告購入フォームの2つの公開データセットを組み合わせたものです。これらのデータセットは、実世界の使用例を代表する例を提供し、上記の5つのベンチマーク要件を満たしています。…

「デジタルハイスト」がロゼッタストーンを奪還

「ロンドンのデザイナーたちが、ブリティッシュ・ミュージアムに行かなくても人々がアクセスできるよう、ロゼッタ・ストーンの三次元デジタル表現を作成することで、デジタル的にロゼッタ・ストーンを「再帰還」させました」

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us