Search Results 機械学習（ML）アルゴリズム

「ステレオタイプやディスインフォメーションに対抗するAIヘイトスピーチ検出」

AIがどのようにヘイトスピーチやステレオタイプと戦い、AIベースの対話とヘイトスピーチ検出技術を使って安全なオンラインコミュニティを育成しているかを学びましょう

「VIFを超えてバイアス軽減と予測精度のための多重共線性分析」

機械学習では、多重共線性は経験豊富な専門家から初心者まで、誰にとっても複雑なパズルです機械学習（ML）アルゴリズムは、予測の正確性を最適化するために設計されており、説明可能性は重視されていません

「MLにより、がんの診断と治療に助けが期待されます」

特定のタイプのがんの診断を支援し、最も効果的な治療法を選択するために新しい機械学習アルゴリズムが設計されました

「機械学習に質問をすることで、より賢くなることができます」

デューク大学のバイオメディカルエンジニアは、分子生物学と薬物開発のための機械学習（ML）アルゴリズムの精度を向上させました

ケンブリッジ大学とUCLAの研究者が、信頼性のある機械学習システムの開発をガイドするための新しいデータ中心のAIチェックリストスタイルフレームワークであるDC-Checkを紹介しました

機械学習（ML）アルゴリズムの革新的な進歩により、電子商取引、金融、製造、医療など、さまざまな産業でAIを活用したアプリケーションが可能になりました。しかし、複雑なデータ環境で実世界のMLシステムを開発することは困難であり、多くの高名な失敗例がデータやアルゴリズムのバイアスに起因することが示されています。この問題に対処するため、ケンブリッジ大学とUCLAの研究チームは、DC-Checkという新しいデータ中心のAIフレームワークを紹介しました。このフレームワークは、機械学習アルゴリズムのトレーニングに使用されるデータの重要性を強調することを目指しています。DC-Checkは、実践者や研究者がMLパイプラインの各ステージ（データ、トレーニング、テスト、展開）でデータの影響について批判的に考えるための質問と実用的なツールを提供するアクション可能なチェックリストスタイルのフレームワークです。研究者たちは、現在の機械学習のアプローチはモデル中心であり、モデルの反復と改善に焦点を当てて予測性能の向上を図っていると指摘しています。しかし、このアプローチはしばしばMLライフサイクル全体でのデータの重要性を過小評価しています。一方、データ中心のAIは、信頼性のあるMLシステムの構築においてデータを鍵と見なし、これらのシステムに使用されるデータを体系的に改善しようとします。研究者たちは、データ中心のAIを次のように定義しています。「データ中心のAIは、モデルのトレーニングと評価に使用される基盤となるデータを体系的に特徴付け、評価、監視するための手法とツールを包括的に扱う。データに焦点を当てることで、予測性が高いだけでなく、信頼性のあるAIシステムを作成することを目指しています」と研究者は論文で述べています。研究者たちは、データ中心のAIには大きな関心がある一方で、データ中心のAIシステムを設計する際には現在標準化されたプロセスがないため、実践者がそれを適用することが困難であると指摘しています。 DC-Checkは、データ中心のAIの普及を促進するための最初の標準化されたフレームワークとしてこの課題を解決します。DC-Checkのチェックリストは、パイプラインの各ステージでデータの影響を考えるための一連の質問を提供し、実用的なツールと技術も提供します。また、解決すべき課題についても強調しています。 DC-Checkは、機械学習パイプラインの4つの主要なステージ（データ、トレーニング、テスト、展開）をカバーしています。データのステージでは、DC-Checkは積極的なデータ選択、データのキュレーション、データ品質評価、およびモデルトレーニングに使用されるデータの品質向上のための合成データを考慮するよう実践者に促します。トレーニングのステージでは、DC-Checkはデータに基づくモデル設計、ドメイン適応、およびグループの頑健なトレーニングを推進します。テストの考慮事項には、情報を得たデータの分割、ターゲット指標とストレステスト、およびサブグループでの評価が含まれます。最後に、展開の考慮事項には、データの監視、フィードバックループ、および不確実性推定などの信頼性手法が含まれます。チェックリストの対象は実践者と研究者ですが、DC-Checkは組織の意思決定者、規制当局、政策立案者がAIシステムについて的確な判断を下すのにも利用できるとされています。 DC-Checkの研究チームは、このチェックリストがデータ中心のAIの広範な採用を促進し、信頼性の高い機械学習システムをもたらすことを期待しています。また、DC-Checkの論文とともに、DC-Checkのチェックリストとツール、さらに追加のリソースを提供するコンパニオンウェブサイトも提供しています。 The post Cambridge and UCLA Researchers Introduce DC-Check: a new Data-Centric AI Checklist-Style Framework to Guide…

「機械学習と人工知能を利用した在庫管理の改善」

「人工知能（AI）は在庫管理システムの効果を大幅に向上させることができます需要予測をサポートし、在庫レベルを最適化し、廃棄物を削減するのに役立ちます」

「機械学習モデルからの情報漏洩を分析し、制約するための新しいAIの理論的枠組み」

機械学習アルゴリズムは、複雑で敏感な問題に適用されることから、プライバシーとセキュリティの懸念を引き起こしています。研究によると、機械学習モデルは攻撃を通じて敏感な情報を漏洩させることがあり、これらの攻撃を記憶と一般化に結び付けるための新しい形式が提案されています。従来の研究では、これらの問題を理解するための一般的なフレームワークの構築よりも、データ依存の戦略に焦点を当てて攻撃を実行することが中心でした。この文脈において、最近の研究では、推論攻撃と一般化と記憶との関連を研究するための新しい形式が提案されました。このフレームワークでは、訓練セットに与えられたモデルパラメータの分布について、一切の仮定を置かないより一般的なアプローチが考慮されています。本記事で提案されている主なアイデアは、一般化、差分プライバシー（DP）、属性、およびメンバーシップ推論攻撃の関係を、従来の研究とは異なる視点から研究することです。本記事では、テールバウンド損失関数のより一般的なケースに結果を拡張し、ホワイトボックスアクセスを持つベイズ攻撃者を考慮しています。これにより、すべての可能な攻撃者の成功確率と一般化ギャップに上限が設定されます。本記事では、逆の主張である「一般化はプライバシーを意味する」という主張が従来の研究で証明されたことがないことを示し、一般化ギャップが0に近づくと同時に攻撃者が完全な正確性を達成する例を示しています。具体的には、本研究では機械学習（ML）システムにおけるメンバーシップおよび/または属性推論攻撃をモデリングするための形式化手法が提案されています。さまざまな問題の設定に適用できるシンプルで柔軟なフレームワークと定義を提供しています。また、本研究では推論攻撃の成功率に対する普遍的な上限を確立し、これはMLモデルのプライバシー保証と、プライバシー防御メカニズムの設計に役立つことができます。著者たちは一般化ギャップとメンバーシップ推論の関連性について調査し、悪い一般化がプライバシーリークにつながることを示しています。また、訓練されたモデルがその訓練セットについてどれだけの情報を保持しているかと、それがプライバシー攻撃における役割についても研究しており、ベイズ攻撃者の利得を相互情報量が上限することを見つけました。線形回帰と深層ニューラルネットワークを用いた数値実験により、提案手法がプライバシーリスクの評価において有効であることが示されています。研究チームの実験は、機械学習モデルの情報漏洩に関する洞察を提供しています。チームは境界を使用して攻撃者の成功率を評価し、下限が一般化ギャップの関数であることが分かりました。これらの下限は、攻撃がより優れた結果を出せることを保証するものではありませんが、下限がランダムな推測よりも高い場合、モデルは敏感な情報を漏洩していると考えられます。チームは、メンバーシップ推論攻撃に対して脆弱なモデルは属性推論攻撃にも脆弱であることを示しました。モデルへのホワイトボックスアクセスは、著しい利益をもたらすことが示されました。ベイズ攻撃者の成功率はプライバシーの強力な保証ですが、関連する決定領域を計算することは計算的に困難です。ただし、チームは線形回帰とガウスデータを使用した合成例を提供し、関連する分布を解析的に計算することが可能でした。結論として、機械学習（ML）アルゴリズムの普及により、プライバシーとセキュリティに関する懸念が高まっています。最近の研究では、メンバーシップおよび属性推論攻撃を通じた敏感な情報の漏洩のリスクが明らかにされています。この問題に対処するため、より一般的なアプローチを提供する新しい形式が提案されています。この形式では、攻撃と一般化、記憶との関連を理解するための指針となる普遍的な上限が確立されています。線形回帰と深層ニューラルネットワークにおける実験は、提案手法がプライバシーリスクの評価において有効であることを示しています。全体的に、この研究はMLモデルの情報漏洩に関する貴重な洞察を提供し、そのプライバシーとセキュリティの向上のために継続的な取り組みの必要性を示しています。

ハイパーパラメータ最適化のためのトップツール/プラットフォーム2023年

ハイパーパラメータは、モデルの作成時にアルゴリズムの振る舞いを制御するために使用されるパラメータです。これらの要因は通常のトレーニングでは見つけることができません。モデルをトレーニングする前に、それらを割り当てる必要があります。最適なハイパーパラメータの組み合わせを選ぶプロセスは、機械学習におけるハイパーパラメータの最適化またはチューニングとして知られています。タスクに応じて利点と欠点を持つ、いくつかの自動最適化方法があります。ディープラーニングモデルの複雑さとともに、ハイパーパラメータの最適化のためのツールの数も増えています。ハイパーパラメータの最適化（HPO）には、オープンソースのツールとクラウドコンピューティングリソースに依存したサービスの2つの種類のツールキットが一般的にあります。以下に、MLモデルのハイパーパラメータ最適化に使用される主要なハイパーパラメータ最適化ライブラリとツールを示します。ベイズ最適化ベイジアン推論とガウス過程に基づいて構築されたPythonプログラムであるBayesianOptimisationは、ベイジアングローバル最適化を使用して、可能な限り少ない反復回数で未知の関数の最大値を見つけます。この方法は、探索と活用の適切なバランスを取ることが重要な高コスト関数の最適化に最適です。 GPyOpt GPyOptは、ベイジアン最適化のためのPythonオープンソースパッケージです。ガウス過程モデリングのためのPythonフレームワークであるGPyを使用して構築されています。このライブラリは、ウェットラボの実験、モデルと機械学習手法の自動セットアップなどを作成します。 Hyperopt Hyperoptは、条件付き、離散、および実数値の次元を含む検索空間上の直列および並列最適化に使用されるPythonモジュールです。ハイパーパラメータの最適化（モデル選択）を行いたいPythonユーザーに、並列化のための手法とインフラストラクチャを提供します。このライブラリでサポートされているベイジアン最適化の手法は、回帰木とガウス過程に基づいています。 Keras Tuner Keras Tunerモジュールを使用すると、機械学習モデルの理想的なハイパーパラメータを見つけることができます。コンピュータビジョン向けの2つのプリビルドカスタマイズ可能なプログラムであるHyperResNetとHyperXceptionがライブラリに含まれています。 Metric Optimisation Engine (MOE) Metric Optimisation Engine（MOE）は、最適な実験設計のためのオープンソースのブラックボックスベイジアングローバル最適化エンジンです。パラメータの評価に時間や費用がかかる場合、MOEはシステムのパラメータ最適化方法として有用です。A/Bテストを通じてシステムのクリックスルーや変換率を最大化したり、高コストのバッチジョブや機械学習予測手法のパラメータを調整したり、エンジニアリングシステムを設計したり、現実の実験の最適なパラメータを決定したりするなど、さまざまな問題に対応できます。 Optuna Optunaは、機械学習に優れた自動ハイパーパラメータ最適化のためのソフトウェアフレームワークです。ハイパーパラメータの検索空間を動的に構築するための命令的な定義によるユーザAPIを提供します。このフレームワークは、プラットフォームに依存しないアーキテクチャ、シンプルな並列化、Pythonicな検索空間のための多くのライブラリを提供します。…

Google AIは、アーキテクチャシミュレータにさまざまな種類の検索アルゴリズムを接続するための、マシンラーニングのためのオープンソースのジム「ArchGym」を紹介しました

コンピュータアーキテクチャの研究は、コンピュータシステムの設計を評価および影響するためのシミュレータやツールを生み出す長い歴史があります。例えば、1990年代後半には、SimpleScalarシミュレータが開発され、科学者が新しいマイクロアーキテクチャの概念をテストすることができました。コンピュータアーキテクチャの研究は、gem5、DRAMSysなどのシミュレーションやツールの普及により大きな進歩を遂げてきました。その後、学術およびビジネスレベルでの共有リソースとインフラの広範な提供のおかげで、この学問は大きく進展しました。産業界と学界は、厳しい特定ドメインの要件を満たすために、コンピュータアーキテクチャ研究において機械学習（ML）最適化にますます焦点を当てています。これには、コンピュータアーキテクチャのためのML、TinyMLアクセラレーションのためのML、DNNアクセラレータデータパスの最適化、メモリコントローラ、消費電力、セキュリティ、プライバシーなどが含まれます。以前の研究では、設計最適化におけるMLの利点が示されていますが、異なる手法間での公平かつ客観的な比較を妨げる堅牢で再現性のあるベースラインの不足など、まだ採用には障害があります。一貫した開発には、これらの障害に対する理解と共同攻撃が必要です。ドメイン固有のアーキテクチャの設計空間を探索するために機械学習（ML）を使用することは広く行われています。ただし、設計空間をMLを使用して探索することは困難を伴います: 成長するMLテクニックのライブラリから最適なアルゴリズムを見つけることは困難です。手法の相対的なパフォーマンスとサンプル効率を評価する明確な方法はありません。 MLを支援したアーキテクチャの設計空間の探索と再現可能なアーティファクトの生成は、異なる手法間での公平で再現性のある客観的な比較のための統一されたフレームワークの欠如により妨げられています。これらの問題に対処するため、Googleの研究者はArchGymを発表しました。これは、様々な検索手法をビルディングシミュレータと統合する柔軟でオープンソースのジムです。機械学習によるアーキテクチャの研究：主な課題機械学習の支援を受けてアーキテクチャを研究する際には、多くの障害が存在します。コンピュータアーキテクチャの問題（例：DRAMコントローラの最適なソリューションの特定）に対して、最適な機械学習（ML）アルゴリズムやハイパーパラメータ（学習率、ウォームアップステップなど）をシステマチックに決定する方法はありません。設計空間探索（DSE）は、ランダムウォークから強化学習（RL）まで、さまざまなMLおよびヒューリスティック手法を使用することができます。これらの手法は、選択したベースライン以上のパフォーマンスを明らかに向上させますが、これが最適化アルゴリズムの選択された手法または設定ハイパーパラメータによるものかは明確ではありません。コンピュータアーキテクチャシミュレータは、アーキテクチャの進歩に不可欠ですが、探索フェーズにおいて精度、効率、経済性のバランスを取ることについての懸念があります。使用されるモデルの具体的な仕様によって（例：サイクル精度 vs MLベースのプロキシモデル）、シミュレータは大きく異なるパフォーマンスの推定値を提供することがあります。解析的またはMLベースのプロキシモデルは、低レベルの特徴を無視することができるため、アジャイルですが、通常、予測誤差が高いです。また、商用ライセンスによってシミュレータの使用頻度が制限されることもあります。総じて、これらの制限によるパフォーマンス対サンプル効率のトレードオフは、設計探索に選択される最適化アルゴリズムに影響を与えます。最後になりますが、MLアルゴリズムの環境は迅速に変化しており、一部のMLアルゴリズムは適切に機能するためにデータに依存しています。また、デザイン空間に関する洞察を得るために、データセットなどの関連アーティファクトでDSEの出力を視覚化することも重要です。 ArchGymによるデザイン ArchGymは、さまざまなMLベースの検索アルゴリズムを一貫して比較および対比するための統一された方法を提供することで、これらの問題を解決します。主要なパーツは次の2つです： 1) ArchGymの設定 2) ArchGymのエージェント環境は、アーキテクチャのコストモデルと目的のワークロードをカプセル化し、特定のアーキテクチャパラメータのセットに対してワークロードの実行にかかる計算コストを計算するために使用されます。エージェントにはハイパーパラメータと、検索に使用されるMLアルゴリズムを指示するポリシーが含まれています。ハイパーパラメータは、最適化されているモデルにとって重要であり、結果に大きな影響を与えることがあります。一方、ポリシーは、エージェントが時間の経過に伴って目標を最適化するためにどのパラメータを選択するかを指定します。 ArchGymの標準化されたインタフェースは、これらの2つの部分を結びつけ、ArchGymデータセットはすべての探索情報が保存される場所です。インタフェースを構成する3つの主要なシグナルは、ハードウェアの状態、パラメータ、およびメトリックスです。これらのシグナルは、エージェントとその周囲との信頼性のある通信路を確立するために最低限必要なものです。これらのシグナルにより、エージェントはハードウェアの状態を監視し、設定の調整を推奨して（顧客指定の）報酬を最大化するようにします。報酬は、ハードウェアの効率のいくつかの指標に比例します。研究者はArchGymを使用して、少なくとも1つのハイパーパラメータの組み合わせが他のML手法と同じハードウェアパフォーマンスをもたらすことを経験的に示し、これはさまざまな最適化ターゲットとDSEの状況にわたって成り立ちます。MLアルゴリズムのハイパーパラメータまたはベースラインの任意の選択によって、MLアルゴリズムのファミリーのどれが優れているかについて誤った結論が導かれる可能性があります。彼らは、ランダムウォーク（RW）を含むさまざまな探索アルゴリズムが、適切なハイパーパラメータの調整で最適な報酬を見つけることができることを示しています。ただし、最適なハイパーパラメータの組み合わせを特定するには、多くの作業または運が必要な場合もあることを覚えておいてください。 ArchGymは、MLアーキテクチャDSEのための共通で拡張可能なインターフェースを提供し、オープンソースソフトウェアとして利用できます。ArchGymはまた、コンピュータアーキテクチャの研究問題に対するより堅牢なベースラインを可能にし、さまざまなML技術の公正かつ再現可能な評価を行うことができます。研究者たちは、コンピュータアーキテクチャの分野で研究者が集まり、機械学習を利用して作業を加速し、新しい創造的な設計のアイデアを生み出す場所があれば、大きな進歩となると考えています。

3つの難易度レベルでベクトルデータベースを説明する

この記事では、ベクトルデータベースについて、直感的な理解からいくつかの例を交えて、より技術的な詳細に説明しています

Learn more about Search Results 機械学習（ML）アルゴリズム - Page 2