研究ライフサイクルの中心に倫理的な原則を置く

'研究ライフサイクルに倫理的原則を中心に置く'

倫理規定 – マルチモーダルプロジェクト

倫理規定の目的

機械学習の研究や応用は「データプライバシーの問題、アルゴリズムのバイアス、自動化のリスク、悪意のある利用」(NeurIPS 2021倫理ガイドライン)を引き起こす可能性があることがよく文献化されています。この短い文書の目的は、私たち(Hugging Faceのマルチモーダル学習グループ)が追求しているプロジェクトに対して採用する倫理原則を明確化することです。プロジェクトの初めにこれらの倫理原則を定義することで、それらを機械学習のライフサイクルの中核に位置づけます。

プロジェクトで行っている意思決定、システムのどの側面に取り組んでいるか、チームへの連絡方法について透明性を持ち、プロセスの早い段階でフィードバックを受けることで、意味のある変更を行い、目標とする目標と取り込むべき価値観を意識した選択についての議論を行いたいと考えています。

この文書は、Hugging Faceのマルチモーダル学習グループ(機械学習研究者とエンジニアで構成される)による議論の結果であり、倫理の実施、データガバナンス、個人のプライバシーに関する複数の専門家の貢献を受けています。

この倫理規定の制約

この文書は進行中の作業であり、2022年5月の反省の状態を反映しています。現時点では「倫理的なAI」についての合意や公式の定義は存在せず、私たちの考えも時間とともに変わる可能性が非常に高いです。更新がある場合は、GitHubを通じて変更を直接反映し、変更の理由と更新履歴を提供します。この文書は倫理的なAIのベストプラクティスについての真実の情報源とすることを意図していません。私たちは、不完全ではあるが、研究の影響、予見される潜在的な害、およびこれらの害を緩和するために取ることができる戦略について考えることが、機械学習コミュニティにとって正しい方向に進むと信じています。プロジェクト全体を通じて、この文書で説明されている価値観をどのように実施しているか、およびプロジェクトの文脈で観察される利点と制約を文書化します。

コンテンツポリシー

最先端のマルチモーダルシステムを研究することで、私たちはこのプロジェクトの一環として目指す技術の悪用をいくつか予測しています。以下は、最終的に防止したい使用例に関するガイドラインを提供しています:

  • 暴力、嫌がらせ、いじめ、害、憎悪、差別など、人に害を及ぼす性質のコンテンツや活動の宣伝。性別、人種、年齢、能力の状態、LGBTQA+の指向、宗教、教育、社会経済的地位、その他の敏感なカテゴリ(性差別/女性嫌悪、カースト制度、人種差別、障害差別、トランスフォビア、同性愛嫌悪)に基づく特定のアイデンティティのサブポピュレーションに対する偏見。
  • 規制、プライバシー、著作権、人権、文化的権利、基本的権利、法律、およびその他の文書の侵害。
  • 個人を特定できる情報の生成。
  • 責任を持たずに虚偽の情報を生成し、他の人を傷つける目的で行うこと。
  • 医療、法律、金融、移民などの高リスク領域でのモデルの無謀な使用 – これらは基本的に人々の生活を損なう可能性があります。

プロジェクトの価値観

  • 透明性を持つ:私たちは意図、データの情報源、ツール、および意思決定について透明性を持ちます。透明性を持つことで、私たちはコミュニティに自分たちの作業の弱点を公開し、責任を持ち、説明責任を果たすことができます。
  • オープンで再現可能な作業を共有する:オープン性にはプロセスと結果の2つの側面があります。データ、ツール、実験条件の正確な説明を共有することは、良い研究の実践だと考えています。ツールやモデルのチェックポイントを含む研究資源は、すべての人に差別なく(宗教、民族、性的指向、性別、政治的指向、年齢、能力など)、対象範囲内で使用できるようにアクセスできるようにする必要があります。私たちは、研究が機械学習研究コミュニティ以外の観客にも簡単に説明できるようにすることをアクセシビリティと定義しています。
  • 公平である:私たちは、すべての人間の平等な扱いを公平さと定義しています。公平さを実現するためには、人種、性別、障害、性的指向などの特性に基づく望ましくないバイアスを監視し、軽減する必要があります。特にマージナライズされた弱者のグループに影響を与える可能性のある否定的な結果をできるだけ制限するために、不公平なバイアス(予測型警察アルゴリズムの人種差別など)のレビューは、データとモデルの出力の両方で行われるべきです。
  • 自己批判:私たちは自分たちの不完全さを認識し、倫理的価値観や他の責任あるAIの意思決定をより良く実施する方法を常に探し続けるべきです。たとえば、トレーニングデータのキュレーションやフィルタリングのためのより良い戦略を含みます。私たちは、誇大宣伝や根拠のない議論やハイプを行うべきではありません。
  • クレジットを与える:私たちは、適切なライセンスとクレジットの帰属を通じて人々の仕事を尊重し、認めるべきです。

これらの値は時には相互に矛盾することがあることに注意しておきます(たとえば、公正であることとオープンで再現可能な作業を共有すること、または個人のプライバシーを尊重し、データセットを共有することなど)。私たちは、私たちの意思決定のリスクと利益を事例ごとに考慮する必要があることを強調します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「Amazon SageMakerスマートシフティングを使用して、ディープラーニングモデルのトレーニングを最大35%高速化」

今日の急速に進化する人工知能の風景において、ディープラーニングモデルは革新の最前線に位置しており、コンピュータビジョ...

機械学習

ディープラーニングを使用した自動音楽生成

歴史的に、音楽は人間の芸術的な努力の強力な指標として機能してきました。現在、伝統的な音楽の構築と計算手法の融合は特に...

機械学習

ML.NETのカタログとユースケースを探検する

この機械学習初心者向けの概要は、ML.NETのカタログの概念に焦点を当てていますML.NETは、.NET開発者向けのクロスプラットフ...

AIニュース

ハギングフェイスがSafeCoderを導入:エンタープライズ向けに構築されたコードアシスタントソリューション

コードアシスタントソリューションは、開発者がコードを書くときや編集するときに支援するツールやソフトウェアアプリケーシ...

データサイエンス

LinkedInのフィード進化:より詳細かつパワフルな機械学習、そして依然として人間も重要

LinkedInのフィードとインフラの最新更新について読むと、人間を中心に据えた原則を技術用語と実装に繋げる方法が解説されて...