研究ライフサイクルの中心に倫理的な原則を置く

'研究ライフサイクルに倫理的原則を中心に置く'

倫理規定 – マルチモーダルプロジェクト

倫理規定の目的

機械学習の研究や応用は「データプライバシーの問題、アルゴリズムのバイアス、自動化のリスク、悪意のある利用」(NeurIPS 2021倫理ガイドライン)を引き起こす可能性があることがよく文献化されています。この短い文書の目的は、私たち(Hugging Faceのマルチモーダル学習グループ)が追求しているプロジェクトに対して採用する倫理原則を明確化することです。プロジェクトの初めにこれらの倫理原則を定義することで、それらを機械学習のライフサイクルの中核に位置づけます。

プロジェクトで行っている意思決定、システムのどの側面に取り組んでいるか、チームへの連絡方法について透明性を持ち、プロセスの早い段階でフィードバックを受けることで、意味のある変更を行い、目標とする目標と取り込むべき価値観を意識した選択についての議論を行いたいと考えています。

この文書は、Hugging Faceのマルチモーダル学習グループ(機械学習研究者とエンジニアで構成される)による議論の結果であり、倫理の実施、データガバナンス、個人のプライバシーに関する複数の専門家の貢献を受けています。

この倫理規定の制約

この文書は進行中の作業であり、2022年5月の反省の状態を反映しています。現時点では「倫理的なAI」についての合意や公式の定義は存在せず、私たちの考えも時間とともに変わる可能性が非常に高いです。更新がある場合は、GitHubを通じて変更を直接反映し、変更の理由と更新履歴を提供します。この文書は倫理的なAIのベストプラクティスについての真実の情報源とすることを意図していません。私たちは、不完全ではあるが、研究の影響、予見される潜在的な害、およびこれらの害を緩和するために取ることができる戦略について考えることが、機械学習コミュニティにとって正しい方向に進むと信じています。プロジェクト全体を通じて、この文書で説明されている価値観をどのように実施しているか、およびプロジェクトの文脈で観察される利点と制約を文書化します。

コンテンツポリシー

最先端のマルチモーダルシステムを研究することで、私たちはこのプロジェクトの一環として目指す技術の悪用をいくつか予測しています。以下は、最終的に防止したい使用例に関するガイドラインを提供しています:

  • 暴力、嫌がらせ、いじめ、害、憎悪、差別など、人に害を及ぼす性質のコンテンツや活動の宣伝。性別、人種、年齢、能力の状態、LGBTQA+の指向、宗教、教育、社会経済的地位、その他の敏感なカテゴリ(性差別/女性嫌悪、カースト制度、人種差別、障害差別、トランスフォビア、同性愛嫌悪)に基づく特定のアイデンティティのサブポピュレーションに対する偏見。
  • 規制、プライバシー、著作権、人権、文化的権利、基本的権利、法律、およびその他の文書の侵害。
  • 個人を特定できる情報の生成。
  • 責任を持たずに虚偽の情報を生成し、他の人を傷つける目的で行うこと。
  • 医療、法律、金融、移民などの高リスク領域でのモデルの無謀な使用 – これらは基本的に人々の生活を損なう可能性があります。

プロジェクトの価値観

  • 透明性を持つ:私たちは意図、データの情報源、ツール、および意思決定について透明性を持ちます。透明性を持つことで、私たちはコミュニティに自分たちの作業の弱点を公開し、責任を持ち、説明責任を果たすことができます。
  • オープンで再現可能な作業を共有する:オープン性にはプロセスと結果の2つの側面があります。データ、ツール、実験条件の正確な説明を共有することは、良い研究の実践だと考えています。ツールやモデルのチェックポイントを含む研究資源は、すべての人に差別なく(宗教、民族、性的指向、性別、政治的指向、年齢、能力など)、対象範囲内で使用できるようにアクセスできるようにする必要があります。私たちは、研究が機械学習研究コミュニティ以外の観客にも簡単に説明できるようにすることをアクセシビリティと定義しています。
  • 公平である:私たちは、すべての人間の平等な扱いを公平さと定義しています。公平さを実現するためには、人種、性別、障害、性的指向などの特性に基づく望ましくないバイアスを監視し、軽減する必要があります。特にマージナライズされた弱者のグループに影響を与える可能性のある否定的な結果をできるだけ制限するために、不公平なバイアス(予測型警察アルゴリズムの人種差別など)のレビューは、データとモデルの出力の両方で行われるべきです。
  • 自己批判:私たちは自分たちの不完全さを認識し、倫理的価値観や他の責任あるAIの意思決定をより良く実施する方法を常に探し続けるべきです。たとえば、トレーニングデータのキュレーションやフィルタリングのためのより良い戦略を含みます。私たちは、誇大宣伝や根拠のない議論やハイプを行うべきではありません。
  • クレジットを与える:私たちは、適切なライセンスとクレジットの帰属を通じて人々の仕事を尊重し、認めるべきです。

これらの値は時には相互に矛盾することがあることに注意しておきます(たとえば、公正であることとオープンで再現可能な作業を共有すること、または個人のプライバシーを尊重し、データセットを共有することなど)。私たちは、私たちの意思決定のリスクと利益を事例ごとに考慮する必要があることを強調します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「デベロッパー用の15以上のAIツール(2023年12月)」

“`html GitHub Copilot GitHub Copilotは、市場をリードするAIによるコーディングアシスタントです。開発者が効率的に...

機械学習

線形回帰の理論的な深堀り

多くのデータサイエンス志望のブロガーが行うことがあります 線形回帰に関する入門的な記事を書くことですこれは、この分野に...

機械学習

このAI論文は、拡散モデルのコンセプトを自身の知識を使って消去するためのモデルの重みを微調整する新しい方法を提案しています

近年、優れた画像品質と無限の生成能力から、モダンなテキストから画像を生成するモデルが注目を集めています。これらのモデ...

機械学習

「隠れマルコフモデルの力を解読する」

はじめに スマートフォンの音声認識や天気予報の複雑さについて考えたことはありますか?もしそうなら、Hidden Markov Models...

機械学習

「大規模言語モデルにおける早期割れに打ち勝てるか?Google AIがパフォーマンス向上のためにバッチキャリブレーションを提案」

大規模な言語モデルは、最近、自然言語理解や画像分類のさまざまなタスクにおいて強力なツールとして登場しています。しかし...

機械学習

FastAPI、AWS Lambda、およびAWS CDKを使用して、大規模言語モデルのサーバーレスML推論エンドポイントを展開します

データサイエンティストにとって、機械学習(ML)モデルを概念実証から本番環境へ移行することは、しばしば大きな課題を提供...