AIとオープンソースソフトウェア:誕生時に分かれたか?
「AIとオープンソースソフトウェア:誕生時に分かれた道?」
昨年末以来、オープンソースソフトウェアと機械学習の交差点のテーマについて読み書きと話をしてきました。将来がもたらす可能性を理解しようとしていました。
始めた当初は、主に機械学習コミュニティがオープンソースソフトウェアをどのように使用しているかについて話す予定でした。しかし、探求を進めるにつれて、両方の領域には多くの類似点があることに気付きました。本記事では、その類似点と機械学習がオープンソースソフトウェアから学べること、学べないことについて議論します。
- 「密度プロンプティングチェーンでGPT-4サマリゼーションをアンロックする」
- 『RAG パイプラインの落とし穴: 「テーブルの埋め込み」の語られざる挑戦』
- 敵対的なバイアス排除とは、公正な分類を実現するための手法です
最初からの構築
最も明確な関連性は、現代の機械学習と現代のソフトウェアの両方が、ほとんどがオープンソースソフトウェアで構築されているということです。ソフトウェアでは、コンパイラとコードエディタがあります。機械学習では、PyTorchやTensorFlowなどのトレーニングと推論のフレームワークがあります。これらの分野では、オープンソースソフトウェアが主導的な存在であり、変化の兆しは見られません。
ただし、特筆すべき例外があります。これらのフレームワークは、非常に独占的なNvidiaハードウェアとソフトウェアスタックに依存しています。最初は見かけよりも関連性があると言えます。長い間、オープンソースソフトウェアは、プロプライエタリなUnixオペレーティングシステム(プロプライエタリなハードウェアベンダーから販売されていました)上で動作していました。Linuxが登場してからは、スタックの「下部」がオープンであることが当たり前となりましたし、現在ではMacOSとWindows上で多くのオープン開発が行われています。機械学習においては、この問題がどのように解決されるのかは不明です。Amazon(AWS向け)、Google(クラウドとAndroid向け)、およびAppleは、競合するチップとスタックに投資しており、いずれかのメーカーがLinus(およびIntel)のようにスタック全体を解放する道を辿る可能性があります。
トレーニングデータ:新たな誤解されたサプライチェーン?
オープンソースソフトウェアの構築方法と機械学習の構築方法の間には、データの複雑さと公開性の両方において重要な関連性があります。
この「The Data Provenance Project」という私が共著した論文「https://www.kdnuggets.com/wp-content/uploads/villa_ai_open_source_software_separated_birth_1.png」で詳細が説明されていますが、現代の機械学習は数千のデータソースに基づいて構築されています。同様に、現代のオープンソースソフトウェアも何十万ものライブラリに基づいて構築されています。そして、各オープンライブラリには法的、セキュリティ、メンテナンス上の懸念が存在します。
私たちの組織では、オープンソースソフトウェアのバージョンにおけるこの課題を「誤解されたサプライチェーン」として議論しています。ソフトウェア業界は、素晴らしいオープンソースライブラリのビルディングブロックがあるため、構築を始めました。これにより、業界はオープンソースソフトウェアをサプライチェーンとして扱うようになりましたが、その「サプライヤー」の多くには驚きでした。
これらの課題を緩和するために、オープンソースソフトウェアは使用されているものを特定するためのスキャナやデプロイ後のトラッキングのためのメタデータなど、洗練された手法が多数開発されています(完璧とは言えませんが)。また、ボランティアのモチベーションと産業ニーズのミスマッチを解消するために、人材投資も始まっています。
残念ながら、機械学習コミュニティはまさに同じ「誤解された」サプライチェーンの誤りに陥ろうとしています。できることを多く行ってしまい、これらのデータセットに基づいた経済全体の長期的な影響についてあまり考えずに行動している状況です。
オープンソースの拡大と多様なニッチ
最後の重要な類似点は、機械学習がオープンソースソフトウェアと同様に多くのニッチに拡大し続けると強く推測していることです。現時点では、大型の生成モデルに関する(当然の)話題が盛り上がっていますが、小さなモデルや大型モデルの調整など、さまざまなモデルが存在します。実際、機械学習の主要なホスティングプラットフォームであるHuggingFaceは、サイト上のモデルの数が指数関数的に増えていることを報告しています。
これらのモデルは、オープンソースソフトウェアのように改善可能で豊富になるでしょう。これにより、非常に柔軟でパワフルなモデルになります。例えば、私は自宅の通りで安価かつプライバシー保護に配慮したトラフィック測定を行うために、小さな機械学習ベースのツールを使用しています。数年前までは高価なデバイスでしか不可能だった用途です。
しかし、この増殖は、追跡が必要になることを意味します。モデルは、低コストと簡単な展開のためにどこにでも現れるオープンソースソフトウェアやSaaSのようになる可能性があります。
メタデータは万能ではありませんが、最初の一歩です
したがって、複雑な供給チェーンや増殖する流通など、これらの重要な類似点(特に)がある場合、機械学習はオープンソースソフトウェアから何を学ぶことができますか?
最初の類似性のレッスンは、機械学習がその多くの課題を理解するために、メタデータとツールが必要であるということです。オープンソースソフトウェアは、著作権とライセンスのコンプライアンスを通じてメタデータ作業に取り組みましたが、偶発的なソフトウェア供給チェーンが成熟するにつれて、メタデータはさまざまな面で非常に有用であることが証明されました。
機械学習では、メタデータの追跡は進行中の作業です。いくつかの例:
- 業界で広く引用されている2019年の重要な論文では、モデルの開発者に「モデルカード」で作業の文書化を求めています。残念ながら、最近の調査では、野外での実装はまだ弱いことが示唆されています。
- SPDXとCycloneDXのソフトウェア材料(SBOM)仕様の両方が、AIデータとモデルの追跡を助けるためのAI材料(AI BOMs)に取り組んでいます。これは、モデルカードよりも構造化された方法であることが期待される複雑性にふさわしいものです。
- HuggingFaceは、モデルとデータセットの作成者がソースを文書化するためのさまざまな仕様とツールを作成しました。
- 上記で引用されているMITのデータプローベナンス論文は、実世界のデータを使用して仕様を具体化するために、データライセンスの「真実の姿」を理解しようとします。
- 個別に見ると、機械学習トレーニング作業を行っている多くの企業は、データの追跡に対してややゆるい関係を持っているように見えます。それを理由にして、データをうまく追跡せずにデータを投入することを言い訳にしています。
オープンソースから学んだことは、メタデータを正しく取得すること(まず仕様、次に実際のデータ)は、数年にわたるプロジェクトであり、政府の介入を必要とする可能性があるということです。機械学習は、できるだけ早くそのメタデータに飛び込むべきです。
セキュリティは本当の問題になるでしょう
セキュリティは、オープンソースソフトウェアのメタデータ需要のもう一つの主要な要因でした。実行しているものがわからない場合、終わりのない攻撃に対して脆弱性があるかどうかはわかりません。
機械学習は、従来のソフトウェア攻撃のほとんどには対象とされませんが、それは無敵ということではありません。 (私のお気に入りの例は、死んだドメインから描かれることが多いため、画像トレーニングセットを毒入りにすることが可能でした。)この分野の研究は非常に活発であり、すでに「概念の証明」を超えて、「リストアップ」と「分類化」が十分な攻撃が存在するという段階に進んでいます。
残念ながら、オープンソースソフトウェアは機械学習に対してセキュリティのための魔法の弾丸を提供することはできません。それがあれば、使っていることでしょう。しかし、オープンソースソフトウェアがさまざまなニーズに広がった歴史は、機械学習がこの課題に真剣に取り組まなければならないことを示唆しています。現在の展開方法以外のさまざまな方法で適用される可能性があるため、使用と展開のメタデータの追跡から始める必要があります。
規制と責任は拡大します
オープンソースメタデータの要件(ライセンス、セキュリティ)を推進した動機は、次の重要な類似点を指し示しています。セクターの重要性が増すにつれて、計測および追跡する必要のある事項の範囲も拡大するでしょう。なぜなら、規制と責任も拡大するからです。
オープンソースソフトウェアでは、長年にわたって主要な政府の「規制」は著作権法でしたので、そのためにメタデータが開発されました。しかし、オープンソースソフトウェアは現在、さまざまなセキュリティおよび製品責任のルールに直面しており、それらの新たな要件に対応するために供給チェーンを成熟させる必要があります。
AI(人工知能)はますます重要性を増すにつれて、さまざまな規制の対象となるでしょう。規制の源泉は非常に多様であり、コンテンツ(入力と出力の両方)、差別、および製品責任に関わるものです。これには「追跡可能性」と呼ばれるものが必要であり、モデルの構築方法やそれらの選択肢(データソースを含む)がモデルの結果にどのような影響を及ぼすかを理解する必要があります。
この核心的な要件-何が利用可能であり、それがどのようにしてここに来たのか-は、エンタープライズオープンソースソフトウェアの開発者にとっては既によく知られています。しかし、機械学習の開発者にとっては抜本的な変化になるかもしれませんし、受け入れる必要があります。
「長期」とは思っている以上に長いものです
機械学習がオープンソースソフトウェア(およびそれ以前の多くのソフトウェアの波)から学べるもう一つの教訓は、その有用な寿命が非常に長いことです。一度技術が「十分に良い」とされると、それが展開され、非常に長い期間にわたって保守される必要があります。これは、このソフトウェアの保守についてできるだけ早く考え、このソフトウェアが数十年後も生き残る可能性を考える必要があることを意味します。数十年は大げさではなく、私が遭遇する多くの顧客は投票できるほど古いソフトウェアを使用しています。多くのオープンソースソフトウェア企業や一部のプロジェクトは、こうした使用ケースを想定した「長期サポート」バージョンを提供しています。
対照的に、OpenAIはCodexツールを2年未満で提供し続けましたが、これにより学術界を含む多くの人々からの怒りが引き起こされました。機械学習の急速な変化や、ほとんどの採用者が最先端の技術を利用したいと考えていることを考えると、これは合理的な判断だったかもしれませんが、産業界が思っている以上に「長期」の計画を立てる必要がある日が来るでしょう。それには責任とセキュリティとの関わり方も含まれます。
金銭的なインセンティブが必ずしも一致しない
最後に、オープンソースソフトウェアと同様に、機械学習にも多くの資金が流入することは明らかですが、その資金のほとんどは「プロセッサーを保有する豊かな企業」の周りに集まるでしょう。オープンソースソフトウェアへの類推が成り立つなら、それらの企業はモデルの作成者(または利用者)とは異なる懸念や支出の優先順位を持つことになるでしょう。
当社であるTideliftは、長い間オープンソースソフトウェアにおけるインセンティブの問題について考えてきました。そして、世界最大のソフトウェア購入者であるアメリカ政府などもこの問題に関心を寄せています。
特に、コミュニティを作り上げようとする機械学習企業は、この課題について真剣に考える必要があります。数千のデータセットに依存している場合、それらが何十年にわたって保守、法的コンプライアンス、セキュリティに資金提供されることをどのように保証しますか?大企業が会社内に数十や数百のモデルを展開する場合、最も専門的な知識を持つ人々、つまりモデルを作成した人々が新たな問題に取り組むためにまだ存在し続けることをどのように確保しますか?
セキュリティと同様に、この課題に対する容易な答えはありません。ただし、機械学習がこの問題について真剣に対処する時期が早いほど、産業全体や世界全体の利益はより良くなるでしょう。
結論
機械学習は、学術界の実験主義の文化とシリコンバレーの速いイテレーションの文化が、それが非常に素晴らしいイノベーションの爆発をもたらす結果として、それによく利用されてきました。過去10年間のオープンソースソフトウェアの進展は、おそらく華やかさに欠けたものであったかもしれませんが、この間にそれはすべてのエンタープライズソフトウェアの基盤となり、多くの教訓を学びました。願わくば、機械学習はこれらの教訓を再発明しないで済むでしょう。
Luis Villaは、Tideliftの共同創設者兼ゼネラルカウンセルです。以前は、Fortune 50企業から先進的なスタートアップまで、製品開発やオープンソースライセンスに関するアドバイスをするトップオープンソース弁護士でした。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles