ビジネスにおけるオープンソースと専有モデルの選択:生成型人工知能の展開において

ビジネスにおけるオープンソースと専有モデルの選択:生成型人工知能の展開におけるポイント

Generative AIに対する関心の高まりにより、2023年中頃までにこの分野に約350社もの企業が急増しました[1]。これらの企業は、基本的なモデルから特定のユースケースまで、様々な価値提案を行っています。これほど多くの選択肢があるため、企業は単にブランドの位置付けや相対的な価格設定を見るだけではなく、慎重に判断する必要があります。本記事では、この多要素アプローチの一つであるオープンソースとプロプライエタリなLLM(言語学習モデル)の採用について説明します。

図1は、オープンソースとクローズドソース(プロプライエタリ)のGenerative AI市場の主要プレーヤーを示しています。大手テック企業では、Google、Microsoft(Open AI)、Amazonがプロプライエタリ製品を提供している一方で、Meta(Facebook)やNVIDIAはオープンソースモデルを提供しています。技術巨人のクラウドストレージや分析製品などのサービスを既に大量消費している企業は、既存のエコシステムにGenerative AIをシームレスに統合する利点を享受するために、現在のプロバイダにとどまることを選択するかもしれません。競争の激しい市場においては、オープンソースの領域はAnthropic、Inflection、Cohereなどが支配し、クローズドソースの領域ではHugging Face、Mistral AI、Stabilitiy.aiがリードしています。

技術巨人の既存のサービスの消費量が大きい企業は、既存のエコシステムへのGenerative AIの統合を享受するために現在のプロバイダを選択するかもしれません。

図1:オープンソースとクローズドソースのGen AIモデルを提供する主要プレーヤー

オープンソースとプロプライエタリなGen AIモデルの選択基準

各企業は、デプロイするためのベンダーを検討する際に、自社のROI(投資利益率)を計算するために微細なアプローチをとる必要があります。考慮すべき違いは、オープンソースとクローズドソースの間だけでなく、それぞれのカテゴリ内でも存在します。図2には、関連する要素の要約が示されています。

価格設定

基本的には、オープンソースは無料でアクセスできますが、そのコアオファリングに含まれていない追加のライセンスやサービスに関連する料金が発生する可能性があります。クローズドソースの提供業者の価格ポリシーは大きく異なり、市場が価値を生成することについてまだ学んでいるためです。最も一般的な価格設定は、入力トークンと出力トークンのサイズに基づいています(これは基本的にはテキストの長さです)。別のアプローチとして、テキストの長さにかかわらず、呼び出される回数に基づいています。Googleは前者を使用しており、Microsoftはより複雑なハイブリッドな方法論を持っています。Amazonはまだ詳細な価格設定を公開していません。

最も一般的な価格設定は、入力トークンと出力トークンのサイズに基づいています。

柔軟性

柔軟性の考慮は2つの側面があります。第一に、利用者がどのように活用するかはオープンソースが優れているため、カスタマイズの可能性のレベルが高いです。クローズドソースの提供はここで異なる場合があります。例えば、AmazonとMicrosoftは現在、Googleよりもより多様性のある企業向けモデルを持っていると見做されています。第二に、ベンダーロックインの問題です。オープンアクセスモデルは契約上の制約がないため、ソースを切り替えることが容易であるかもしれませんが、クローズドソースの場合はまだ切り替える方法について明確にされていません。

柔軟性の考慮は、カスタマイズのレベルとベンダーロックインの問題の2つの側面があります。

透明性

オープンソースモデルは自然により透明性が高く、そのパフォーマンスの監査はクラウドソーシングされています。潜在的な脆弱性の情報も迅速に取り上げられ、広く共有されますが、プロプライエタリなモデルではそのようなデータが利用可能になることはありません。例えば、他のテック巨人に比べて、Amazonは現時点で自社モデルのパフォーマンスに関する情報を最も提供していません。

人材

オープンソースモデルにアクセス料がないことから節約できる一方で、人材コストが増える可能性もあります。オープンソースモデルの展開には、より多くの専門的な知識を持つ人材が必要です。第一に、このようなスキルはまだ利用可能ではありません。技術自体が新興の段階にあり、需要が前例のないものです。第二に、これらの仕事は給与範囲の上位に位置するため、採用および確保にはコストがかかります。一方、プロプライエタリ製品の顧客には、より一般的なAIの知識を持つ小規模なデータサイエンスおよび開発チームで十分でしょう。

オープンソースモデルではアクセス料金が発生しないため、その分は人件費の増加によって相殺される可能性があります。

サポート

コードと基盤の開発・保守は、クローズドソースモデルの方がより効率的であり、それらはビジネス提供の一環としてパッケージ化されます。また、クローズドソースモデルでは、お客様向けの専任カスタマーサービスも提供され、トラブルシューティングなどのヘルプが受けられますが、一般的なオープンソースオプションにはこれらが欠けている場合があります。

マーケット投入のスピード

オープンソースのモデル自体は迅速にアクセスできますが、クローズドソースの場合は整然とパッケージ化されたユーザーフレンドリーなインターフェースのため、デプロイメントのスピードはオープンソースよりも低くなる可能性があります。また、採用プロセスが時間のかかるため、オープンソースの場合は総合的なマーケット投入が遅くなるかもしれません。

パフォーマンス

一般的には、プロプライエタリなモデルの方がオープンソースのものよりも優れた性能を発揮すると考えられていますが、この差は時間の経過とともに縮小しています。その主な要因は、オープンソースプロバイダには競争上の優位性を得るための大規模なリソースが必要であり、イテレーションアプローチを通じてこれを獲得するための費用が高く、大量のストレージと集中的な計算が必要だからです。実際、2023年第3四半期時点で、トップ5のオープンソーススタートアップの出資額は約6億7000万ドルであり、それに対してクローズドソースの出資額は約200億ドルに達しています。

図2:オープンソースとクローズドソースのGen AIオファリングを選ぶ際の考慮事項

2023年第3四半期時点で、トップ5のオープンソーススタートアップの出資額は約6億7000万ドルであり、それに対してクローズドソースの出資額は約200億ドルに達しています。

他に考慮すべき点は、プライバシーと知的財産権です。オープンソースは社内で採用されるため、データのプライバシーや漏洩の問題が少ない可能性があります。ただし、ほとんどのクローズドソースプロバイダは企業のデータをリングフェンスし、自社のモデルのさらなるトレーニングに使用されないようにします。プライバシーの対比は、特定のベンダの契約条件によって大きく異なり、ここで考慮されている2つのカテゴリにはそれほど依存しません。

新規性を考慮すると、LLMのトレーニングに使用されるデータの知的財産権に関する規制はまだ定められていません。オープンソースの場合、公共データに限定されているため、規制要因からのリスクが高くなりますが、将来的に法律で要求される場合にはクローズドソースプロバイダも入力内容の詳細を開示する必要があります。Gen AIプロバイダの顧客がこれにどのように影響を受けるかは、オープンソースかクローズドソースかに関係なく、各プレーヤーが定める規定に依存します。

オープンソースとプロプライエタリなモデルの選択はビジネスに重大な影響を与える可能性があるため、全体的な利点と欠点を総合的かつ迅速に判断することが重要です。

ソース:[1] Dealroom、[2] CBインサイト

免責事項:この個人ブログで示されている意見や見解は、著者個人のものであり、いかなる組織や企業の意見や見解を代表するものではありません。私的または専有情報は含まれていません。

これがオリジナルの作品であるため、誤りや抜け漏れがあればご連絡ください。

写真クレジット:Roozbeh Eslami

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

無料でWindows 11を提供するChatGPTの方法を見つけよう!

ChatGPTのユーザーたちは、Microsoft Windows 11 Proを含む人気のソフトウェアの無料ライセンスキーにアクセスするための驚く...

データサイエンス

SIGGRAPH特別講演:NVIDIAのCEOがLAショーに生成AIをもたらす

生成AIがますますデジタルでハイパーコネクテッドな世界に広がる中、NVIDIAの創設者兼CEOであるJensen Huang氏は、世界最高の...

データサイエンス

機械学習を直感的に理解する

確かに、ChatGPTのようなモデルの実際の理論は認めるには非常に難しいですが、機械学習(ML)の根底にある直感は、まあ、直感...

データサイエンス

「PyTorchでのSoft Nearest Neighbor Lossの実装方法」

表現学習は、深層ニューラルネットワークによって与えられたデータセット内の最も顕著な特徴を学習するタスクです通常は教師...

機械学習

安定した拡散 コミュニティのAI

「ステーブルディフュージョンAIは、革新的な技術により芸術界を革命化し、創造性を高め、芸術の評価を変えています」

機械学習

「Declarai、FastAPI、およびStreamlitを使用してLLMチャットアプリケーションを展開する」

2022年10月、私が大規模言語モデル(LLM)の実験を始めたとき、最初の傾向はテキストの補完、分類、NER、およびその他のNLP関...