「OpenAIのWebクローラーとFTCのミスステップ」

OpenAI and FTC Misstep

OpenAIはデフォルトでオプトインのクローラを立ち上げ、FTCは曖昧な消費者誤認調査を追求しています

Photo by Giammarco Boscaro on Unsplash — 写真 by Giammarco Boscaro on Unsplash

AIの採用は急速に増加しており、データ専門家がデータのソーシングについて考えることがますます重要になっています。高性能なLLMの最初の波は、一般的ながらも物議を醸すデータスクレイピングのタクティクスを使用して訓練されましたが、この疑問のある慣行は最近注目を浴び、訴訟やデータ所有に関する問題が浮上しています。この記事では、この法的概念と規制当局がこの問題に取り組んでいる方法について、堅実な理解を提供します（ネタバレ：あまり効果的ではありません）。

Towards Data Scienceの編集者からの注意：独立した著者が当社のルールとガイドラインに従って記事を公開することを許可していますが、各著者の貢献を支持するものではありません。専門の助言を求めずに著者の作品に頼るべきではありません。詳細については、当社の読者向け規約をご覧ください。

先週、Open AI（ChatGPTの製作者）は公式に彼らのウェブクローラを発表しました。これは、インターネット上のすべてのウェブサイトからコンテンツをスクレイピングするソフトウェアです。そしてこのスクレイピングされたデータはAIモデルの訓練に使用されます。クローラの存在自体は驚くべきことではありませんし、Googleの全インターネットをインデックス化するクローラなど、いくつかの合法的なウェブクローラが存在しています。ただし、OpenAIがその存在を明示的に発表し、ウェブサイトがスクレイピングされないようにするためのメカニズムも提供したのは、今回が初めてです。

クローラはデフォルトでオプトインです。つまり、データのスクレイピングを停止するためにウェブサイト上のコードを明示的に変更する必要があります。オプトイン/オプトアウトのデフォルトは固定され、多くの人々がデフォルトを変更する努力をしないため、大多数の行動を決定することがよくあります。これが、AppleのiOS14のプライバシー変更がデジタル広告業界に大きな影響を与えた理由と同じです。

OpenAI Web Crawler (Source: OpenAI) — OpenAI Web Crawler（出典：OpenAI）

では、なぜオプトアウトの選択肢を提供するのでしょうか？これは、OpenAIが最近の訴訟に対応するための予防措置である可能性が高いです。これらの訴訟は、コンテンツの所有者の著作権が侵害されたと主張しています（もっと深くデータスクレイピングについて知りたい場合は、より詳しい記事をご覧ください）。ChatGPTの競合他社であるGoogle Bardも同様の課題に直面していますが、Googleはまだ同等の解決策を発表していません。ただし、この問題に対処するためにrobots.txtをどのようにアップグレードするかについてコメントを募集しています（いくつかの巧妙なPRの筆致で書かれています）。

この記事では、以下の内容について詳しく説明します：

OpenAIのクローラがコンテンツ所有者に与える影響
FTCがOpenAIに対して行っている現在の調査
私たちが運営している現在の法的状況
FTCのOpenAIに対するアプローチが（もう一つの）誤った一歩である理由

OpenAIのクローラがコンテンツ所有者に与える影響

この発表は、広告主がOpenAIのクローラによるデータスクレイピングをブロックするオプションを提供していますが、いくつかの問題があります：

デフォルトでオプトインされているため、ウェブサイトが明示的にスクレイピングを停止しない限り、OpenAIはスクレイピングを続けることができます
同意なしにモデルの訓練のためにデータがスクレイピングされる場合、コンテンツ所有者の権利については明確な法的判決がない（デフォルトでオプトインに追い込まれた人々の場合には、本質的に同じ状況になります）

現在、データスクレイピングによってデータを取得する言語モデルが同意なしに行われてもよいかどうかを決定するための2つの法的構造があります。それは著作権と公正利用です。

著作権（米国著作権法の第102条）は特定の種類のコンテンツに保護を提供しますが、例外もあります：

著作権保護は、このタイトルに従って、機械または装置の助けを借りて、直接または間接に、またはそのような作品に記述され、説明され、説明され、具現化される方法に関係なく、認識、複製、またはその他の方法で知覚、複製、またはその他の方法で伝えることができる、後で開発される任意の具体的な表現形式である、固定された著作権法のオリジナルの著作物に存在します。著作権法では以下のカテゴリが含まれます：（1）文学作品、（2）音楽作品（関連する言葉を含む）、（3）ドラマ作品（関連する音楽を含む）、（4）パントマイムと舞台振付作品、（5）絵画、グラフィック、彫刻作品、（6）映画およびその他の視聴覚作品、（7）音声録音、および（8）建築作品。

（b）作品に記載され、説明され、説明され、具現化される方法に関係なく、著作権保護はオリジナルの著作権作品に対して任意のアイデア、手続き、プロセス、システム、操作方法、概念、原則、または発見を拡張しません

例えば、著作権はほとんどのオリジナル作品（たとえば、特定のトピックに関するオリジナルのブログ記事や本を書いた場合など）を保護しますが、広範なアイデアは保護されません（たとえば、AIがデータ権利に与える影響について最初に書いたのは自分だと主張し、したがってそのアイデアは自分のものだと主張することはできません）。

著作権保護からの別の例外は、フェアユース（米国著作権法第107条）です：

著作権のある作品のフェアユースは、そのセクションで指定された方法による複製や音盤への複製、または他のいかなる手段による使用を含む、批判、コメント、ニュース報道、教育（教室での複製を含む）、奨学金、または研究などの目的において、著作権の侵害ではありません。

特定の場合において作品の使用がフェアユースであるかどうかを判断する際には、考慮すべき要素には、（1）使用の目的と特性、その使用が商業的な性質を持つかどうか、または非営利の教育目的であるかどうか、（2）著作権のある作品の性質、（3）著作権のある作品全体に対する使用部分の量と実質性、および（4）使用が著作権のある作品の潜在的な市場または価値に与える影響が含まれます。

例えば、研究論文からコンテンツを引用し、それについての批評を書いた場合、それは問題なく、コンテンツの所有者の著作権を侵害していません。このページから別の記事にリンクし、その記事から引用文を追加する場合も同様の状況です。

これらの概念の両方は、コンテンツの所有者の権利を保護しながら、特に教育、研究、批評の文脈で情報の自由な流れを可能にするために作成されました。

私は法律の専門家ではありませんが、上記の言語についての私の調査や理解に基づいて、AIモデルがトレーニングコンテンツをスクレイピングする場合には曖昧さが生じます：

AI企業は通常、コンテンツ所有者のウェブサイトから完全なテキストをスクレイピングします（これは著作権で保護されています）、モデルに「アイデア」「コンセプト」「原理」を学習させます（これは著作権で保護されていません）、そして最終的にモデルが異なるテキストを出力します。この場合、コンテンツ所有者は著作権の保護を受けるのでしょうか？
トレーニングされた言語モデルが最終的に商業目的で使用されるようになったため（例：有料のChatGPT plus）、これはコンテンツ所有者の著作権の侵害となるのでしょうか？（フェアユースの例外はもはや適用されないため）

これについてはまだ裁判所の判決は出ていませんので、どちらになるか予測するのは難しいです。私の法律家ではない意見では、2番目の問題がおそらく簡単に解決できると思います：OpenAIはデータをスクレイピングして商業製品を作成しましたので、フェアユースの例外は適用されません。最初の問題（モデルは「アイデア」でトレーニングされたのか、単にオリジナルのテキストでトレーニングされたのか）は誰にでも推測するしかありません。両方の例外（「アイデア」の例外またはフェアユースの例外）がOpenAIに適用されない場合、コンテンツ所有者の勝利となります。

これはAIリスクのスペクトラム（網羅的ではない）の中で、コンテンツ所有者の権利から詐欺の拡大、仕事の自動化、AGI / 人類の破壊まで、最も緊急で近い将来の問題はコンテンツ所有者の権利です。これは訴訟の急増やコンテンツプラットフォームへの影響（例：StackOverflowの話）によって証明されています。

FTCのような規制機関は、本当に長期的な問題について考えを巡らせ、これらのリスクに対処するための仮説的で創造的な方法を考え出すことができますが、彼らの本当の短期的な可能性は、5〜10年の時間軸で私たちに影響を与えるリスクに対処できるかどうかにかかっています。著作権侵害などです。そして、FTCがそれについて何をしているのかについて話しましょう。

FTCによるOpenAIへの現在の調査

7月中旬、FTCはOpenAIの調査を発表しました。興味深い（そしてイライラする）のは、FTCが彼らを調査している理由です。ChatGPTの製作者は、個人の評判とデータを危険にさらすことで、消費者保護法を破ったかどうかを評価するために調査されています。理解できませんか？あなただけではありません。もう少し背景を説明しましょう。

FTCのAI規制に関する最も主張的な立場は4月に出ました。「AIには法の例外はありませんし、FTCは公正または誤解を招く行為または競争の不公正な方法を取り締まるために法を厳格に執行します」というものです。その後、名誉毀損に関連する問題がいくつか発生しました：ラジオ司会者のマーク・ウォルターズは、ChatGPTが彼を非営利団体を詐欺していると非難したため、OpenAIを訴えました。法学教授は、ChatGPTによって性的嫌がらせのでっち上げで非難されました。

これらのシナリオは、関係者にとって不適切であり、私はそれに同情します。ただし、言語モデル（例：GPT）やそれらを基にした製品（例：ChatGPT）は「幻覚」を起こし、しばしば間違っているという事実が知られています。FTCの調査の前提の前半は、ChatGPTは幻覚を起こし、したがって評判上の損害を引き起こすということです。

激しい議会の聴聞会で、ある議員（正当に）FTCに対して、なぜ名誉毀損や中傷に対して取り組んでいるのか、通常は州法で取り扱われるものだと尋ねました。FTCの議長リナ・カーンは次のような複雑な主張をしました：

カーンは、名誉毀損や中傷はFTCの執行の焦点ではないが、AIのトレーニングにおける人々の個人情報の誤用はFTC法の詐欺または欺瞞の形態である可能性があると答えた。「私たちは、「人々に実質的な損害があるか？」に焦点を当てています。損害はさまざまな形を取ることができます」とカーンは述べました。

全体の議論を結びつけると、FTCはChatGPTの幻覚が不正確な情報（名誉毀損を含む）を生み出し、それが消費者を欺く形態になる可能性があると述べています。さらに、個人の機密情報が使用されたり漏洩したりする可能性があります（OpenAIが迅速に修正したバグに基づく）。

調査の一環として、FTCはOpenAIから詳細な情報を求めています。モデルのトレーニング方法、使用するデータソース、顧客に対する製品の位置付け方法、リスクが特定されたためにモデルのリリースが一時停止された状況など、さまざまなことについての詳細な情報です。

問題は、現在の法的状況を考慮して、FTCがおそらく最大のAI企業の1つであるOpenAIを規制するための最善の手段は何かということです。

私たちが今運営している現在の法的状況

OpenAIに対するFTCの戦略を批判するために、現在の法的状況を理解することは有益です。詳細には触れませんが、反トラスト法の歴史を例に簡単に説明します：

1900年代には、巨大な総合企業（「トラスト」）が存在し、公共と私的な力のバランスがこれらの企業に傾いていました
これに対応して、1890年のシャーマン法が成立し、私的な力に制約を加え、競争を保護するための措置が取られました。この法律は、反競争的な行為（価格破壊、カルテル取引、配布の独占など）に関与していた「トラスト」を訴訟で追及し、崩壊させるために使用されました
1960年代頃、裁判官たちは法律の精神ではなく法律の文言に基づいて判断したことに対して大きな反発を受けました。たとえば、裁判官たちは、「企業の一連の行為が「合理的に取引を制限しているかどうか」という点を判断するために、シャーマン法を解釈することがあり、これには主観性が関与し、裁判官たちは司法活動に従事していると非難されました
客観性を導入するために、シカゴ学派は消費者福祉基準を先駆けとしました。つまり、「裁判所は消費者福祉にのみ基づいて導かれるべきである」というものです（例：独占が露骨な形で価格を上げることは間違っているが、他の活動については、規制当局が消費者への害を証明する責任がある）
これは現在も基準となっており、FTCやDOJがビッグテックを取り締まるのが困難な理由の1つです。たとえば、FTCはGoogleが価格を上げているとは主張できません。なぜなら、Googleのほとんどの製品は無料で提供されているためです。たとえGoogleが他の反競争的な行為に従事しているとしてもです。

ここからの要点は、私たちは今日も「法の文言」に基づいて訴訟が大いに行われている法的状況で運営しているということです。これに加えて、現在の米国最高裁判所の構成により、法のかなり保守的な解釈が生じています。

FTCにとって重要なことは、この現実を受け入れ、ケースに勝つ方法を見つけることです。FTCとDOJの運営モデルは、一握りの大きなケースに取り組んで厳しい執行を行い、法を破る前に多くの企業が二度考えるようにすることです。そのためには、FTCはいくつかの問題で大きく勝利する必要があり、現在の法的状況の制約内で勝つ戦略が必要です。

FTCがOpenAIに取り組むアプローチが（またしても）誤りである理由

FTCはビッグテックに対して敗北の連続を経験しており、これらの敗北はすべて「私たちはすべてのビッグテックが嫌い」という、ハンマーではなくメスを使う戦略の失敗に帰せられると主張できます。

たとえば、FTCはMicrosoft-Activisionの690億ドルの買収を阻止するために力ずくの手段を取り、敗訴しました（かなりひどく敗訴したと言えます）。FTCは、MicrosoftがActivisionを買収することでゲーム市場の競争がなくなると主張しました。裁判官は、FTCの主張をすべて退けるかなり率直な判決を下し、以下は裁判官のコメントの一部です：

マイクロソフトの公式発表によれば、Call of DutyをXboxコンソールのみに限定する意図はないとのことで、内部文書、メール、チャットには矛盾するものはありません。FTCの行政手続きにおいては、ほぼ100万の文書と30件の証言が提出されていますが、マイクロソフトがCall of DutyをPlayStation（およびNintendo Switch）で利用可能にするという公式な取り組みに矛盾する文書は一つも特定されていません。

別の力ずくのケースは、FTCがMetaのVR企業Withinの買収を阻止しようとした試みであり、彼らは敗れました。なぜ彼らはこれを追求したのでしょうか？彼らは特定の市場が大きくなる前に買収を阻止する意欲があるかどうかを試すためであり、現在の法的状況からすると、予想通り却下されました。

FTCがOpenAIの調査を行っている問題は似ています：

彼らは（私の意見では）それほど重要ではない問題であると考えるものを追求しており、言語モデルの既知の制限である幻覚に焦点を当てるべきではなく、5-10年後に重要なAIの問題に集中すべきです。たとえば著作権などです。
現在の法的状況で何度も「創造的な」法的手法が却下されているにもかかわらず、彼らは別の創造的な主張を試みています：幻覚→名誉毀損→消費者の誤認

彼らの行動を寛大に解釈すると、彼らは「AIは既存の法律には免除されない」という立場の前例を作りたいという意図があり、この野生のガチョウ追いかけがOpenAIから大量の自己報告データを得ることができます（FTCは20ページの要求を出しています）。

しかし、FTCは大手テック企業に対する力ずく/非競争的なアプローチを繰り返し追求し、それを法廷で繰り返し却下される創造的な主張と組み合わせるという実績がありますので、私はFTCがこの件で疑義の余地を持つべきではないと考えています。

結論

OpenAIは確かに規制されるべきだと思います。彼らが幻覚を見せる（もちろん見せます）からではなく、彼らがクリエイターのコンテンツを許可なく利用しているからです。これは過去を変えるためではなく、コンテンツの所有権が保護される健全な未来をクリエイターに用意するためです（現状が著作権侵害とみなされるかどうかは法廷の判断に委ねられます）。

FTCがハンマーではなくメスを使ったアプローチを採用することを続ければ、大手テック企業に対して成功した前例があります。最も顕著な例は英国の競争市場庁です。彼らがGoogleに対して勝訴した2つの大きな事件は、アドテックスタックで自社製品に優遇待遇を提供することの禁止と、アプリ内支払いのための他の支払いプロバイダーの利用を可能にすることに焦点を当てています。

FTCが現在の道を進め続ければ、彼らの敗北の連続はテック企業に自由な行動を続けさせることになります。FTCは自身の失敗を反省し、他の規制当局の成功から学び、軌道修正する時が来ています。

🚀 もしこの記事が気に入ったら、私の週刊ニュースレターに登録をご検討ください。毎週、10分で読める形式で、現在のテックトピックや製品戦略についての深い分析を1つ掲載しています。よろしくお願いします、Viggy。

Unpacked | Viggy Balagopalakrishnan | Substack

Was this article helpful?

93 out of 132 found this helpful

「OpenAIのWebクローラーとFTCのミスステップ」

OpenAIはデフォルトでオプトインのクローラを立ち上げ、FTCは曖昧な消費者誤認調査を追求しています

OpenAIのクローラがコンテンツ所有者に与える影響

FTCによるOpenAIへの現在の調査

私たちが今運営している現在の法的状況

FTCがOpenAIに取り組むアプローチが（またしても）誤りである理由

結論

Unpacked | Viggy Balagopalakrishnan | Substack

最新のテックトピックやビジネスに関する詳細な分析。週ごとにあなたのメールボックスに届きます…

Was this article helpful?

「LLMのパラメータ効率的なファインチューニング（PEFT）：包括的な紹介」

「ESGレポーティングとは何ですか？」

AIニュース

このUCLAのAI研究によると、大規模な言語モデル（例：GPT-3）は、様々なアナロジー問題に対してゼロショットの解決策を獲得するという新たな能力を獲得していることが示されています

アリババの研究者たちは、ChatGPTのような現代のチャットボットの指示に従う能力を活用した、オープンセットの細かいタグ付けツールであるINSTAGを提案しています

情報とエントロピー

「ディープラーニングを用いたナノアレイの開発：特定の構造色を生み出すことができるナノホールアレイを設計する新しいAI手法」

「太陽エネルギーが新たな展開を迎える」

MetaのTwitterライバルアプリ「Threads」に1000万人が登録