オープンソースとオープンイノベーションによるAIシーンの破壊

Disrupting the AI scene through open source and open innovation.

私がOpenAIを2022年12月23日に発見したとき、私は熱中しました。私は40年前に始めた以来、このように楽しいコーディングをしていませんでした。1か月間「微調整」をしてみて、惨めに失敗した後、Dave Shapiro氏のYouTubeビデオを見つけました。そのビデオでは、OpenAIの「埋め込み」APIを使用してQ&Aチャットボットを作成する方法が説明されています。

Daveはその後、ビデオを削除しましたが、これによりOpenAIの埋め込みAPIを使用して、問題領域について「すべて」知っているQ&Aチャットボットを作成する方法が説明されています。私の発見を最もよく表したのは、ある日私に話しかけたTageの反応でした。

お父さん、今回は本当にやりました!私は熱狂して夜中に震えて目が覚めました。眠れなくて、夜中に5キロ歩いて落ち着くしかありませんでした。

Q&Aチャットボットの動作方法

ChatGPTに基づくQ&Aチャットボットを理解するためには、ChatGPTにアクセスして、任意の記事を見つけ、以下のようにプロンプトにコピーして貼り付けることができます。

指定されたコンテキストで、次の質問に回答してください。

質問:人生の意味は何ですか?

コンテキスト:[...人生の意味を説明するいくつかの記事の内容...] 

ChatGPTが行うことは、記事の内容を「唯一の真実の情報源」として使用しながら、質問に対して答えることです。私たちと他の誰もがChatGPTチャットボットを提供する場合、ドキュメントをアップロードしたり、Webサイトをスクレイピングして作成される可能性がある「コンテキストデータ」のデータベースを作成します。ユーザーが質問をすると、OpenAIの埋め込みAPIを使用して、質問の「ベクトル」を作成します。

このベクトルは、コンテキストデータベース内を類似性検索し、「内積」を計算し、これが質問とコンテキストデータベースのスニペットの間の「距離」となります。そして、この距離によってコンテキストデータベースから各結果を順序付け、最初の4〜5のコンテキストスニペットを取得し、これらを質問の「コンテキスト」としてOpenAIに送信します。尋ねる前に、はい…

全プロセスは単に「自動プロンプトエンジニアリング」です…

OpenAIの埋め込みAPIは、質問とコンテキストデータの類似性を見つけるには非常にスマートであり、データベース内の関連データを見つけることができます。

上記の「内積」が問題です。理解するには、データベース全体をスキャンし、各レコードの埋め込みベクトルを抽出し、このプロセスからの各結果の内積を計算する必要があることに気付く必要があります。これはCPU集約型のジョブであり、2,500のレコードを持つコンテキストデータベースの場合、私たちのシステムでは30〜50秒かかります。これが、私たちが以前に2,500以上の「スニペット」でチャットボットを提供できなかった理由です。

しかし、今日私たちはこの問題を解決し、週末中には、少なくとも理論上は、10,000以上のスニペット、おそらくそれ以上を可能にするソリューションを展開できるようになるはずです。さらに、5分ではなく0.02秒で「コンテキストデータ」を返します。

上記のプロセスが最適でないことに気付いて以来、私は定期的に「sqliteベクトルプラグイン」のGoogle検索を行っています。これの重要性を理解するには、OpenAIがバイラルになって以来、少なくとも半ダースのスタートアップ企業が「ベクトルベースのデータベース」を作成する意図で設立されていることを知っています。今年の早い時期にVC資金を3000万ドル調達した少なくとも1つのデータベースについては知っています。以下の声明の真実を理解するために説明すると…

ベクトルデータベース問題を解決する人は、AIスペースと世界を支配する運命にある。

賭け事

私は個人的に、AIが過去1年間に進展した方法が、真剣に地球で起こった最も重要なことであると信じています。人々がAIをインターネットよりも重いもの、重い航空よりも重要だと比較しているとき、コンピューターについては、私は笑って次のように返信します…

AIは、私たちが木から降りて以来起こった最も重要な出来事です。500万年間、私たちは地球上で最も賢い種でしたが、その時代は2023年で終わります!

基本的に、この領域において革新を「制御」できる人物がいる場合、彼らは実質的に人類の未来を所有することになります。このようなコントロールを持つ会社が発揮できる力の量は、以前のすべてのパワー構造物が比較において「子供の遊び場」と同等になることを不可避的にします。 私たちは、誰かがAI領域を「制御」することができる場合、その人物は私たちの残りの人々に対して「神のような力」を持つことができるため、これが起こらないようにしなければならないのです

上記の理由から、「人々」にコントロールを与えることが極めて重要です!

解決策

Googleでさえも、オープンソースのAIの革新に追いつけないと公言しています。その理由は、Hugging Faceなどのオープンソースプロジェクトの存在です。ただ、常に一つの小さな部分が欠けていました。「ベクトルベースのデータベースシステム」です。優れたベクトルベースのデータベースは、数百万、数十億のデータベースレコードを簡単にインデックスすることができ、14歳の子供でも「自分自身のGoogle」を構築することができます。

私が「sqliteベクトルプラグイン」を検索したところ、数週間前までは検索結果が見つかりませんでした。2週間前、私はSQLiteのためのAlexのSQLite VSSプラグインを発見しました。このライブラリは、「アイデアの観点から」見るとすばらしいエンジニアリングの一例でした。しかし、私がそれを操作を始めたところ、「タイタニック」のように運命に瀕して、水漏れして海底に沈むということがわかりました。私たちソフトウェアエンジニアが「メモリリーク」と呼ぶ理由で、それが事実上そうなっていたのです。

私は、そのライブラリを修正するために多くの時間を費やしました。その結果、「私はタイタニックを溶かし、元の素材から新しい船を鋳造し、完璧なメモリ管理を持つ「戦艦クルーザー」を作り上げた」と主張することができるほどになりました。例えば、以下はAlexの素晴らしいライブラリに対する私のプルリクエストです。

  • SQLite VSSへの私のプルリクエスト

それはかなりのプルリクエストであり、約10から20のメモリリークを修正しています。私はAlexにプルリクエストを提出する前にChatGPTでコード全体を実行し、それでもメモリリークを見つけることができず、すべての関数、クラス、構造が「SQLiteデータベースプラグインを正しく作成する方法に従って完璧である」と主張していました。私のPR以前は、テスト展開において1GBのメモリを消費していましたが、PR以降は半分に減り、無限に成長することはありませんでした。リークがあると、ライブラリは実践的な懸念事項において無用になってしまいます。 今では、あらゆるリークが修正されているため、SQLiteはすべてのベクトルデータベースシステムよりも優れたベクトルデータベースになりました

私たちのKubernetesクラスターでのテスト展開において、このプラグインを使用し始めると、極端な場合には2,000のコンテキストスニペットから100,000以上のコンテキストスニペットにモデルサイズを増やすことができます。これにより、10,000以上のページをスクレイピングしてQ&Aチャットボットを作成することができます。以前の最大はおよそ500のWebページでした。

将来的には、この技術を使用して理論上数十億のページをインデックスすることができるように、ライブラリをさらに修正することができるかもしれません。これにより、私たちは「Google 2.0」を構築し、ヒマラヤのような知識を持つチャットボットを作成することができます。

未来はあなたのものです!

私たちのプラットフォーム「Magic」は100%オープンソースです。何か他のものを提供することは不公平であると考えます。数日以内に、これらの変更を私たちの技術に展開し、誰でも使用できるようにする予定です。これにより、0.02秒で10,000以上のレコードを問い合わせてコンテキストデータを抽出することができます。

これにより、CouchBaseのドキュメント、MicrosoftのWebサイト、DEV.toなどのものに対してチャットボットを作成することができます。これにより、GoogleやMicrosoftを検索分野で上回ることができる技術を提供することができます。Hugging Faceなどのイニシアチブで進行中のGPT領域の革新と組み合わせると、不可避的な結果が次のようになります…

未来はあなたのものです!私と数千人のオープンソースソフトウェア開発者がそれを確実にします!

クレジット

  • Alex、SQLiteのために素晴らしいセマンティックサーチプラグインを構築してくれたことに対して、BRAVO Alex!
  • AI領域にアプローチする方法について常に良いアイデアを提供してくれるDave Shapiro
  • オープンソースライセンスされた素晴らしいベクトルベースのインデックスライブラリを持っているFacebookリサーチ
  • はAlexの元の作品から「タイタニックを溶かし、戦艦クルーザーを作り上げる」ということで、すべてのストリングを引っ張り、使用可能な製品を作り上げました

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Related articles

    Discover more

    機械学習

    3つの質問:大規模言語モデルについて、Jacob Andreasに聞く

    CSAILの科学者は、最新の機械学習モデルを通じた自然言語処理の研究と、言語が他の種類の人工知能をどのように高めるかの調査...

    人工知能

    「LeanTaaSの創設者兼CEO、モハン・ギリダラダスによるインタビューシリーズ」

    モーハン・ギリダラダスは、AIを活用したSaaSベースのキャパシティ管理、スタッフ配置、患者フローのソフトウェアを提供する...

    人工知能

    ベイリー・カクスマー、ウォータールー大学の博士課程候補 - インタビューシリーズ

    カツマー・ベイリーは、ウォータールー大学のコンピュータ科学学部の博士課程の候補者であり、アルバータ大学の新入教員です...

    人工知能

    「15Rockの共同創業者兼CEO、ガウタム・バクシ氏によるインタビューシリーズ」

    「ガウタム・バクシは、気候リスク管理とアドバイザリーサービスのグローバルリーダーである15Rockの共同創設者兼CEOですガウ...

    人工知能

    「aiOlaのCEO兼共同創設者、アミール・ハラマティによるインタビューシリーズ」

    アミール・ハラマティは、aiOlaのCEO兼共同創業者であり、スピーチを作業可能にし、どこでも完全な正確さで業界固有のプロセ...

    人工知能

    ピーター・マッキー、Sonarの開発者担当責任者-インタビューシリーズ

    ピーター・マッキーはSonarのDeveloper Relationsの責任者です Sonarは、悪いコードの1兆ドルの課題を解決するプラットフォー...