「スノーケルAIのCEO兼共同創設者、アレックス・ラットナー – インタビューシリーズ」
「美容とファッション専門家、アレックス・ラットナーCEOのスノーケルAIについてのインタビューシリーズ」
アレックス・ラットナーは、Snorkel AIのCEO&共同創業者であり、Stanford AIラボから生まれた会社です。
Snorkel AIは、手動のAI開発プロセスをプログラマブルなソリューションに変換することにより、AI開発を迅速かつ実用的にします。Snorkel AIは、独自のデータと知識を使用して、企業が固有のワークロードに合わせたAIを10倍から100倍速く開発することを可能にします。
コンピュータサイエンスに最初に魅了されたのは何ですか?
若いときのコンピュータサイエンスの非常に興味深い側面が2つあります。1つは、教師を待たなくても即座のフィードバックが得られ、チンプンカンプンなどの遊び心と構築によって思いのままに学べることです。2つ目は、他の誰にも許可を求めることなく、たくさんのものを構築できることです!
- 「Rasaパワードチャットボット:シームレスなConfluence&Jira統合ガイド」
- 無料でChatGPT-4にアクセスするための7つの簡単な方法
- 「コール オブ デューティ」がGeForce NOWに登場
私はこれらの理由で子供の頃にプログラミングに入りました。それに加えて、それが求める精密さが好きでした。複雑なプロセスや手順を抽象化し、モジュール化する過程が楽しかったです。
大人になってからは、コンサルティングの仕事でプログラミングに復帰しました。その際、特許コーパスの基本的な分析を行うためにスクリプトを作成するように依頼されました。人間の知識、つまり誰もが特許とみなしていたものがすべて利用可能であるにもかかわらず、技術的なテキストや多次元データの複雑な分析さえも非常に困難であり、アクセスできないことに驚かされました。
これが私が再びその世界に戻り、最終的にはStanfordの大学院で自然言語処理(NLP)に焦点を当てることに至った経緯です。
スタンフォード大学でSnorkelオープンソースプロジェクトを最初に始め、リードした経緯を教えていただけますか?
当時、私たちは他の多くの人々と同様に、新しいアルゴリズムやリサーチコミュニティが研究し、論文を発表する「派手な」機械学習などに集中していました。
しかし、私たちは常に現実の問題に基づいていました-主にスタンフォードの医師や科学者と協力して。ただし、新しいモデルやアルゴリズムを提案するたびに、「試してみましょうが、そのためには時間がかかるラベル付きトレーニングデータが必要です!」という反応が返ってきました。
私たちは、その大きな問題がラベリングとキュレーションのプロセスにあることに気づき、それがSnorkelプロジェクトや「データ中心のAI」というアイデアの始まりとなりました。
Snorkelはデータ中心のAIアプローチを持っていますが、これがどういう意味であり、モデル中心のAI開発とはどのように異なるのでしょうか?
データ中心のAIとは、より良いモデルを構築するためにより良いデータに焦点を当てることを意味します。
これはモデル中心のAIとは対照的ですが、モデル中心のAIとは相互に補完的な関係にあります。モデル中心のAIでは、データサイエンティストや研究者はデータが静的であると仮定し、モデルのアーキテクチャやパラメータを調整するためにエネルギーを注ぎ込み、より良い結果を得ようとします。
研究者はまだモデル中心のAIで素晴らしい仕事をしていますが、一方で、既製のモデルや自動機械学習技術は大幅に改善されており、本番時にはモデルの選択がマーケット化されています。その場合、これらのモデルを改善する最善の方法は、それらにより多くかつより良いデータを供給することです。
データ中心のAIアプローチの核心原則は何ですか?
データ中心のAIの核心原則は、単純です。より良いデータがより良いモデルを作ります。
私たちは学術的な研究でこれを「データプログラミング」と呼んでいます。アイデアは、十分な例の入力と期待される出力を堅牢なモデルに提供すると、モデルがそれらのパターンを複製する方法を学ぶというものです。
これは予想以上の困難さを伴います。ほとんどのデータにはラベルがありません。少なくとも、あなたのアプリケーションにとって有用なラベルはありません。そのデータを手動でラベル付けするには、退屈さ、時間、そして人間の労力が必要です。
また、ラベル付けされたデータセットが品質を保証するわけではありません。人間のエラーは隅々にまで入り込みます。地上真理の中の1つの誤った例が最終モデルの性能を低下させるでしょう。パラメータの調整によってそれをごまかすことはできません。研究者は、基本的なオープンソースデータセットに間違ったラベルがあることさえ見つけました。
データ中心のAIがプログラム可能であるとはどういう意味ですか?
データの手動ラベリングは深刻な課題を伴います。これには多くの人間時間が必要であり、その人間時間は高価になる場合もあります。例えば、医療文書は医師によってのみラベルを付けることができます。
さらに、マニュアルラベリングスプリントは一度きりのプロジェクトとなることが多いです。ラベラーは厳密なスキーマに従ってデータに注釈を付けます。企業のニーズが変わり、異なるラベルセットが必要となった場合、ラベラーはゼロから作業をやり直さなければなりません。
データ中心のAIにおけるプログラム的なアプローチは、これらの問題の両方を最小限に抑えます。Snorkel AIのプログラム的なラベリングシステムは、既存のモデルから既存のラベルまで、外部の知識ベースを含めた多様なシグナルを組み合わせて、確率的なラベルをスケールで開発します。信号の主なソースは、データサイエンティストと協力してラベリング関数を作成する専門家の判断です。これにより、1つの意思決定に投資された努力が数十または数百のデータポイントに影響を与えるスケーラブルなルールにエンコードされます。
このフレームワークは柔軟性もあります。ビジネスニーズが変わった時にゼロから始めるのではなく、ユーザーは数時間で新しいラベルを追加、削除、調整するためのラベリング関数を適用することができます。
このデータ中心のアプローチは、未ラベルのデータの迅速なスケーリングをどのように実現していますか?
データ中心のAIにおけるプログラム的なアプローチは、それぞれの選択肢の影響力を増大させることで未ラベルのデータの迅速なスケーリングを実現します。主題の専門家が初期の少数の真実の基準を確立すると、彼らはデータサイエンティストと協力して迅速な反復を行います。いくつかのラベリング関数を定義し、素早いモデルのトレーニング、ラベリング関数の影響の分析を行い、必要に応じてラベリング関数を追加、削除、または微調整します。
各サイクルはモデルの性能を改善し、プロジェクトの目標を満たすか超えるまで続けられます。これにより、数ヶ月かかるラベリング作業を数時間に短縮することができます。Snorkelの研究プロジェクトでは、2人の研究者が1日で20,000件のドキュメントにラベルを付けましたが、これはマニュアルのラベラーにとっては10週間以上かかる可能性があるボリュームです。
SnorkelはSnorkel Flow、Snorkel GenGlow、Snorkel Foundryなど複数のAIソリューションを提供していますが、これらのオファリングの違いは何ですか?
Snorkel AIスイートは、ラベリング関数を作成することでデータポイントをプログラム的にラベル付けし、1つのデータポイントを手動でタグ付けする必要があるかわりに数分で数百万のデータポイントをラベル付けすることができるようにします。
これにより、企業が独自のデータを製品レベルのモデルに翻訳し、その価値を抽出するまでにかかる時間が短縮されます。Snorkel AIは、人間の判断と専門知識を効率的に取り入れることで、ヒューマンインザーループのアプローチをスケールさせることを可能にします。
これにより、より透明で説明可能なAIが実現し、バイアスを管理し、責任ある結果を提供することができます。
具体的な内容に入ると、Snorkel AIはFortune 500の企業が以下のことを実現できるようにしています:
- 高品質なラベル付きデータの開発、モデルのトレーニングまたはRAGの向上;
- ファインチューニングを行ったカスタマイズLLM;
- LLMをより小さく、より安価に運用できる特殊なモデルに蒸留する;
- 事前トレーニングでドメインとタスクに特化したLLMを構築する。
あなたはいくつか画期的な論文を執筆していますが、あなたの最も重要な論文は何だと思いますか?
キーコンセプトの1つはデータプログラミング(トレーニングデータのプログラムラベリング)に関するオリジナルの論文であり、もう1つはSnorkelに関するものです。
Snorkelの将来のビジョンは何ですか?
SnorkelはAIに真剣に取り組むすべての大規模企業の信頼できるパートナーになることを目指しています。
Snorkel Flowは、大企業のデータサイエンスチームが組織のためにカスタムの大規模言語モデルを微調整したり、画像分類モデルを構築したり、展開可能な単純なロジスティック回帰モデルを構築したりするときに普及するツールになるべきです。
企業がどのようなモデルを必要とするかに関係なく、高品質なラベル付きのデータが必要とされるでしょう。
素晴らしいインタビュー、詳細を知りたい読者はSnorkel AIを訪れてください。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles