「Scikit-LLMを使用したゼロショットテキスト分類の経験」
「Scikit-LLMを活用したゼロショットテキスト分類の実践経験」
テキスト分類は自然言語処理(NLP)の最も一般的な応用の1つです。これは、文書内のテキストの一部に、事前定義されたクラスセットを割り当てるタスクです。テキスト分類は、感情分析、スパム検出、トピックモデリング、ドキュメントの要約など、多くのアプリケーションに役立ちます。
テキスト分類の標準的なアプローチは、教師ありの方法でモデルをトレーニングすることです。しかし、この方法では結果は手作業でラベル付けされたトレーニングデータの利用可能性に依存します。例えば、実世界のアプリケーションでは、データの利用可能性が問題となり、ゼロショットテキスト分類という新しいアプローチがより人気を集めています。
ゼロショットテキスト分類とは何ですか?
ゼロショットテキスト分類について紹介する前に、ラベル付きデータの少ない状況でモデリングを行うゼロショット学習について説明する必要があります。これは、タスクのために開発されたモデルを、2つ目のタスクのモデルのスタートポイントとして再利用する機械学習の手法であり、経験によって学習プロセスの概念を利用します。ラベル付きデータの利用可能性が少ない場合に有用です。テキスト分類は、文書内のテキストのクラスをモデルが予測する自然言語処理のタスクです。従来のアプローチでは、モデルをトレーニングするために莫大な量のラベル付きデータが必要であり、トレーニングプロセスで十分なラベル付きデータがない場合はうまくいきません。ゼロショット学習を用いてテキスト分類タスクを解決することで、ゼロショットテキスト分類を実現し、トレーニングプロセス中に以前にラベル付きテキストクラスを一度も見たことがないテキスト文書を分類するタスクになります。これを実現する方法の一つは、Yin et al (2019)によって提案された自然言語推論(NLI)の使用です。ゼロショット分類の実装は、トランスフォーマーモデルやハギングフェイスハブで入手できます。
- 「FANToMとは:相互作用における機械心理理論のストレステストのためのベンチマーク」
- 「フリーノイズ」にご挨拶:複数のテキストプロンプトから最大512フレームまでの長いビデオを生成する新しい人工知能手法
- リーンで、意味ありげなAI夢マシン:DejaVuは知能を失わずにAIとのおしゃべりコストを削減しる
Scikit-LLMとは何ですか?
Scikit-learnは、データサイエンティストによって機械学習の分野で最もよく知られ、広く使用されているオープンソースのPythonライブラリの1つです。その幅広いモデルや使いやすさから、回帰から分類、クラスタリングから次元削減まで、どんなタスクでも1つのライブラリで解決することができます。Scikit-LLMは、大規模言語モデルをScikit-Learnフレームワークに組み込んだPythonライブラリです。Scikit-LLMは自然言語処理(NLP)タスクをScikit-Learnパイプライン内ですべて実行するツールです。Scikit-LLMは成長しており、OpenAIモデル(ChatGPTなど)を統合し、PaLM 2を利用しています。例えば、これはOpenAI APIのラッパーです。
また、OpenAIとのインターフェースについては、次のような機能がScikit-LLMによって提供されます:
– ゼロショットテキスト分類
– フューショットテキスト分類
– ダイナミックフューショットテキスト分類
– マルチラベルゼロショットテキスト分類
– テキストのベクトル化
– テキストの翻訳
– テキストの要約
分析の目的
この業務の目標は、2つのデータセットを使用して以下のGPTモデルのパフォーマンスを探究することです:
– GPT-3.5 turbo(4,097トークンのキャパシティ)
– GPT-3.5 turbo-16k(16,385トークンのキャパシティ)
– GPT-4(8,192トークンのキャパシティ)
ゼロショットテキスト分類アプローチを用いて。
最初のデータセットは、3つの極性(ポジティブ、ニュートラル、ネガティブ)の金融データセットに関する感情分析についてです。
2つ目は、6つのラベル(ビジネス、エンターテイメント、健康、ニュース、政治、スポーツ)を持つCNN記事データセットにおけるテキスト分類についてです。
どちらの状況でも、層化サンプリングと全データセットの10%のサンプルサイズを使用してサンプルを取得し、計算の努力を省くために使用されています。
両方のデータセットがラベル付けされているため、混同行列を使用して結果を評価し、その後にマルチクラスに適応したF1スコア(マイクロ平均化されたF1スコア)によって評価されています。
このノートブックでこの経験を追うことができます。
分析
最初のタスクは、感情ラベル付きの金融文章に基づく金融感情分析のためのデータセットを使用しています。データセットは5842行あります。
3つの感情ラベルがあり、”neutral”クラスが優勢で、実験は584行で行われました。
GPT-4の混同行列を見ると、データの予測が左対角線にかなり適切に割り当てられていることがわかります。
F1スコアから、すべてのモデルがスコアの70%以上に到達しています。GPT-4は、最初の実験で最も優れたパフォーマンスを発揮しています。
2番目のタスクは、2013年から2022年までのCNNのニュースをベースにしたマルチクラステキスト分類のためのデータセットを使用しています。データセットには11の変数と9307行があります。
“part_of”列はニュースのカテゴリを表し、ラベルはターゲット変数に使用されました。一方、”Description”列はゼロショットテキスト分類を実行するために使用されました。
6つのクラスがあり、”news”と”sport”クラスが最も多く、実験は931行で行われました。
GPT-4の混同行列を見ると、最初のタスクよりもデータの予測が左対角線に改善されていることがわかります。
F1スコアから、GPT-3.5モデルは最初のタスクよりもパフォーマンスがわずかに低くなりますが、スコアの70%以上になります。GPT-4は他のモデルと比較してジャンプし、スコアの80%以上に到達します。
最終的な考え
GPT-3.5 turbo 16kはGPT-3.5 turboよりもパフォーマンスがわずかに低く、速いです。一方、GPT-4は感情分析とマルチクラステキスト分類において優れた性能を発揮し、後者では他のモデルよりも優れていますが、他のモデルよりも遅く、費用がかかります。
ノートブックを全データセットで実行すると、これらの結果はわずかに異なる場合があります。なぜなら、データセットのサイズの10%に相当する層化サンプルを取っているからです。また、Scikit-LLMでは、現時点では結果をより決定論的にするために温度の調整機能を調整する機会がありません。
とにかく、これらのモデルがゼロショットのテキスト分類手法で達成できる能力についての考えを持つことは良いと思います。そのため、トレーニングデータが利用できないか、存在しない場合に、ゼロショットテキスト分類が解決策となる可能性があります。それらの普遍的な適用性は非常に魅力的ですが、確かに大規模なプリトレーニングモデルをファインチューニングすると、まだ優れているでしょう。確かに、ゼロショット学習は、大規模な言語モデルがタスクを解決するためのモデルの使用方法を変える大きな要素となるため、今後数年で重要性が高まる可能性があります。
Scikit-LLMについて言及する最後のことは、それがNLPの強力なツールであり、Scikit-Learnライブラリの多様性と大規模な言語モデルから来るポテンシャルを組み合わせているということです。確かにLangChainとは比べられませんが、成長しており、確かに役に立ちます。
参考文献
-ベンチマーキング ゼロショットテキスト分類:データセット、評価、および推論手法
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 人工知能の言語スキルを評価する:ChatGPTの言語形態スキルをさらに掘り下げて
- 「AIとIMOの課題を結ぶ:形式的な平面幾何学システムにおける大発見」
- 「事実かフィクションかを超えて:GPT-4の高度な事実チェック能力の評価」
- AIの聴覚スキルを革命化する:清華大学とバイトダンスが、高度なオーディオ処理のための画期的なマルチモーダルニューラルネットワーク「SALMONN」を発表
- 「IBMのワトソンXコードアシスタントと出会おう:AIパワーの助けを借りてエンタープライズコーディングを革新する」
- デビッドソンシーングラフにお会いください:高精度なテキストから画像へのAI評価のための革命的なAIフレームワーク
- 「2024年のソフトウェア開発のトレンドと予測18」