「Scikit-LLMを使用したゼロショットテキスト分類の経験」

「Scikit-LLMを活用したゼロショットテキスト分類の実践経験」

テキスト分類は自然言語処理（NLP）の最も一般的な応用の1つです。これは、文書内のテキストの一部に、事前定義されたクラスセットを割り当てるタスクです。テキスト分類は、感情分析、スパム検出、トピックモデリング、ドキュメントの要約など、多くのアプリケーションに役立ちます。

テキスト分類の標準的なアプローチは、教師ありの方法でモデルをトレーニングすることです。しかし、この方法では結果は手作業でラベル付けされたトレーニングデータの利用可能性に依存します。例えば、実世界のアプリケーションでは、データの利用可能性が問題となり、ゼロショットテキスト分類という新しいアプローチがより人気を集めています。

ゼロショットテキスト分類とは何ですか？

ゼロショットテキスト分類について紹介する前に、ラベル付きデータの少ない状況でモデリングを行うゼロショット学習について説明する必要があります。これは、タスクのために開発されたモデルを、2つ目のタスクのモデルのスタートポイントとして再利用する機械学習の手法であり、経験によって学習プロセスの概念を利用します。ラベル付きデータの利用可能性が少ない場合に有用です。テキスト分類は、文書内のテキストのクラスをモデルが予測する自然言語処理のタスクです。従来のアプローチでは、モデルをトレーニングするために莫大な量のラベル付きデータが必要であり、トレーニングプロセスで十分なラベル付きデータがない場合はうまくいきません。ゼロショット学習を用いてテキスト分類タスクを解決することで、ゼロショットテキスト分類を実現し、トレーニングプロセス中に以前にラベル付きテキストクラスを一度も見たことがないテキスト文書を分類するタスクになります。これを実現する方法の一つは、Yin et al (2019)によって提案された自然言語推論（NLI）の使用です。ゼロショット分類の実装は、トランスフォーマーモデルやハギングフェイスハブで入手できます。

Scikit-LLMとは何ですか？

Scikit-learnは、データサイエンティストによって機械学習の分野で最もよく知られ、広く使用されているオープンソースのPythonライブラリの1つです。その幅広いモデルや使いやすさから、回帰から分類、クラスタリングから次元削減まで、どんなタスクでも1つのライブラリで解決することができます。Scikit-LLMは、大規模言語モデルをScikit-Learnフレームワークに組み込んだPythonライブラリです。Scikit-LLMは自然言語処理（NLP）タスクをScikit-Learnパイプライン内ですべて実行するツールです。Scikit-LLMは成長しており、OpenAIモデル（ChatGPTなど）を統合し、PaLM 2を利用しています。例えば、これはOpenAI APIのラッパーです。

また、OpenAIとのインターフェースについては、次のような機能がScikit-LLMによって提供されます：

– ゼロショットテキスト分類

– フューショットテキスト分類

– ダイナミックフューショットテキスト分類

– マルチラベルゼロショットテキスト分類

– テキストのベクトル化

– テキストの翻訳

– テキストの要約

分析の目的

この業務の目標は、2つのデータセットを使用して以下のGPTモデルのパフォーマンスを探究することです：

– GPT-3.5 turbo（4,097トークンのキャパシティ）

– GPT-3.5 turbo-16k（16,385トークンのキャパシティ）

– GPT-4（8,192トークンのキャパシティ）

ゼロショットテキスト分類アプローチを用いて。

最初のデータセットは、3つの極性（ポジティブ、ニュートラル、ネガティブ）の金融データセットに関する感情分析についてです。

2つ目は、6つのラベル（ビジネス、エンターテイメント、健康、ニュース、政治、スポーツ）を持つCNN記事データセットにおけるテキスト分類についてです。

どちらの状況でも、層化サンプリングと全データセットの10％のサンプルサイズを使用してサンプルを取得し、計算の努力を省くために使用されています。

両方のデータセットがラベル付けされているため、混同行列を使用して結果を評価し、その後にマルチクラスに適応したF1スコア（マイクロ平均化されたF1スコア）によって評価されています。

このノートブックでこの経験を追うことができます。

分析

最初のタスクは、感情ラベル付きの金融文章に基づく金融感情分析のためのデータセットを使用しています。データセットは5842行あります。

3つの感情ラベルがあり、”neutral”クラスが優勢で、実験は584行で行われました。

GPT-4の混同行列を見ると、データの予測が左対角線にかなり適切に割り当てられていることがわかります。

F1スコアから、すべてのモデルがスコアの70％以上に到達しています。GPT-4は、最初の実験で最も優れたパフォーマンスを発揮しています。

2番目のタスクは、2013年から2022年までのCNNのニュースをベースにしたマルチクラステキスト分類のためのデータセットを使用しています。データセットには11の変数と9307行があります。

“part_of”列はニュースのカテゴリを表し、ラベルはターゲット変数に使用されました。一方、”Description”列はゼロショットテキスト分類を実行するために使用されました。

6つのクラスがあり、”news”と”sport”クラスが最も多く、実験は931行で行われました。

GPT-4の混同行列を見ると、最初のタスクよりもデータの予測が左対角線に改善されていることがわかります。

F1スコアから、GPT-3.5モデルは最初のタスクよりもパフォーマンスがわずかに低くなりますが、スコアの70％以上になります。GPT-4は他のモデルと比較してジャンプし、スコアの80％以上に到達します。

最終的な考え

GPT-3.5 turbo 16kはGPT-3.5 turboよりもパフォーマンスがわずかに低く、速いです。一方、GPT-4は感情分析とマルチクラステキスト分類において優れた性能を発揮し、後者では他のモデルよりも優れていますが、他のモデルよりも遅く、費用がかかります。

ノートブックを全データセットで実行すると、これらの結果はわずかに異なる場合があります。なぜなら、データセットのサイズの10％に相当する層化サンプルを取っているからです。また、Scikit-LLMでは、現時点では結果をより決定論的にするために温度の調整機能を調整する機会がありません。

とにかく、これらのモデルがゼロショットのテキスト分類手法で達成できる能力についての考えを持つことは良いと思います。そのため、トレーニングデータが利用できないか、存在しない場合に、ゼロショットテキスト分類が解決策となる可能性があります。それらの普遍的な適用性は非常に魅力的ですが、確かに大規模なプリトレーニングモデルをファインチューニングすると、まだ優れているでしょう。確かに、ゼロショット学習は、大規模な言語モデルがタスクを解決するためのモデルの使用方法を変える大きな要素となるため、今後数年で重要性が高まる可能性があります。

Scikit-LLMについて言及する最後のことは、それがNLPの強力なツールであり、Scikit-Learnライブラリの多様性と大規模な言語モデルから来るポテンシャルを組み合わせているということです。確かにLangChainとは比べられませんが、成長しており、確かに役に立ちます。