アリババの研究者たちは、ChatGPTのような現代のチャットボットの指示に従う能力を活用した、オープンセットの細かいタグ付けツールであるINSTAGを提案しています

Alibaba researchers propose INSTAG, an open-set fine tagging tool that leverages the ability to follow instructions of modern chatbots like ChatGPT.

ChatGPTのような大規模な言語モデルが指示に従う能力をどのように獲得するのか、考えたことはありますか?さまざまな基礎言語モデルは、監視付きファインチューニング(SFT)を通じてそれを獲得しています。SFTの成功のためには、データセットの多様性と複雑さが重要な要素です。その定性的な分析と定義はより明確にする必要があります。

阿里巴巴ダモアカデミーの研究者は、「InsTag」というオープンセットの細かいタガーを提案しています。これは、タスクに関する指示の多様性と複雑性を定義するためのセマンティクスと意図に基づいてSFTデータセット内のサンプルにタグを付けるものです。彼らは、より複雑で多様なデータとともにモデルの能力が向上すると主張しています。

研究者はまた、InsTagに基づいたデータセレクターを提案しています。これはオープンソースのデータセットから6,000件の多様で複雑なサンプルを選択し、InsTagで選択されたデータ上でモデルをファインチューニングするものです。彼らは、さまざまなセマンティクスと専門知識をカバーする広範なトレーニングデータが、人間の期待に適切に応え、自然言語で人間の意図を正確に認識し、適切に応答を形式化するために重要であると主張しています。

InsTagは、高性能なチャットボットChatGPTによって強化された自動的な指示タグ付け手法です。これは、ChatGPTに対してクエリにタグを割り当てるように自動的に促すフレームワークです。ChatGPTは、割り当てられた各タグを説明するためにシステマティックなタグの正規化技術を使用します。既存のオープンソースのデータセットにInsTagが適用されると、複雑さと多様性に基づいて詳細に分析されたオープンセットのタグが構築されます。InsTagセレクターによって選択されたデータでファインチューニングされたLLMは、MIT-Benchmarkでより良いパフォーマンスを発揮します。

ChatGPTを使用して意図タグを生成しようとする際、研究者は3つのタイプのノイズを特定しました。出力形式の指示に対するChatGPTの不安定さにより、レキシカルノイズが生じました。具体的すぎるタグは制御されていない粒度を作り出し、ノイズを引き起こします。一部のタグは、ChatGPTのバイアスにより頻繁に一緒に現れ、不正確な相関関係を生じます。

これらを解決するために、彼らはフォーマット、意味、関連性などのさまざまな側面を使用してオープンセットのタグ付け結果を正規化しました。まず、特定の設定パラメーター(データセットのスケールに関連するハイパーパラメーターと呼ばれる)未満の頻度で現れるロングテールのタグをフィルタリングしました。すべてのタグは、大文字の影響を避けるために小文字に変換されました。最後に、各タグにステミングを適用しました。ステミングは、接辞を除去することにより、単語の基本形を抽出するための技術です。

研究者は、ファインチューニングにLLaMAの13Bバージョンを選択し、他の類似のLLMと比較した結果、彼らのモデルはMIT-Benchでの平均スコア6.44を達成し、すべてのオープンソースの整列したLLMを上回ることを示しています。

まとめると、研究者は、彼らの提案したInsTagがLLMの整列におけるクエリの分布のより深い理解のための新しい側面を提供すると述べています。これは、データセレクション以外のさまざまなアプリケーション、例えば包括的な評価やタグベースの自己指示などに拡張される可能性があります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

カスタム指示でChatGPTを自分のニーズに合わせて調整する

最近、OpenAIはChatGPTの最大限の活用をするためにカスタムインストラクションを導入しました

機械学習

画像処理におけるノイズとは何ですか? - 簡易解説

「画像処理におけるノイズの種類、原因、モデル、および応用を探究してください」

機械学習

デビッドソンシーングラフにお会いください:高精度なテキストから画像へのAI評価のための革命的なAIフレームワーク

T2Iモデル(テキストから画像を生成するモデル)の評価は困難であり、しばしば質問生成と回答(QG/A)の手法に依存してテキス...

機械学習

ChatGPT APIへの適切な方法での通話の作り方

「LLMsは今や至る所に存在していますが、特にChatGPTはその中でも非常に多くのアプリケーションが構築されていますもしまだ試...

機械学習

大型言語モデルへの優しい導入

こんにちは、この「大規模言語モデル(LLM)の簡単な紹介」にたどり着いてうれしいですさて、ここにいるということは、おそら...

AIニュース

新しいAIモデル、たった30BパラメーターでGPT-3を凌駕する

世界的に有名なオープンソース言語モデル(LLMs)プロバイダーであるMosaicMLは、最新世代のNVIDIA H100アクセラレータを搭載...