アリババの研究者たちは、ChatGPTのような現代のチャットボットの指示に従う能力を活用した、オープンセットの細かいタグ付けツールであるINSTAGを提案しています

Alibaba researchers propose INSTAG, an open-set fine tagging tool that leverages the ability to follow instructions of modern chatbots like ChatGPT.

ChatGPTのような大規模な言語モデルが指示に従う能力をどのように獲得するのか、考えたことはありますか?さまざまな基礎言語モデルは、監視付きファインチューニング(SFT)を通じてそれを獲得しています。SFTの成功のためには、データセットの多様性と複雑さが重要な要素です。その定性的な分析と定義はより明確にする必要があります。

阿里巴巴ダモアカデミーの研究者は、「InsTag」というオープンセットの細かいタガーを提案しています。これは、タスクに関する指示の多様性と複雑性を定義するためのセマンティクスと意図に基づいてSFTデータセット内のサンプルにタグを付けるものです。彼らは、より複雑で多様なデータとともにモデルの能力が向上すると主張しています。

研究者はまた、InsTagに基づいたデータセレクターを提案しています。これはオープンソースのデータセットから6,000件の多様で複雑なサンプルを選択し、InsTagで選択されたデータ上でモデルをファインチューニングするものです。彼らは、さまざまなセマンティクスと専門知識をカバーする広範なトレーニングデータが、人間の期待に適切に応え、自然言語で人間の意図を正確に認識し、適切に応答を形式化するために重要であると主張しています。

InsTagは、高性能なチャットボットChatGPTによって強化された自動的な指示タグ付け手法です。これは、ChatGPTに対してクエリにタグを割り当てるように自動的に促すフレームワークです。ChatGPTは、割り当てられた各タグを説明するためにシステマティックなタグの正規化技術を使用します。既存のオープンソースのデータセットにInsTagが適用されると、複雑さと多様性に基づいて詳細に分析されたオープンセットのタグが構築されます。InsTagセレクターによって選択されたデータでファインチューニングされたLLMは、MIT-Benchmarkでより良いパフォーマンスを発揮します。

ChatGPTを使用して意図タグを生成しようとする際、研究者は3つのタイプのノイズを特定しました。出力形式の指示に対するChatGPTの不安定さにより、レキシカルノイズが生じました。具体的すぎるタグは制御されていない粒度を作り出し、ノイズを引き起こします。一部のタグは、ChatGPTのバイアスにより頻繁に一緒に現れ、不正確な相関関係を生じます。

これらを解決するために、彼らはフォーマット、意味、関連性などのさまざまな側面を使用してオープンセットのタグ付け結果を正規化しました。まず、特定の設定パラメーター(データセットのスケールに関連するハイパーパラメーターと呼ばれる)未満の頻度で現れるロングテールのタグをフィルタリングしました。すべてのタグは、大文字の影響を避けるために小文字に変換されました。最後に、各タグにステミングを適用しました。ステミングは、接辞を除去することにより、単語の基本形を抽出するための技術です。

研究者は、ファインチューニングにLLaMAの13Bバージョンを選択し、他の類似のLLMと比較した結果、彼らのモデルはMIT-Benchでの平均スコア6.44を達成し、すべてのオープンソースの整列したLLMを上回ることを示しています。

まとめると、研究者は、彼らの提案したInsTagがLLMの整列におけるクエリの分布のより深い理解のための新しい側面を提供すると述べています。これは、データセレクション以外のさまざまなアプリケーション、例えば包括的な評価やタグベースの自己指示などに拡張される可能性があります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「Google CloudとNVIDIAが協力を更に進展させる」

生成AIと大規模言語モデル(LLMs)が革新を推進する中で、トレーニングと推論のためのコンピューティング要件は驚異的なペー...

AIニュース

このAI論文では、エッジコンピュータ上でも高品質な再構築とリアルタイム性能を実現するためのNeRFベースのマッピング手法が提案されています

この論文では、研究者たちはH2-Mappingと呼ばれるNeRFベースのマッピング手法を紹介しました。この手法は、ロボティクス、AR ...

AIニュース

この人工知能に焦点を当てたチップは効率を再定義します:処理とメモリを統合することでエネルギーの節約を倍増させる

データ中心のローカルインテリジェンスの需要が高まる中、デバイスが自律的にデータを解析できるようにするという課題がます...

データサイエンス

「正しい方法で新しいデータサイエンスのスキルを学ぶ」

「私たちは学習曲線を整然とした滑らかな上昇線と考える傾向がありますしかし、学習の旅をよく見ると、途中には数多くの下降...

データサイエンス

新しい研究は、ソフト自己駆動摩擦電気ナノ発電装置と深層学習支援データ分析に基づく水中3次元触覚テンセグリティ(U3DTT)を提案しています

「AUV」とは「自律型水中無人機」の略で、深海の下にあるものを発見するために広範な応用があります。この深海の下にあるもの...