「Hugging FaceのTransformerモデルを使用して、コメントの有害性ランキングを作成する」

「Hugging FaceのTransformerモデルを使用して、コメントの有害性ランキングを作成する」

NLPとLLMに追いつく(パートI)

Brett Jordan氏による写真、Unsplashより

はじめに

データサイエンティストとして、私は自然言語処理の最新の進歩を十分に探求する機会を持ったことがありませんでした。夏と今年の初め以来、大規模言語モデルの新しいブームが起こっているため、この分野に深く没頭し、いくつかのミニプロジェクトに着手する時が来たと判断しました。結局のところ、実践することほど学ぶのに良い方法はありません。

旅が始まると、新しいNLPモデルに関する理解を深めるために、手を取ってステップバイステップで進むコンテンツを見つけるのが難しいことに気付きました。これが私がこの新しいシリーズの記事を始めることを決めた理由です。

HuggingFaceのTransformerモデルを使用したコメント毒性ランカーの構築

この最初の記事では、コメント毒性ランカーの構築に深く入り込んでいきます。このプロジェクトは、去年Kaggleで行われた「Jigsaw Rate Severity of Toxic Comments」コンペティションに触発されています。

コンペティションの目的は、2つのコメント(入力として与えられる)のうち、最も毒性のあるコメントを判定する能力を持つモデルを構築することでした。

そのため、モデルは入力されたすべてのコメントにスコアを割り当て、その相対的な毒性を決定します。

この記事でカバーする内容

この記事では、PyTorchとHugging Faceのtransformersを使って最初のNLP分類器を訓練します。transformersの詳細には触れませんが、実用的な詳細と実装に重点を置き、シリーズの次の記事に役立つ概念を紹介します。

具体的には、以下の内容を見ていきます:

  • Hugging Face Hubからモデルをダウンロードする方法
  • エンコーダをカスタマイズして使用する方法
  • Hugging Faceモデルの1つからPyTorchランカーを構築して訓練する方法

この記事は、実践的な観点からNLPのスキルを向上させたいデータサイエンティストに直接向けられています。…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「スノーケルAIのCEO兼共同創設者、アレックス・ラットナー - インタビューシリーズ」

アレックス・ラトナーは、スタンフォードAIラボを母体とする会社、Snorkel AIのCEO兼共同創設者ですSnorkel AIは、手作業のAI...

データサイエンス

「David Smith、TheVentureCityの最高データオフィサー- インタビューシリーズ」

デビッド・スミス(別名「デビッド・データ」)は、TheVentureCityのチーフデータオフィサーであり、ソフトウェア駆動型のス...

機械学習

3つの質問:大規模言語モデルについて、Jacob Andreasに聞く

CSAILの科学者は、最新の機械学習モデルを通じた自然言語処理の研究と、言語が他の種類の人工知能をどのように高めるかの調査...

データサイエンス

「3つの質問:ロボットの認識とマッピングの研磨」

MIT LIDSのLuca CarloneさんとJonathan Howさんは、将来のロボットが環境をどのように知覚し、相互作用するかについて議論し...

人工知能

「15Rockの共同創業者兼CEO、ガウタム・バクシ氏によるインタビューシリーズ」

「ガウタム・バクシは、気候リスク管理とアドバイザリーサービスのグローバルリーダーである15Rockの共同創設者兼CEOですガウ...

人工知能

「ジンディのCEO兼共同創設者、セリーナ・リー― インタビューシリーズ」

「Celina Leeは、ZindiのCEO兼共同創設者であり、アフリカのデータサイエンティスト向けの最大の専門ネットワークです Celina...