「Hugging FaceのTransformerモデルを使用して、コメントの有害性ランキングを作成する」

「Hugging FaceのTransformerモデルを使用して、コメントの有害性ランキングを作成する」

NLPとLLMに追いつく(パートI)

Brett Jordan氏による写真、Unsplashより

はじめに

データサイエンティストとして、私は自然言語処理の最新の進歩を十分に探求する機会を持ったことがありませんでした。夏と今年の初め以来、大規模言語モデルの新しいブームが起こっているため、この分野に深く没頭し、いくつかのミニプロジェクトに着手する時が来たと判断しました。結局のところ、実践することほど学ぶのに良い方法はありません。

旅が始まると、新しいNLPモデルに関する理解を深めるために、手を取ってステップバイステップで進むコンテンツを見つけるのが難しいことに気付きました。これが私がこの新しいシリーズの記事を始めることを決めた理由です。

HuggingFaceのTransformerモデルを使用したコメント毒性ランカーの構築

この最初の記事では、コメント毒性ランカーの構築に深く入り込んでいきます。このプロジェクトは、去年Kaggleで行われた「Jigsaw Rate Severity of Toxic Comments」コンペティションに触発されています。

コンペティションの目的は、2つのコメント(入力として与えられる)のうち、最も毒性のあるコメントを判定する能力を持つモデルを構築することでした。

そのため、モデルは入力されたすべてのコメントにスコアを割り当て、その相対的な毒性を決定します。

この記事でカバーする内容

この記事では、PyTorchとHugging Faceのtransformersを使って最初のNLP分類器を訓練します。transformersの詳細には触れませんが、実用的な詳細と実装に重点を置き、シリーズの次の記事に役立つ概念を紹介します。

具体的には、以下の内容を見ていきます:

  • Hugging Face Hubからモデルをダウンロードする方法
  • エンコーダをカスタマイズして使用する方法
  • Hugging Faceモデルの1つからPyTorchランカーを構築して訓練する方法

この記事は、実践的な観点からNLPのスキルを向上させたいデータサイエンティストに直接向けられています。…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIテクノロジー

「LXTのテクノロジーバイスプレジデント、アムル・ヌール・エルディン - インタビューシリーズ」

アムル・ヌール・エルディンは、LXTのテクノロジー担当副社長ですアムルは、自動音声認識(ASR)の文脈での音声/音響処理と機...

人工知能

「Kognitosの創設者兼CEO、ビニー・ギル- インタビューシリーズ」

ビニー・ギルは、複数の役職と企業を横断する多様で幅広い業務経験を持っていますビニーは現在、Kognitosの創設者兼CEOであり...

人工知能

ムーバブルインクのCEO兼共同創設者であるヴィヴェク・シャルマ氏についてのインタビュー・シリーズ

ビヴェクは2010年にムーバブルインクを共同設立し、急速な成長を遂げながら、600人以上の従業員を擁し、世界有数の革新的なブ...

データサイエンス

2023年にAmazonのデータサイエンティストになる方法は?

ほとんどのビジネスは現在、膨大な量のデータを生成し、編集し、管理しています。しかし、ほとんどのビジネスは、収集したデ...

人工知能

「トリントの創設者兼CEO、ジェフ・コフマンへのインタビューシリーズ」

ジェフ・コーフマンは、ABC、CBS、CBCニュースで30年のキャリアを持った後、Trintの創設者兼CEOとなりましたジェフは手作業の...

機械学習

「Prolificの機械学習エンジニア兼AIコンサルタント、ノラ・ペトロヴァ – インタビューシリーズ」

『Nora Petrovaは、Prolificの機械学習エンジニア兼AIコンサルタントですProlificは2014年に設立され、既にGoogle、スタンフ...