化学エンティティ認識の自動化:ChemNERモデルの作成

化学エンティティ認識の自動化:ChemNERモデルの作成をより効率化する方法

Aakash Dhage氏による写真(出典:Unsplash)

私は化学に常に強い興味を持っており、それは私の学術的および専門的なキャリアを形作る上で重要な役割を果たしています。化学のバックグラウンドを持つデータの専門家として、創造性、好奇心、忍耐力、鋭い観察力、分析力などの科学的および研究スキルをデータプロジェクトに応用する方法を多く見つけてきました。この記事では、ChemNERと名付けたシンプルなNamed Entity Recognition(NER)モデルの開発について紹介します。このモデルはテキスト内の化学化合物を識別し、アルカン、アルケン、アルキン、アルコール、アルデヒド、ケトン、カルボン酸などのカテゴリに分類することができます。

要約

ChemNERモデルで遊びたい場合や、私が作ったStreamlitアプリを使用したい場合は、以下のリンクからアクセスできます:

HuggingFaceリンク: https://huggingface.co/victormurcia/en_chemner

Streamlitアプリ: ChemNERリンク

イントロダクション

NERアプローチは、以下の3つのカテゴリのいずれかに一般的に分類されます:

  • 辞書ベース:クラスと用語の辞書を定義する
  • ルールベース:各クラスに対応する用語のルールを定義する
  • 機械学習(ML)ベース:モデルに学習コーパスから命名規則を学ばせる

これらのアプローチはそれぞれ強みと制限があり、常に複雑で洗練されたモデルが最善のアプローチではありません。

今回の場合、辞書ベースのアプローチは、興味のある化合物クラスごとに分類するために、そのカテゴリに含まれるすべての化合物を手動で定義する必要があります。言い換えれば、このアプローチが包括的になるためには、すべての化合物クラスごとにすべての化学化合物を手動で入力する必要があります。

MLアプローチは最も強力な方法になるかもしれませんが、データセットの注釈付けはかなり労力がかかることがあります(ネタバレ:最終的にモデルのトレーニングを行いますが、教育目的のためにプロセス全体を示したいと思っています)。代わりに、予め定義された命名規則から始めてみませんか?

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more