「固有表現とニュース」

Named Entities and News

オランダのニュースデータセットでのNEの使用を探索する

名前付きエンティティ認識に明らかに利益をもたらす可能性のあるニュース推薦システムの例。ソース:NOSによる記事、写真:Rick L氏によるNOSの写真(左)、著者による写真、DreamStudioで作成(中央)、NOSによる記事、写真:Cristina Anne Costello氏によるUnsplash(右)

NOS(オランダ公共放送協会)では、毎日編集チームが数百のニュース記事を執筆しています。これらの記事はオランダの市民にニュースを伝えるだけでなく、自然言語処理の観点から興味深く高品質なデータセットとなっています。このブログでは、NOSのデータサイエンティストとして、オランダのニュース記事のデータセットに対して名前付きエンティティ認識(NER)を適用したいくつかの実験と、ニュースの文脈でNERを適用するためのいくつかのアイデアを報告します。

名前付きエンティティとは何ですか?

名前付きエンティティ(NE)とは、人、場所、組織などの固有名を持つ実世界のオブジェクトを指す特別なタイプの単語です。これらのタイプの単語を自動的に認識するモデルが存在し、これを名前付きエンティティ認識(NER)モデルと呼びます。以下の右側の図に、当社の記事の抜粋に適用されたNERモデルの例が示されており、NEが強調表示され、NEのタイプが注釈付けされています。

オランダ語では、spaCy [1]、Flair [2]、またはNTLK [3]など、いくつかの事前訓練済みモデルが利用可能です。私たちはこれらの3つのモデルに対して定性評価を行い、ランダムな記事のサンプルにそれらを適用し、結果を手動で検査しました。その結果、私たちは残りの実験にはspaCyを使用することにしました。このモデルが認識できるすべてのNEタイプの概要が以下の図1に示されています。

図1:spaCyによるNERモデルで利用可能なNEタイプの概要(左)。オランダ語から翻訳されたニュース記事の抜粋に適用されたNERの例(右)

spaCyの事前訓練済みモデルを使用して、データセットの複数のサブセットに対してNERを適用しました。まず、1ヶ月(2023年2月)のすべての記事を収集し、データをニュースとスポーツのカテゴリに分割しました(ニュース記事が1,030、スポーツ記事が596)。そして、NEのタイプごとの合計頻度を取得するためにNERを適用しました。ニュースとスポーツの結果は図2に示されており、ニュースでのNEの重要性がすぐに示されています。たった1ヶ月の記事で、何万ものNEが言及されていることがわかります。これを考えると、記事には平均して404語が含まれており、記事の単語の約10%がNEです。また、以下の図でも、ニュースとスポーツで最も頻繁に言及されるNEのタイプが異なることがわかります。ニュースでは、NEのタイプの大部分が国、次に組織と人物です。一方、スポーツでは最も頻繁に言及されるNEのタイプは人物で、次に国と数値です。これは、スポーツがスコア(基数)や個々のアスリート(人物)を言及する一方、ニュースではイベントをカバーしており、場所(gpe)を言及することがしばしば関連するためです。

図2:ニュース記事(左)およびスポーツ記事(右)の1ヶ月間の検出されたNEタイプの頻度カウント

NERによるデータへの新しい視点

私たちは、合計482の記事からなる2022年ワールドカップサッカーのケーススタディを行いました。データセットにNERを適用し、人物タイプのすべての固有表現(NE)を検出しました。2,171の固有表現が見つかり、そのうち1,296は一度だけ言及されました。図3Aでは、このイベント中に最も頻繁に言及された人物の概要を示しています。さらに、最も頻繁に言及された人物については、言及頻度の推移を示すストリームグラフを作成しました(図3B参照)。これにより、例えば、van Gaalは大会全体で頻繁に言及されている一方、他の人物は特定の日に言及されることが多いことがわかります。このようなグラフは、NOSが報道することの数量的な反映であり、編集チームに新しい洞察を提供する可能性があります。この視点は、NERによって効率的に活用されます。現時点では、これはワールドカップ22に特化して適用されましたが、さまざまな設定でこのようなグラフが興味深いものとなる可能性があります。例えば、選挙中に言及される政治家や政党、またはより一般的に、より広い時間範囲での国、都市、組織などの言及頻度を考えてみてください。

図3AおよびB:NERを使用してワールドカップ22中に言及された人物の頻度カウント。左側に総数、右側に時間の経過が表示されています。

[YOUR NAMED ENTITY HERE]についてのすべて

ワールドカップ2022に関するケーススタディを一歩進めて、「NERを使用して名前付きエンティティの要約を生成することはできるか?」という問いに取り組みました。まず、指定されたNEを言及するすべての記事を収集するモジュールを開発しました。これは、特にこのNEに関心のあるユーザーにとって、このNEに関する利用可能な情報のコレクションとして機能することができます。しかし、さらに興味深いことに、このコレクションの中でNEが言及されるすべての文を収集し、コレクションの要約を生成します。例として、そのモジュールをオランダ代表のゴールキーパーであるAndries Noppertに適用しました。図3からは、Noppertがこのイベントでかなり頻繁に言及されていることがすでにわかります。Noppertに対してモジュールを適用すると、オランダ語から翻訳された以下のようなゴールキーパーの注目すべき物語を要約したものが生成されました。

-------------------------------------------------- -------------------------------------------------- --------------------2022-11-11   - Noppertはペナルティキラーとして参加する?-------------------------------------------------- -------------------------------------------------- --------------------2022-11-16   - sc HeerenveenのゴールキーパーであるAndries Noppertがカタールの19番目のプレミアリーグ選手になりました。-------------------------------------------------- -------------------------------------------------- --------------------2022-11-20   - 「カタールとエクアドルのことを心配しないで」と「ゴールでの失敗はギャンブル」アナリストのLeonne StentlerとPierre van Hooijdonkは同意しています。   - van GaalはNoppertのベースの場所については何も言いませんが、「10番でのGakpoのヒントがあります」と示唆しています。さまざまなメディアによると、sc Heerenveenでプレーする28歳のAndries Noppertが、月曜日のセネガル戦でオレンジの代表デビューを果たすとされています。-------------------------------------------------- -------------------------------------------------- --------------------2022-11-21   - Noppertは今や基本のゴールキーパーですか?   - Noppert:「これは少年の夢です」ゴールキーパーのAndries Noppertは、セネガル戦で緊張感を感じることがありませんでした。   - Noppertが初めてのワールドカップデビュー戦でSchoenakerを成功させることができるでしょうか?   - ゴールキーパーのAndries Noppertはオレンジでデビューし、成功した初の国際試合を振り返ることができます。-------------------------------------------------- -------------------------------------------------- --------------------2022-11-22   - 「無力な」Noppertが注目を浴びる:「オランダではみんな不平を言う」sc Heerenveenの28歳のゴールキーパーが、オランダ代表のセネガル戦で月曜日にデビューしました。-------------------------------------------------- -------------------------------------------------- --------------------2022-11-23   - Noppert?-------------------------------------------------- -------------------------------------------------- --------------------2022-11-24   - オランダ対セネガルのワールドカップ戦の後、Andries Noppertは急に有名なオランダ人になりました。「彼は煙草を吸っていた」というフォッジャエピソード。-------------------------------------------------- -------------------------------------------------- --------------------2022-11-25   - Jurriën Timber、Virgil van Dijk、Nathan Akéは守備をうまく組織し、Andries Noppertは再び頼りになるゴールキーパーであることが証明されました。-------------------------------------------------- -------------------------------------------------- --------------------2022-12-03   - Virgil van DijkとAndries Noppertの反応をここでご覧ください:そのチームでは、攻撃のおなじみのポジションに戻った重要な選手の一人がいます。   - Andries Noppertは左足で素晴らしいセーブをしました。-------------------------------------------------- -------------------------------------------------- --------------------2022-12-07   - Noppertはアルゼンチンに向けて控えめに生活しています。「メッシもペナルティを外すことがあるでしょう?」-------------------------------------------------- -------------------------------------------------- --------------------2022-12-09   - そして、そうです...」Noppertのおとぎ話は終わりました。sc Heerenveenのゴールキーパー、Andries Noppertにとっては素晴らしいものになる可能性がありましたが、逆サイドのキーパー、Emiliano Martinezが大英雄となりました。   - アルゼンチンのウィングバックのモリーナは、オランダの同僚ブラインドの後ろをかわし、Virgil van Dijkは修正するのが遅すぎて、モリーナはAndries Noppertを抜きました。-------------------------------------------------- -------------------------------------------------- --------------------2022-12-16   - カタールでのワールドカップ中の注目すべき事実:Amrabatが征服し、Modricがドリブル、Noppertがセーブ驚くべき統計情報が随所にありました。-------------------------------------------------- -------------------------------------------------- --------------------2022-12-18   - Andries Noppert(オランダ)Vermeulen:「もちろんNoppertも同じです。

NEを意識したレコメンデーションシステム

これまでに、ニュース記事にはNEが豊富に存在し、NERを適用することで興味深い洞察が得られることを見てきました。私たちが共有したいと考えるもう1つの興味深い実験があります。それは、「NERを使用してコンテンツベースのレコメンデーションシステムを改善することはできるのか?」という研究問題に関連しています。以前に、コンテンツベースのレコメンデーションシステムを開発し、最近になってニュースアプリに統合しました。オンラインとオフラインのテストを使用して、さまざまなモデルと最適化を比較し、アプリ内のクリック率が向上していることがわかりました。これは素晴らしいニュースですが、私たちは常にレコメンデーションシステムをさらに改善する方法を探しています。編集チームからは、オランダ語の一般的な単語でもある人名や場所名が含まれる記事に対して、レコメンダーが混乱しているというフィードバックを受け取りました。次のセクションでは、この種の曖昧さを解消するためにNERを使用した実験について報告します。

実験

現在のレコメンデーションシステムは、テキストをベクトル化するためにTF-IDFを使用したコサイン類似度に基づいています。基本的には、類似した記事を特定するために単語の重複を重視していますが、稀な単語にはより高い関連性を割り当てます。NEには複数の意味がある場合があり、この方法はうまく機能しない場合があります。例えば、ゴルファーのタイガー・ウッズについての記事を考えてみましょう。基本的なレコメンデーションシステムでは、動物のトラや森に関する記事と関連する記事を見つけるかもしれません。これらは明らかに役に立たない推奨です。私たちは、この種の曖昧さを解決するために、テキスト内のNEをそのタイプで注釈付けすることによって、私たちのレコメンダーにNEを意識させることでこれを解決できるのではないかと仮説を立てました。この場合、トークンはもはや重複しないようになります。図5に示すように。

図5:現在のレコメンデーションシステム(ベース)とNEを意識したシステムの例。現在のシステムは、両方の記事に「トラ」という単語が含まれているため、関連性を関連付けますが、NEを意識したシステムはこの曖昧さを解消します。ソース:NOSの記事、Rick L氏の写真(左)、NOSの記事、Cristina Anne Costello氏の写真(右)

私たちは、人物、場所、組織のNEのタイプを使用してNEを意識させる実装を行いました。編集チームによって手動で注釈付けされたテストセットを使用して、さまざまなモデルを評価し、関連する記事の情報を含んでいます。このテストセットには14,541のユニークな記事が含まれており、平均して各記事は約2つの他の記事とリンクしています。評価指標として、ソートされた推奨事項内の関連記事の平均ランクを計算しました。

図6は、私たちのベースモデルとさまざまなNEを意識したモデルの結果を示しています。実際には、ベースモデルの方がすべてのタイプのNEを意識したモデルよりも優れていることがわかります。理論的には、NEを意識させることでレコメンダーを改善できるはずですが、実際には、それは解決策よりも曖昧さをもたらすことがわかりました。さまざまなモデルの出力を詳細に調査した結果、NERモデルのパフォーマンスに制限があることがわかりました。spaCy NERモデルは、自分自身のテストセットで評価された場合、Fスコア0.77を出力しますが、別のデータセットに適用するとこのスコアは低くなる可能性があります。したがって、モデルの精度は時折不正確になる可能性があります。NEを意識したモデルによって出力されたいくつかの推奨事項を手動で検査した結果、TF-IDFと組み合わせると、誤って検出されたNEの影響がかなり強いことがわかりました。誤って検出されたNEを含む記事では、出力の推奨事項も同じく誤って検出されたNEを含んでいます。例えば、「後ろ向き」という単語を含む記事がPersonタイプのNEとして分類された場合、同じく誤って分類されたNE「後ろ向き」を含む推奨事項が表示されます。この場合、NERは誤っていますが、推奨事項は意味があります。なぜなら、TF-IDFはコーパス内で非常に稀な「後ろ向き_人」というトークンにより高い関連性を割り当てるからです。結論として、事前学習されたオランダ語のNERモデルは、現時点では私たちのレコメンデーションシステムに組み込むには精度が十分ではないといえます。

図6:現在のレコメンデーションシステム(ベース)とNEを意識したシステムのパフォーマンスの比較

将来的には、事前学習済みモデルの微調整が有益となる可能性があります。現時点では、カテゴリやキーワードなどのメタデータを使用してNE-曖昧性を解決する別のアプローチを探求しました。これはNEに対するノイズの少ないがより関連性の低い指標であり、私たちのレコメンダをかなり改善しました。

結論

このブログでは、オランダのニュースデータセットに適用した場合の固有名詞認識の可能性について探求しました。NEの頻度プロットやストリームグラフなど、データセットに関する一般的な洞察を得るために適用すると良い結果が得られることがわかりました。しかし、私たちのレコメンダに適用すると、モデルの精度が十分ではないことがわかりました。NEの認識のエラーという形で新たな曖昧性を導入する一方で、NEの認識の一部の曖昧性を解消することに成功しました。将来的には、事前学習済みモデルの微調整や独自のモデルのトレーニングを試みるか、ご自身の提案があればコメントでお知らせください。

すべての画像は、特記がない限り著者によるものです。

参考文献[1] spaCy NERモデル: https://spacy.io/models/nl#nl_core_news_lg[2] Flair NERモデル: https://huggingface.co/flair/ner-dutch-large[3] NLTK NERモデル: https://www.nltk.org/book/ch07.html

NOSについてNOSは、オランダの独立した公共メディア機関であり、テレビ、ラジオ、ウェブサイト、モバイルアプリなどのプラットフォームを通じてニュースやスポーツについて報道しています。私たちは、いくつかのブランドのためにデジタルサービスを作成するための専門チームを持っています。このブログで説明されている研究は、ニュースの文脈での新しいデータサイエンスとAIの技術の使用を探求するためのNOSデータチームの一員として行われました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more