機械学習なしで最初の自動修正を作成する

機械学習なしで自動修正を作成する

独自のスペルチェッカーを構築するためのステップバイステップガイド

Photo by Markus Spiske on Unsplash

スペルの修正はどこにでもあります。私がこの記事を書いている間、Grammarlyは静かにタイプミスを修正してくれています。電子商取引のウェブサイトにクエリを入力すると、まず正しいフレーズに移動して、希望する商品のタイトルとより良く一致させます。

スペルの修正は、書かれたコミュニケーションにおいて間違いなく重要です。コミュニケーションを向上させ、専門性を保ち、生産性を向上させます。スペルチェッカーを構築することを考えると、一つの大きな解決策が浮かび上がってくるかもしれません:ディープラーニング。しかし、ディープラーニングは必ずしも最適な選択肢ではありません。

この記事では、スペル修正のための古典的な技術である「ノイズチャネル」と、ディープラーニングのバックグラウンドを必要としない修正モジュールを構築する方法を紹介します。

ノイズチャネル

私たちは、文書内のすべての単語がある種の「歪み」を受けたノイズチャネルを通過したと考えることができます。私たちは、「デコーダーチャネル」と呼ばれる「歪み」を元に戻すことができるチャネルを学習することを目指しています。

スペルミスの修正には、すべての可能な修正候補を収集し、デコーダーチャネルを通過させて、最も尤度の高い候補を見つけることができます。

Noisy channel and Decoder channel (Image by the author)

機械学習アプローチと比較して、ノイズチャネルは以下の理由からはじめるにはより好ましいと考えています:

  • コスト効率:ディープモデルを構築および維持する必要はありません。ディープラーニングモデルを構築、提供、および維持するリソースを持っているのは一部の人だけです。
  • ホワイトボックス:ノイズチャネルはより解釈可能です。スペルチェッカーから予期しない動作がある場合、スコアをより小さな要素に分解し、問題の発生源を特定することができます。したがって、適切な最適化を行うことができます(例:辞書の拡張、ハイパーパラメータの調整など)。

ただし、アプリケーションのリソースが増えるにつれて、seq2seqなどのディープモデルがより良い選択肢になります:

  • ノイズチャネルには不足がある

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「データの血統と現代データ管理におけるその重要性」

データの系譜は、データの流れを理解し、品質、規制遵守、セキュリティを確保するために非常に重要ですそれは現代のデータ管...

AI研究

「サリー大学の研究者が開発した新しいソフトウェアは、AIが実際にどれだけの情報を知っているかを検証することができます」

ここ数年、人工知能(AI)のドメインでいくつかの技術的なブレークスルーがあり、いくつかの産業やセクターに深い影響を与え...

データサイエンス

GPT-4 新しいOpenAIモデル

近年、人工知能に基づく自然言語システムの開発は前例のない進歩を遂げています

機械学習

このAIニュースレターは、あなたが必要なもの全てです#58

今週、私たちはNLPの領域外でAIの2つの新しい進展を見ることに興奮しましたMeta AIの最新の開発では、彼らのOpen Catalystシ...

AIニュース

ChatGPTの「Browse With Bing」の最良の使い方

ついに... ChatGPTが再びインターネットにアクセスできるようになりました以下は、最良の利用方法です

データサイエンス

単一のマシンで複数のCUDAバージョンを管理する:包括的なガイド

私の以前の役職の一つでAIコンサルタントとして、仮想環境をPython環境を管理し、分離するツールとして利用するという課題が...