画像からテキストを抽出するためのトップ5のPythonライブラリ

画像からテキストを抽出するためのトップ5のPythonライブラリ

テキストのローカライゼーションと認識のためのOCRツールを理解し、マスターする

Anna Sullivanによる写真、Unsplash

Optical Character Recognition(OCR)は古いが、未だに難しい問題であり、画像やPDF文書を含む非構造化データからテキストを検出および認識することを目的としています。これには、銀行業務、電子商取引、ソーシャルメディアのコンテンツモデレーションなど、魅力的な応用があります。

しかし、データサイエンスの分野においては、OCRタスクの解決方法を学ぶための膨大なリソースが存在します。そのため、このチュートリアルを書いています。このチュートリアルは、初めの一歩を踏み出すのに役立つでしょう。

この記事では、苦労することなく画像からテキストを迅速に抽出することができるいくつかのPythonライブラリを紹介します。各ライブラリの説明に続いて、実際の例を示します。使用するデータセットはKaggleから取得されています。概念を簡略化するため、映画「Rush」の画像を使用しています。

さあ、はじめましょう!

textOCRデータセットからの画像。出典:

目次:

  1. pytesseract
  2. EasyOCR
  3. Keras-OCR
  4. TrOCR
  5. docTR

1. pytesseract

これは、最も人気のあるPythonライブラリの1つであり、光学文字認識に使用されます。GoogleのTesseract-OCRエンジンを使用して画像からテキストを抽出します。複数の言語がサポートされています。サポートされている言語を確認するには、こちらをご覧ください。画像をテキストに変換するために、わずかなコード行が必要です:

# インストール!sudo apt install tesseract-ocr!pip install pytesseractimport pytesseractfrom pytesseract import Outputfrom PIL import Imageimport cv2img_path1 = '00b5b88720f35a22.jpg'text = pytesseract.image_to_string(img_path1,lang='eng')print(text)

これが出力結果です:

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

ムーバブルインクのCEO兼共同創設者であるヴィヴェク・シャルマ氏についてのインタビュー・シリーズ

ビヴェクは2010年にムーバブルインクを共同設立し、急速な成長を遂げながら、600人以上の従業員を擁し、世界有数の革新的なブ...

人工知能

「ジャスティン・マクギル、Content at Scaleの創設者兼CEO - インタビューシリーズ」

ジャスティンは2008年以来、起業家、イノベーター、マーケターとして活動しています彼は15年以上にわたりSEOマーケティングを...

機械学習

3つの質問:大規模言語モデルについて、Jacob Andreasに聞く

CSAILの科学者は、最新の機械学習モデルを通じた自然言語処理の研究と、言語が他の種類の人工知能をどのように高めるかの調査...

AIニュース

OpenAIのCEOであるSam Altman氏:AIの力が証明されるにつれて、仕事に関するリスクが生じる

OpenAIのCEOであるSam Altmanは、特に彼の作品であるChatGPTに関するAIの潜在的な危険性について公言してきました。最近のイ...

人工知能

「クリス・サレンス氏、CentralReachのCEO - インタビューシリーズ」

クリス・サレンズはCentralReachの最高経営責任者であり、同社を率いて、自閉症や関連する障害を持つ人々のために優れたクラ...

人工知能

「Kognitosの創設者兼CEO、ビニー・ギル- インタビューシリーズ」

ビニー・ギルは、複数の役職と企業を横断する多様で幅広い業務経験を持っていますビニーは現在、Kognitosの創設者兼CEOであり...