画像からテキストを抽出するためのトップ5のPythonライブラリ

画像からテキストを抽出するためのトップ5のPythonライブラリ

テキストのローカライゼーションと認識のためのOCRツールを理解し、マスターする

Anna Sullivanによる写真、Unsplash

Optical Character Recognition(OCR)は古いが、未だに難しい問題であり、画像やPDF文書を含む非構造化データからテキストを検出および認識することを目的としています。これには、銀行業務、電子商取引、ソーシャルメディアのコンテンツモデレーションなど、魅力的な応用があります。

しかし、データサイエンスの分野においては、OCRタスクの解決方法を学ぶための膨大なリソースが存在します。そのため、このチュートリアルを書いています。このチュートリアルは、初めの一歩を踏み出すのに役立つでしょう。

この記事では、苦労することなく画像からテキストを迅速に抽出することができるいくつかのPythonライブラリを紹介します。各ライブラリの説明に続いて、実際の例を示します。使用するデータセットはKaggleから取得されています。概念を簡略化するため、映画「Rush」の画像を使用しています。

さあ、はじめましょう!

textOCRデータセットからの画像。出典:

目次:

  1. pytesseract
  2. EasyOCR
  3. Keras-OCR
  4. TrOCR
  5. docTR

1. pytesseract

これは、最も人気のあるPythonライブラリの1つであり、光学文字認識に使用されます。GoogleのTesseract-OCRエンジンを使用して画像からテキストを抽出します。複数の言語がサポートされています。サポートされている言語を確認するには、こちらをご覧ください。画像をテキストに変換するために、わずかなコード行が必要です:

# インストール!sudo apt install tesseract-ocr!pip install pytesseractimport pytesseractfrom pytesseract import Outputfrom PIL import Imageimport cv2img_path1 = '00b5b88720f35a22.jpg'text = pytesseract.image_to_string(img_path1,lang='eng')print(text)

これが出力結果です:

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「ジャスティン・マクギル、Content at Scaleの創設者兼CEO - インタビューシリーズ」

ジャスティンは2008年以来、起業家、イノベーター、マーケターとして活動しています彼は15年以上にわたりSEOマーケティングを...

人工知能

「Zenの共同創設者兼CTO、イオン・アレクサンドル・セカラ氏によるインタビューシリーズ」

創業者兼CTOであるIon-Alexandru Secaraは、Zen(PostureHealth Inc.)の開発を牽引しており、画期的な姿勢矯正ソフトウェア...

人工知能

スコット・スティーブンソン、スペルブックの共同創設者兼CEO- インタビューシリーズ

スコット・スティーブンソンは、Spellbookの共同創設者兼CEOであり、OpenAIのGPT-4および他の大規模な言語モデル(LLM)に基...

人工知能

『DeepHowのCEO兼共同創業者、サム・ジェン氏によるインタビューシリーズ』

ディープハウのCEO兼共同創設者であるサム・ジェンは、著名な投資家から支持される急速に進化するスタートアップを率いていま...

人工知能

「UVeyeの共同設立者兼CEO、アミール・ヘヴェルについてのインタビューシリーズ」

アミール・ヘヴァーは、UVeyeのCEO兼共同創設者であり、高速かつ正確な異常検出により、自動車およびセキュリティ産業に直面...

人工知能

ムーバブルインクのCEO兼共同創設者であるヴィヴェク・シャルマ氏についてのインタビュー・シリーズ

ビヴェクは2010年にムーバブルインクを共同設立し、急速な成長を遂げながら、600人以上の従業員を擁し、世界有数の革新的なブ...