画像からテキストを抽出するためのトップ5のPythonライブラリ

画像からテキストを抽出するためのトップ5のPythonライブラリ

テキストのローカライゼーションと認識のためのOCRツールを理解し、マスターする

Anna Sullivanによる写真、Unsplash

Optical Character Recognition(OCR)は古いが、未だに難しい問題であり、画像やPDF文書を含む非構造化データからテキストを検出および認識することを目的としています。これには、銀行業務、電子商取引、ソーシャルメディアのコンテンツモデレーションなど、魅力的な応用があります。

しかし、データサイエンスの分野においては、OCRタスクの解決方法を学ぶための膨大なリソースが存在します。そのため、このチュートリアルを書いています。このチュートリアルは、初めの一歩を踏み出すのに役立つでしょう。

この記事では、苦労することなく画像からテキストを迅速に抽出することができるいくつかのPythonライブラリを紹介します。各ライブラリの説明に続いて、実際の例を示します。使用するデータセットはKaggleから取得されています。概念を簡略化するため、映画「Rush」の画像を使用しています。

さあ、はじめましょう!

textOCRデータセットからの画像。出典:

目次:

  1. pytesseract
  2. EasyOCR
  3. Keras-OCR
  4. TrOCR
  5. docTR

1. pytesseract

これは、最も人気のあるPythonライブラリの1つであり、光学文字認識に使用されます。GoogleのTesseract-OCRエンジンを使用して画像からテキストを抽出します。複数の言語がサポートされています。サポートされている言語を確認するには、こちらをご覧ください。画像をテキストに変換するために、わずかなコード行が必要です:

# インストール!sudo apt install tesseract-ocr!pip install pytesseractimport pytesseractfrom pytesseract import Outputfrom PIL import Imageimport cv2img_path1 = '00b5b88720f35a22.jpg'text = pytesseract.image_to_string(img_path1,lang='eng')print(text)

これが出力結果です:

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「コマンドバーの創設者兼CEO、ジェームズ・エバンスによるインタビューシリーズ」

ジェームズ・エバンズは、CommandBarの創設者兼CEOであり、製品、マーケティング、顧客チームを支援するために設計されたAIパ...

人工知能

「パクストンAIの共同創業者兼CEO、タングイ・シャウ - インタビューシリーズ」

タングイ・ショウは、Paxton AIの共同創設者兼CEOであり、法的研究と起草の負担を軽減するためにGenerative AIを使用するプラ...

人工知能

『DeepHowのCEO兼共同創業者、サム・ジェン氏によるインタビューシリーズ』

ディープハウのCEO兼共同創設者であるサム・ジェンは、著名な投資家から支持される急速に進化するスタートアップを率いていま...

人工知能

「Ntropyの共同創設者兼CEO、ナレ・ヴァルダニアンについて - インタビューシリーズ」

「Ntropyの共同創設者兼CEOであるナレ・ヴァルダニアンは、超人的な精度で100ミリ秒以下で金融取引を解析することを可能にす...

データサイエンス

「Seerの最高データオフィサーであるDr. Serafim Batzoglouによるインタビューシリーズ」

セラフィム・バツォグルはSeerのチーフデータオフィサーですSeerに加わる前は、セラフィムはInsitroのチーフデータオフィサー...

データサイエンス

2023年にAmazonのデータサイエンティストになる方法は?

ほとんどのビジネスは現在、膨大な量のデータを生成し、編集し、管理しています。しかし、ほとんどのビジネスは、収集したデ...