画像からテキストを抽出するためのトップ5のPythonライブラリ
画像からテキストを抽出するためのトップ5のPythonライブラリ
テキストのローカライゼーションと認識のためのOCRツールを理解し、マスターする
Optical Character Recognition(OCR)は古いが、未だに難しい問題であり、画像やPDF文書を含む非構造化データからテキストを検出および認識することを目的としています。これには、銀行業務、電子商取引、ソーシャルメディアのコンテンツモデレーションなど、魅力的な応用があります。
しかし、データサイエンスの分野においては、OCRタスクの解決方法を学ぶための膨大なリソースが存在します。そのため、このチュートリアルを書いています。このチュートリアルは、初めの一歩を踏み出すのに役立つでしょう。
この記事では、苦労することなく画像からテキストを迅速に抽出することができるいくつかのPythonライブラリを紹介します。各ライブラリの説明に続いて、実際の例を示します。使用するデータセットはKaggleから取得されています。概念を簡略化するため、映画「Rush」の画像を使用しています。
さあ、はじめましょう!
- 「Colabノートブックで自分のLlama 2モデルを微調整する」
- 「PythonのPandasライブラリを使用した非慣例的な日時変換の簡易化」
- 「Muybridge Derby AIによる動物の運動写真の活性化」
目次:
- pytesseract
- EasyOCR
- Keras-OCR
- TrOCR
- docTR
1. pytesseract
これは、最も人気のあるPythonライブラリの1つであり、光学文字認識に使用されます。GoogleのTesseract-OCRエンジンを使用して画像からテキストを抽出します。複数の言語がサポートされています。サポートされている言語を確認するには、こちらをご覧ください。画像をテキストに変換するために、わずかなコード行が必要です:
# インストール!sudo apt install tesseract-ocr!pip install pytesseractimport pytesseractfrom pytesseract import Outputfrom PIL import Imageimport cv2img_path1 = '00b5b88720f35a22.jpg'text = pytesseract.image_to_string(img_path1,lang='eng')print(text)
これが出力結果です:
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles