Pythonで画面上の文字をキャプチャする方法

2年 ago

綾乃, 一希

1 minute

画面上の文字をキャプチャするには、Pythonのpytesseractライブラリを使用できます。pytesseractは、画像から文字を抽出するために利用できるOCR（光学式文字認識）ライブラリです。

まず、Pytesseractライブラリーがインストールされていることを確認してください。コマンドプロンプトまたは端末に以下のコマンドを使用してインストールします。

pip install pytesseract

次に、tesseract OCR エンジンをインストールして、設定する必要があります。https://github.com/tesseract-ocr/tesseractからダウンロードとインストールが可能です。

以下は、Pytesseract を使用して画面上の文字をキャプチャする方法を示すサンプルコードです。

import pyautogui
import pytesseract
# 设置tesseract OCR引擎的路径，如果你的安装路径不同，请相应修改
pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files/Tesseract-OCR/tesseract.exe'
# 使用pyautogui模块截取屏幕上的一部分图像
image = pyautogui.screenshot(region=(100, 100, 300, 300))
# 将截取的图像保存为临时文件
image_path = 'temp.png'
image.save(image_path)
# 使用pytesseract识别图像中的文字
text = pytesseract.image_to_string(image_path)
# 输出识别到的文字
print(text)
# 删除临时文件
os.remove(image_path)

画面上の(100, 100)位置を起点として、300×300ピクセルの画像をキャプチャします。その後、画像を一時ファイルとして保存し、pytesseractを使用してOCR処理を行い、テキストを抽出し、認識された文字が出力されます。

このサンプルコードは、pytesseractとtesseract OCRがインストールされており、tesseract_cmdのパスが正しく指定されていることを前提にしています。インストールパスが異なる場合は、それに合わせてパスを変更してください。