安装方法
- ubuntu
apt install ocrmypdf
- conda
conda install ocrmypdf
安装简体中文包
apt-get install tesseract-ocr-chi-sim
安装英语包
apt-get install tesseract-data-eng
显示所有的语言列表
apt-cache search tesseract-ocr
从展示的列表里选择你需要安装的语言的包,参照上面的命令安装即可。
OCR识别pdf
ocrmypdf --force-ocr old.pdf new.pdf
输出的new.pdf,即可复制文本。
配合img2pdf,把图片转为OCR识别的pdf
安装img2pdf
apt-get install img2pdf
img2pdf --pagesize A4 page*.png | ocrmypdf - myfile.pdf
把本目录下page开头的png图片合并到一个ocr的pdf。
把OCR识别转为txt文本 ocr2text github
sudo apt-get install tesseract-ocr
git clone https://github.com/writecrow/ocr2text.git
cd ocr2text
pip install --user --requirement requirements.txt
python3 ocr2txt.py