1. 文章
  2. 文章详情

Linux环境下PHP基于Tesseract-OCR引擎识别图片内容

Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一。

2005年,Tesseract由美国内华达州信息技术研究所获得,并求诸于Google对Tesseract进行改进、消除Bug、优化工作。

安装依赖包

依赖包一共包括: autoconf、automake、 libtool、 libjpeg、 libpng、 libtiff、 zlib、 libjpeg-devel、 libpng-devel、 libtiff-devel、 zlib-devel、

1.1 检查系统是否存在该依赖包

以autoconf为例:

rpm -qa |grep autoconf

如果返回为空,则需要安装,否则无需安装

Linux环境PHP基于Tesseract-OCR引擎识别图片内容教程

除了依赖包外,还有一些编译软件如gcc-c++等,这些自行去安装

安装Leptonica

这里安装的是1.73版本

在这里下载: http://www.leptonica.org/download.html

Linux环境PHP基于Tesseract-OCR引擎识别图片内容教程

我这里下载的是当前最新版

下载解压

Linux环境PHP基于Tesseract-OCR引擎识别图片内容教程

解压后按照下面图示命令安装

./configure

Linux环境PHP基于Tesseract-OCR引擎识别图片内容教程

./make

Linux环境PHP基于Tesseract-OCR引擎识别图片内容教程

make install

Linux环境PHP基于Tesseract-OCR引擎识别图片内容教程

最后执行ldconfig

Linux环境PHP基于Tesseract-OCR引擎识别图片内容教程

安装Tesseract

可以在官网上下载,但在download页面上找到的是3.02及以前的版本,要装3.04怎么破?

在Tesseract主页 tesseract-ocr/tesseract 可以找到“release”,点击进去就能看到很多版本了,选择3.04下载

Linux环境PHP基于Tesseract-OCR引擎识别图片内容教程

这里下载3.05.00,3.05.01版本有问题,我安装不行,你如果有兴趣也可以安装最新版

Linux环境PHP基于Tesseract-OCR引擎识别图片内容教程

先退到tesseract目录下,然后用wget 命令下载

Linux环境PHP基于Tesseract-OCR引擎识别图片内容教程

之后解压,安装,命令跟安装Leptonica基本一样。

需要注意的地方时,在./configure 命令前多了一个./autogen.sh命令

Linux环境PHP基于Tesseract-OCR引擎识别图片内容教程

然后按照下面的命令行操作

./configure

make

make install

ldconfig

安装Tesseract-OCR

首先在页面 tesseract-ocr/tessdata 下载tesseract-ocr安装包,或者在release页面找到相应的版本下载

下载并解压样本库

Linux环境PHP基于Tesseract-OCR引擎识别图片内容教程

Linux环境PHP基于Tesseract-OCR引擎识别图片内容教程

Linux环境PHP基于Tesseract-OCR引擎识别图片内容教程

下载完成后,解压,然后进入解压包将所有文件拷贝到 /usr/local/share/tessdata 目录里去,按照下列图示操作即可。

tar -zxvf 3.04.00.tar.gz

Linux环境PHP基于Tesseract-OCR引擎识别图片内容教程

cp -r tessdata-3.04.00/* /usr/local/share/tessdata

Linux环境PHP基于Tesseract-OCR引擎识别图片内容教程

拷贝完成后,搞张图片测试下,图片是下面这样的,具体操作看下列图示

Linux环境PHP基于Tesseract-OCR引擎识别图片内容教程

Linux环境PHP基于Tesseract-OCR引擎识别图片内容教程

到这里基本上就完成了。

使用php来调用接口

然后在使用php-第三方库,进入下面的地址下载

thiagoalessio/tesseract-ocr-for-php

Linux环境PHP基于Tesseract-OCR引擎识别图片内容教程

先创建一个php-tess目录,在目录里下载、解压、测试

mkdir php-tess

cd php-tess

Linux环境PHP基于Tesseract-OCR引擎识别图片内容教程

然后进入解压文件目录里的src目录,将之前下载的sign.jpg拷贝过来,编写一个测试文件测试下

Linux环境PHP基于Tesseract-OCR引擎识别图片内容教程

编写代码

Linux环境PHP基于Tesseract-OCR引擎识别图片内容教程

运行测试

Linux环境PHP基于Tesseract-OCR引擎识别图片内容教程

对于php接口的时候可自行看README文件,对于tesseract更多的了解可自行查找相关资料

参考:https://zhuanlan.zhihu.com/p/27649219

发表评论

登录后才能评论

评论列表(0条)