前面介绍了怎么调用百度API来进行OCR,但是百度的API有调用次数的限制。而且作为一个geek开发者,我们希望能使用开源的代码,这样我们可以根据自己的需要进行定制(训练模型)。目前最流行的开源OCR软件就是Tesseract,因此本文介绍Tesseract的基本用法。
目录
Tesseract最早可以追溯到1985年(How old are you),是惠普实验室的产品,2005年开源出来,2006年后主要由Google来开发。如果搜索网络的文章,大部分都是3.5及其以前版本的介绍,这是基于传统的图像处理和机器学习技术。2018年10月29日发布了4.0.0,这是基于LSTM的算法。本文介绍最新的版本(4.1)。
安装
可以使用预编译(Pre-built)的二进制版本或者从源代码安装,这里作者尝试了使用前一种方法,因为比较简单,以后有时间再折腾源码编译。因为作者的系统是Ubuntu 16.04,所以只介绍这个系统的安装方法,其它系统请读者参考官方安装wiki。
因为Ubuntu16.04的官方源没有Tesseract,因此需要增加PPA:
sudo add-apt-repository ppa:alex-p/tesseract-ocr
sudo apt-get update
接下来是安装:
sudo apt-get install tesseract-ocr
sudo apt-get install libtesseract-dev
默认只安装了英文的模型,我们还需要安装简体中文的模型,Tesseract支持很多语言,4.0.0的完整模型列表参考这里。
我们不需要手动安装(手动下载也可以,但是使用是需要设置环境变量TESSDATA_PREFIX为包含”.traineddata”的目录),我们可以使用apt-get install安装,它会放到默认的位置(/usr/share/tesseract-ocr/4.00/tessdata/)。注意简体中文为”chi_sim”,不要安装”chi_sim_vert”,除非你的文字是传统的从上往下的写法。
sudo apt-get install tesseract-ocr-chi-sim
命令行用法
我们首先来看tesseract是否正确安装,同时验证版本:
$ tesseract --version
tesseract 4.1.0-rc1-56-g7fbd
leptonica-1.76.0
libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.4.2) : libpng 1.2.54 : libtiff 4.0.6 : zlib 1.2.8 : libwebp 0.4.4 : libopenjp2 2.1.2
Found AVX2
Found AVX
Found SSE
识别的基本用法是”imagename outputbase [options…]”,4.1的版本options只能通过”-l”选择语言,比如:
tesseract test.png test -l chi_sim
它对test.png进行ocr,然后把识别结果保存在test.txt里。默认输出格式是文本文件,我们也可以让它输出pdf:
tesseract test.png test -l chi_sim pdf
除此之外,还有隐藏(extrac)的选项,需要样这个命令才会显示这些高级功能:
$ tesseract --help-extra
Usage:
tesseract --help | --help-extra | --help-psm | --help-oem | --version
tesseract --list-langs [--tessdata-dir PATH]
tesseract --print-parameters [options...] [configfile...]
tesseract imagename|imagelist|stdin outputbase|stdout [options...] [configfile...]
OCR options:
--tessdata-dir PATH Specify the location of tessdata path.
--user-words PATH Specify the location of user words file.
--user-patterns PATH Specify the location of user patterns file.
--dpi VALUE Specify DPI for input image.
-l LANG[+LANG] Specify language(s) used for OCR.
-c VAR=VALUE Set value for config variables.
Multiple -c arguments are allowed.
--psm NUM Specify page segmentation mode.
--oem NUM Specify OCR Engine mode.
NOTE: These options must occur before any configfile.
...省略了psm和oem的详细解释,后面会介绍。
比如使用psm,很多老的文档都是:
tesseract test.png test -l chi_sim -psm 1
这在新版本会有问题,必须用–psm才行:
tesseract test.png test -l chi_sim --psm 1
参数–oem指定使用的算法,0代表老的算法;1代表LSTM算法;2代表两者的结合;3代表系统自己选择。
参数–psm指定页面切分模式:
Page segmentation modes:
0 Orientation and script detection (OSD) only.
1 Automatic page segmentation with OSD.
2 Automatic page segmentation, but no OSD, or OCR. (not implemented)
3 Fully automatic page segmentation, but no OSD. (Default)
4 Assume a single column of text of variable sizes.
5 Assume a single uniform block of vertically aligned text.
6 Assume a single uniform block of text.
7 Treat the image as a single text line.
8 Treat the image as a single word.
9 Treat the image as a single word in a circle.
10 Treat the image as a single character.
11 Sparse text. Find as much text as possible in no particular order.
12 Sparse text with OSD.
13 Raw line. Treat the image as a single text line,
bypassing hacks that are Tesseract-specific.
默认是3,也就是自动的页面切分,但是不进行方向(Orientation)和文字(script,其实并不等同于文字,比如俄文和乌克兰文都使用相同的script,中文和日文的script也有重合的部分)的检测。如果我们要识别的是单行的文字,我可以指定7。OSD算法参考这里。我们这里已经知道文字是中文,并且方向是horizontal(从左往右再从上往下的写法,古代中国是从上往下从右往左),因此使用默认的3就可以了。
效果
默认的中文模型效果是比较差的,以后有时间研究一下怎么提高。
《证曾裕全例y出版前方
《汪曾祺全集?出版前言
灯斤澜整理
我写小说, 是断断续续的,--阵- -阵的。开始写作的
时间倒尽颇早的。第一篇作品大约是.-九四名年发表
的。那是沈从文先生所开*各体文习作"课上的作业, 经
沈先生介绍出去的……
【当时沈从文向文艺界介绍汪曾祝,有一身话流传成
佳话: "他写的比我好"。评论家有道: “两个最可注意的
年粒作家"ji另一个是路人鳃。)
一轧四六、-九四十年在上海,写了一些, 编成-个
《多氨集》。
解放后长期担任编辑, 未写作。- -九五七年贷然生
了一点散文和散文诗。一万六- :第写了《和羊会一名》。国
为少年儿章出版社为我出一个小集子(听说是菇也牧同
志所建议), 我又接着写了箱。一九七妃年到--九八一
年与得多一些, 这都是几个老朋友希是的结果。没有他
们的鼓友.俱迫、英至责备, 我也许就不会下写小说了
《摘自《汪萤祛短篇小说选自序》一九八二年北京出
一 1 一
编程接口
使用命令行接口比较简单方便,但是要想获得更多控制和信息,那么就需要编程接口。Tesseract是C++实现的,因此自然有C++的接口,同时它也提供C的接口。我们这里主要介绍C++和Java的接口。
C++接口示例
所有代码都在这里。
编译说明
编译时需要依赖tesseract和leptonica库,如果使用apt-get安装的话,默认的头文件和动态库是可以找得到的,那么只需要告诉编译器需要链接这两个库就行:
g++ -o myprogram myprogram.cpp -llept -ltesseract
如果是自己从源代码编译,那么可以使用g++的选项-I和-L指定头文件和动态库的位置,另外运行的时候可能需要设置环境变量LD_LIBRARY_PATH。
基本用法
代码在这里。
char *outText;
tesseract::TessBaseAPI *api = new tesseract::TessBaseAPI();
// Initialize tesseract-ocr with English, without specifying tessdata path
if (api->Init(NULL, "eng")) {
fprintf(stderr, "Could not initialize tesseract.\n");
exit(1);
}
// Open input image with leptonica library
Pix *image = pixRead("../test.png");
api->SetImage(image);
// Get OCR result
outText = api->GetUTF8Text();
printf("OCR output:\n%s", outText);
// Destroy used object and release memory
api->End();
delete [] outText;
pixDestroy(&image);
首先是构造tesseract::TessBaseAPI对象,然后是调用它的Init方法,关键是第二个参数,指定语言,如果要识别中文,需要修改为:
api->Init(NULL, "chi_sim")
接着用leptonica库提供的pixRead函数读取图片image,把image传给api,最后调用api->GetUTF8Text()识别文字。 最后是清理对象和释放内存。
得到每行的输出
前面提到过,我们需要每一行文字的位置信息,下面的示例就可以达到这个目的。为了节省篇幅,这里只列举关键的代码,初始化和销毁对象的代码省略掉,完整代码在这里。
Boxa* boxes = api->GetComponentImages(tesseract::RIL_TEXTLINE, true, NULL, NULL);
printf("Found %d textline image components.\n", boxes->n);
for (int i = 0; i < boxes->n; i++) {
BOX* box = boxaGetBox(boxes, i, L_CLONE);
api->SetRectangle(box->x, box->y, box->w, box->h);
char* ocrResult = api->GetUTF8Text();
int conf = api->MeanTextConf();
fprintf(stdout, "Box[%d]: x=%d, y=%d, w=%d, h=%d, confidence: %d, text: %s",
i, box->x, box->y, box->w, box->h, conf, ocrResult);
}
通过api->GetComponentImage函数,传入tesseract::RIL_TEXTLINE就可以返回每行的结果。关键是第一个参数,它是一个枚举类型,有如下取值:
enum PageIteratorLevel {
RIL_BLOCK, // Block of text/image/separator line.
RIL_PARA, // Paragraph within a block.
RIL_TEXTLINE, // Line within a paragraph.
RIL_WORD, // Word within a textline.
RIL_SYMBOL // Symbol/character within a word.
};
返回的是Boxa的对象,我们可以用boxes->n知道总共有多少行文字。
接着是遍历每一行,使用boxaGetBox(boxes, i, L_CLONE)得到每一行对应的Box(矩形框),然后用api->SetRectangle(box->x, box->y, box->w, box->h)指定识别的范围,接着使用api->GetUTF8Text()识别这个框里的文字。此外,api->MeanTextConf()返回识别的置信度得分。
其它例子
其它例子包括:遍历每个词、OSD等。更多代码示例可以参考TesseractGui、gimagereader和Android app textfairy。
Java接口
Java接口使用的是javacpp-presets,这个项目强烈推荐Java程序员关注一下!!!它可以让Java开发者调用很多流行的C++库,包括:OpenCV、FFmpeg、OpenBLAS、CPython、LLVM、CUDA、MXNet、TensorFlow等等。当然也包括我们这里用到的Leptonica和Tesseract。
依赖
<dependency>
<groupId>org.bytedeco.javacpp-presets</groupId>
<artifactId>tesseract-platform</artifactId>
<version>4.0.0-1.4.4</version>
</dependency>
我们这里只把C++的基本用法和按行输出用Java实现,其它的例子读者依葫芦画瓢把C++代码变成等价的Java代码就行了。javacpp-presets实现的代码和C++基本长得一样。
基本例子
完整代码在这里。
BytePointer outText;
TessBaseAPI api = new TessBaseAPI();
// Initialize tesseract-ocr with English, without specifying tessdata path
if (api.Init(null, "eng") != 0) {
System.err.println("Could not initialize tesseract.");
System.exit(1);
}
// Open input image with leptonica library
PIX image = pixRead(args.length > 0 ? args[0] : "testen-1.png");
api.SetImage(image);
// Get OCR result
outText = api.GetUTF8Text();
System.out.println("OCR output:\n" + outText.getString());
// Destroy used object and release memory
api.End();
api.close();
outText.deallocate();
pixDestroy(image);
上面的代码和C++的基本长得一样,因为C++没有GC,因此需要下面那些销毁对象的操作。如果要识别中文,那么需要修改Init的第二个参数:
if (api.Init(null, "chi_sim") != 0) {
但是如果直接执行,会出现如下错误:
Error opening data file /home/travis/build/javacpp-presets/tesseract/cppbuild/linux-x86_64/share/tessdata/eng.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
Failed loading language 'eng'
Tesseract couldn't load any languages!
Could not initialize tesseract.
也就是默认会去”/home/travis/build/…“找模型,这是travis ci的路径,我们的机器当然没有。
为了解决这个问题有两种办法,第一种是运行程序是设置环境变量:
# 读者需要改成自己的路径
export TESSDATA_PREFIX=/usr/share/tesseract-ocr/4.00/tessdata
java -cp .....
另外一种方法就是调用init的时候指定路径:
if (api.Init("/usr/share/tesseract-ocr/4.00/tessdata", "eng") != 0) {
System.err.println("Could not initialize tesseract.");
System.exit(1);
}
按行输出
完整代码在这里。
BOXA boxes = api.GetComponentImages(tesseract.RIL_TEXTLINE, true, (PointerPointer) null, null);
System.out.print(String.format("Found %d textline image components.\n", boxes.n()));
for (int i = 0; i < boxes.n(); i++) {
BOX box = boxes.box(i);
api.SetRectangle(box.x(), box.y(), box.w(), box.h());
BytePointer text = api.GetUTF8Text();
int conf = api.MeanTextConf();
System.out.println(String.format("Box[%d]: x=%d, y=%d, w=%d, h=%d, confidence: %d, text: %s",
i, box.x(), box.y(), box.w(), box.h(), conf, text.getString()));
text.deallocate();
}
- 显示Disqus评论(需要科学上网)