前面介绍了怎么调用百度API来进行OCR,但是百度的API有调用次数的限制。而且作为一个geek开发者,我们希望能使用开源的代码,这样我们可以根据自己的需要进行定制(训练模型)。目前最流行的开源OCR软件就是Tesseract,因此本文介绍Tesseract的基本用法。
前面介绍了怎么调用百度API来进行OCR,但是百度的API有调用次数的限制。而且作为一个geek开发者,我们希望能使用开源的代码,这样我们可以根据自己的需要进行定制(训练模型)。目前最流行的开源OCR软件就是Tesseract,因此本文介绍Tesseract的基本用法。
Posted by lili on March 12, 2019
本文介绍通过百度的文字识别API来进行OCR,把前面用Pdfbox得到的图片变成文字。
Posted by lili on March 12, 2019
本文介绍PDFBox的简单用法。PDFBox是apache旗下的用于parse pdf文件的开源库,我们可以用它来提取pdf中的文字和图片,也可以用它来生成pdf文件(比如我们想自动做报表)。
Posted by lili on March 12, 2019
用时候我们需要联系github上某个开源软件的作者,但是我们是看不到作者的email地址。某些开发者会在简介里写上自己的email地址,但是更多的是没有。上网搜索到一个好的工具,能够方便的找到开发者的email。
Posted by lili on March 6, 2019
本文是作者即将在CSDN作直播的课程的预备知识,对课程感兴趣但是没有相关背景知识的同学可以提前学习这些内容。新增课程slides和视频回放地址。
Posted by lili on March 5, 2019
最近测试一个Spring Boot项目发现一个很奇怪的现象,代码在Eclipse可以运行,但是用Maven编译是不能通过单元测试,用”mvn -DskipTests package”可以编译,但是用java -jar运行会抛出异常:”类com/fasterxml/jackson/core/Versioned找不到”。
Posted by lili on February 19, 2019
本教程会介绍使用seq2seq模型实现一个chatbot,训练数据来自Cornell电影对话语料库。对话系统是目前的研究热点,它在客服、可穿戴设备和智能家居等场景有广泛应用。
Posted by lili on February 14, 2019