我们在做句子相似度计算的时候需要的输出是一个0到1之间的实数值,用来表示句子的相似程度。BERT默认只提供了run_classifier.py,它可以用于Fine-Tuning文本分类、相似度分类、Entailment等任务。但是无法实现实数值的输出,因此我参照run_classifier.py实现了一个run_reg.py。
我们在做句子相似度计算的时候需要的输出是一个0到1之间的实数值,用来表示句子的相似程度。BERT默认只提供了run_classifier.py,它可以用于Fine-Tuning文本分类、相似度分类、Entailment等任务。但是无法实现实数值的输出,因此我参照run_classifier.py实现了一个run_reg.py。
Posted by lili on March 20, 2019
前面介绍了怎么调用百度API来进行OCR,但是百度的API有调用次数的限制。而且作为一个geek开发者,我们希望能使用开源的代码,这样我们可以根据自己的需要进行定制(训练模型)。目前最流行的开源OCR软件就是Tesseract,因此本文介绍Tesseract的基本用法。
Posted by lili on March 12, 2019
本文介绍通过百度的文字识别API来进行OCR,把前面用Pdfbox得到的图片变成文字。
Posted by lili on March 12, 2019
本文介绍PDFBox的简单用法。PDFBox是apache旗下的用于parse pdf文件的开源库,我们可以用它来提取pdf中的文字和图片,也可以用它来生成pdf文件(比如我们想自动做报表)。
Posted by lili on March 12, 2019
用时候我们需要联系github上某个开源软件的作者,但是我们是看不到作者的email地址。某些开发者会在简介里写上自己的email地址,但是更多的是没有。上网搜索到一个好的工具,能够方便的找到开发者的email。
Posted by lili on March 6, 2019
最近测试一个Spring Boot项目发现一个很奇怪的现象,代码在Eclipse可以运行,但是用Maven编译是不能通过单元测试,用”mvn -DskipTests package”可以编译,但是用java -jar运行会抛出异常:”类com/fasterxml/jackson/core/Versioned找不到”。
Posted by lili on February 19, 2019