李理的博客

使用BERT回归的代码

我们在做句子相似度计算的时候需要的输出是一个0到1之间的实数值,用来表示句子的相似程度。BERT默认只提供了run_classifier.py,它可以用于Fine-Tuning文本分类、相似度分类、Entailment等任务。但是无法实现实数值的输出,因此我参照run_classifier.py实现了一个run_reg.py。


使用Beamer做Presentation

最近写书,因此学习了$\LaTeX$,这真是神器。回想当年写毕业论文调Word页眉、页脚和目录格式调到吐血的场景,真是往事不堪回首。最近要做Presentation,本来想用WPS演示,但是试了一下Beamer后,发现比用PPT这类方便多了,因为我想怎么控制它的展示方式都可以。当然$\LaTeX$上手比较复杂,而且用户少碰到问题也比较麻烦,尤其是默认对中文不是太友好。

但其实人的学习能力是逼出来的,建议想学习的同学也要逼一下自己。比如想学习Linux就千万不用装什么双系统和虚拟机,直接把Windows/Mac系统扔了装上Linux,保证就能学会。当然作为非主流用户,会受到各种隐性的歧视,比如网银不支持,比如没有QQ。不过习惯了也还好,不用网银、没有支付宝账号,只在手机上用QQ,也不是世界末日。


Tesseract教程

前面介绍了怎么调用百度API来进行OCR,但是百度的API有调用次数的限制。而且作为一个geek开发者,我们希望能使用开源的代码,这样我们可以根据自己的需要进行定制(训练模型)。目前最流行的开源OCR软件就是Tesseract,因此本文介绍Tesseract的基本用法。


百度文字识别API

本文介绍通过百度的文字识别API来进行OCR,把前面用Pdfbox得到的图片变成文字。


PDFBox简介

本文介绍PDFBox的简单用法。PDFBox是apache旗下的用于parse pdf文件的开源库,我们可以用它来提取pdf中的文字和图片,也可以用它来生成pdf文件(比如我们想自动做报表)。


OpenAI GPT-2大新闻解读

OpenAI最近似乎搞了个大新闻,随手一搜,”最大模型”、”15亿参数”、”无需领域数据”等等跃然在目。当然现在是标题党的年代,为了吸引眼球,外行媒体的夸张手法也能理解。当然最大的争议还是他们在官网上解释为什么只提供小模型的理由:为了防止大模型用于生成欺诈和有歧视性的文章,我们只发布小规模的模型(Due to concerns about large language models being used to generate deceptive, biased, or abusive language at scale, we are only releasing a much smaller version of GPT-2 along with sampling code)。这个当然引起了轩然大波,使得很多人在Reddit上吐槽。听这语气,人工智能已经实现了,为了保护人类,他们不能把这个恶魔放出来。实际情况怎么样呢?别听专家的,最好还是我们自己读读论文跑跑代码吧。


获取github账号的email的工具

用时候我们需要联系github上某个开源软件的作者,但是我们是看不到作者的email地址。某些开发者会在简介里写上自己的email地址,但是更多的是没有。上网搜索到一个好的工具,能够方便的找到开发者的email。


编译警告:transitive dependencies (if any) will not be available

最近测试一个Spring Boot项目发现一个很奇怪的现象,代码在Eclipse可以运行,但是用Maven编译是不能通过单元测试,用”mvn -DskipTests package”可以编译,但是用java -jar运行会抛出异常:”类com/fasterxml/jackson/core/Versioned找不到”。