李理的博客

用Docker、Jupyter notebook和VSCode搭建深度学习开发环境

本文介绍用Docker、Jupyter notebook和VSCode搭建深度学习开发环境的过程。


Jackson学习笔记(二)

本文介绍怎么在Jackson里实现多态类的序列化与反序列化。


Jackson学习笔记(一)

本文是Jackson的学习笔记,本系列笔记主要参考了baeldung Jackson JSON TutorialA哥学Jackson等文章内容。


Ubuntu 16.04 StrongVPN设置

本文记录在Ubuntu下设置Strong VPN的过程,仅供参考。本文假设读者的机器不能翻墙,但是需要能访问github,如果不能访问github,可以尝试用ssh协议clone相应的repo,比如我们打不开https://github.com/vpncn/vpncn.github.io,那么可以尝试git clone git@github.com:vpncn/vpncn.github.io.git。


微信服务号爬虫

微信公众号爬虫v1.2实现了订阅号的抓取,但是没有实现服务号的抓取,原因是服务号的页面无法通过pywinauto得到页面的信息,从而无法模拟人的操作点击文章。本文通过视觉的页面分析,让爬虫模拟人类分析出文章的位置,从而实现服务号抓取。


Python函数的进阶知识(二)

本文介绍Python函数相关的进阶知识。


Python函数的进阶知识(一)

本文介绍Python函数相关的进阶知识。


使用pytesseract识别微信阅读数

上文在抓取微信公众号文章阅读数的时候实现了阅读区域的定位,但是还有一个遗留问题那就是需要获得阅读数。本文使用pytesseract提取其中的阅读数。


使用pywinauto抓取阅读数的尝试

本文的相关项目为微信公众号爬虫的抓取原理。这是尝试抓取阅读数的记录。