python自动查找你喜欢的文章
在划水的时候难免要到掘金、CSDN逛一圈,这个时候就要找一些文章看看了。
首页有许多文章和视频,但是那些是我们喜欢的呢?
这个问题自己解决好累啊,划水划惯了,什么都懒得做,算了,还是拿python找吧。
随手打开了Eclipse Theia
这个问题很简单,实质上就是拿python把所有的文章遍历一遍。
可是居然花了我两天才做完,弄了一个庞(迷)大(你)的开源项目。好吧,毕竟是我第一次在GitHub上发布代码。
github.com/wjhtwx/pyth…
制作思路
建立favourite.json存储喜欢的关键词,links.json存放找出来的链接,forbid.json存储不让访问的网站,sites.json存储要爬取的网站。
printc用于彩色输出。visit_articles.py是主文件。
流程:
- 启动。
- 检查json文件是否完好。
- 开始按照sites.json访问网站。
- 检查当前页面有没有被访问过,避免循环。
- 处理,将喜欢的页面存入links.json方便一起打开
所需环境
python3 | 必须是CPython,Pypy3可能会有一些模块装不了。 |
colorama | 显示彩色文字,printc就是用它封装的。 |
requests | 请求网页 |
beautifulsoup4 | 解析HTML |
lxml | beautifulsoup4依赖 |
urllib | python自带,解析url |
文件目录
readme
printc:https://github.com/wjhtwx/python_requests_articles_finding/blob/visit_articles/printc.md
json:https://github.com/wjhtwx/python_requests_articles_finding/blob/visit_articles/json.md
代码有很详细的注释,可以直接在GitHub上看。
运行效果
下一次将会讲解代码原理。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END