【摘要】 任务背景
在我们的博客中,充斥着大量的链接。随着时间的推移,其中一部分链接已经处于失效状态,这些失效链接给我们读者带来的体验是及其不好的。
但是我们也要互相的体谅,毕竟一个博主的文章都是几十上百篇的,有的甚至于上千篇,哪个链接失效了,我们也是真的不知道,或者知道了,也不知道具体在哪些地方有被引用到。 这就对我们的清理工作造成了巨大的困难。
鉴于这个问题,我特地研究…
任务背景
在我们的博客中,充斥着大量的链接。随着时间的推移,其中一部分链接已经处于失效状态,这些失效链接给我们读者带来的体验是及其不好的。
但是我们也要互相的体谅,毕竟一个博主的文章都是几十上百篇的,有的甚至于上千篇,哪个链接失效了,我们也是真的不知道,或者知道了,也不知道具体在哪些地方有被引用到。
这就对我们的清理工作造成了巨大的困难。
鉴于这个问题,我特地研究了这么一套方法,爬取所有的失效链接,保存方式为:
受害博客、失效链接、失效链接代号。
当然,这个程序只用于嵌入在文章中的跳转链接(从我自身的角度出发,我的链接基本都是蓝字跳转),如果不是跳转链接,暂时没做。
好,开工!!!
使用线程池做大并发爬取
获取全部博客链接
首先,要拿到我全部的博客链接:
经过我的分析得出:
'''
纪录:1、如果一个链接为空,则爬出来的文本列表为空
2、文内链接之后跟的就是链接释义
3、自定义域名需要转化为默认域名才能使用
'''
文章来源: lion-wu.blog.csdn.net,作者:看,未来,版权归原作者所有,如需转载,请联系作者。
原文链接:lion-wu.blog.csdn.net/article/details/116227971
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END