大厂在用的反爬虫手段,破了它!

【摘要】 内容选自即将出版的《Python3 反爬虫原理与绕过实战》,本次公开书稿范围为第 6 章 —— 文本混淆反爬虫。本篇为第 6 章中的第 3 小节,第 4 小节字体反爬虫已发布,其余小节将逐步放送。 新书福利 真是翘首以盼!《Python3 反爬虫原理与绕过实战》一书终于要跟大家见面了!为了感谢大家对韦世东和本书的期待与支持,在新书发布时会举办多场送书活动和限时折扣活动。 …

内容选自即将出版的《Python3 反爬虫原理与绕过实战》,本次公开书稿范围为第 6 章 —— 文本混淆反爬虫。本篇为第 6 章中的第 3 小节,第 4 小节字体反爬虫已发布,其余小节将逐步放送

新书福利

真是翘首以盼!《Python3 反爬虫原理与绕过实战》一书终于要跟大家见面了!为了感谢大家对韦世东和本书的期待与支持,在新书发布时会举办多场送书活动和限时折扣活动。

想要与作者韦世东交流或者参加新书发布活动的朋友可以扫描二维码进群与我互动哦!

SVG 映射反爬虫

SVG 是用于描述二维矢量图形的一种图形格式。它基于 XML 描述图形,对图形进行放大或缩小操作都不会影响图形质量。矢量图形的这个特点使得它被广泛应用在 Web 网站中。 接下来我们要了解的反爬虫手段正是利用 SVG 实现的,这种反爬虫手段用矢量图形代替具体的文字,不会影响用户正常阅读,但爬虫程序却无法像读取文字那样获得 SVG 图形中的内容。由于 SVG 中的图形代表的也是一个个文字,所以在使用时必须在后端或前端将真实的文字与对应的 SVG 图形进行映射和替换,这种反爬虫手段被称为 SVG 映射反爬虫。

6.3.1 SVG 映射反爬虫绕过实战

示例 6:SVG 映射反爬虫示例。 网址:http://www.porters.vip/confusion/food.html。 任务:爬取美食商家评价网站页面中的商家联系电话、店铺地址和评分数据,页面内容如图 6-15 所示。 图 6-15 示例 6 页面 在编写 Python 代码之前,我们需要确定目标数据的元素定位。在定位过程中,发现一个与以往不同的现象:有些数字在 HTML 代码中并不存在。例如口味的评分数据,其元素定位如图 6-16 所示。 图 6-16 评分数据中口味分数元素定位 根据页面显示内容,HTML 代码中应该是 8.7 才对,但实际上我们看到的却是:

1
<span class="item">口味:<d class="vhkjj4"></d>.7</span>
© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享