Python爬虫系列:浅谈爬虫

这是我参与更文挑战的第23天,活动详情查看:更文挑战

遍地都是Python的文章,你却抬头遇到了小编~

关于学习Python,相较于C语言更多的是简洁,易用,上手也更简单。Python是小编现学的第二门编程语言,作为自学的我来说,学完Python后越感觉到语言只是一种工具,简单学会是很容易的,想要精通需要花上更多的时间和精力,甚至不一定能达到理想的结果。不管怎样,只有先试试才知道。

在这一个月,最终将Python的系列文章完结了,简单来说,当你有学习过C或Java或者其它的编程语言之后,再自学一门新的编程语言还是挺容易的,网上找个相关的视频+一本书能掌握大概的语法知识点,小编是看的北理嵩天老师的课加电子档的书籍。文章对于学习之后的复习挺有用的,毕竟温故而知新。

Python系列写完后,想趁热打铁将爬虫系列也写了,这样大家以后也可以爬爬图片,音乐,视频啥的也方便,小 ** 的视频也可哦,嘻嘻。

Python爬虫,顾名思义是爬取信息的。在大数据时代,信息的获取是非常重要的,它甚至可以决定一个公司的发展方向和未来。如果将互联网比作一张大网,那么获取信息就需要在这张大网里面捞取,这种做法也被称作为搜索引擎,那么百度搜狗便是这种做法。

学习爬虫,首先得先培养爬虫的思想,比如网络上的文本,图片,视频等等,其实都是由“某个东西”保存起来的,然后通过网络返回给用户。

可能会有小伙伴对“某个东西”感到好奇,这里引用一个概念,叫做URL,可以将URL简单理解为找到“某个东西”所需要的路线,即大家平常所说的网址或链接。

URL:统一资源定位系统(uniform resource locator;URL)是因特网的万维网服务程序上用于指定信息位置的表示方法。URL也可以称为是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。URL是通用的资源定位符,URI同样也是资源定位符,由于URL包括URI,且URL适用范围广,所以URL就占了上风,爬虫是要有爬取的信息目标的,而目标就是URL包含的文件信息,这样就不难理解为什么爬虫一定要有确切的网址才能爬取到该文件了。

那么爬虫简单来说就是某个虫子顺着这个路线找到我们想要的东西,然后将其解析,提取出来。

那么如何找到URL呢,通常Chrome和火狐按F12可以进入开发者模式,然后找到Network,再在Name里面随便找个文件打开,如果没有刷新出文件,在原先的网页上刷新即可。点击某个文件,就可以看到下图中的Request URL,即该网址的初始URL,当然URL的加解密也会导致URL的不同,这就要靠以后去学啦。

image.png

(Python爬虫系列)未完待续…

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享