这是我参与更文挑战的第15天，活动详情查看：更文挑战

1、前言

作为爬虫一员，掌握一门爬虫框架是必备技能，因此作为一名小白的你，我想向你推荐『Scrapy』。

具体『Scrapy』是什么，作用这些就不啰嗦（都是废话，百度有Scrapy简介），时间宝贵，就直接上干货（实战案例带你体验scrapy的使用）。

下面会以『B站』为目标进行实战！

2、Scrapy入门实战

1.环境准备

安装scrapy

pip install scrapy
复制代码

通过上面这个命令即可直接安装好scrapy库

2.建立scrapy项目

scrapy startproject Bili
复制代码

通过上面这个命令可以建立一个项目名称：Bili 的爬虫项目。

这里就可以在桌面建立了一个名字为：Bili 的爬虫项目

项目结构

Bili
复制代码

各个文件作用

scrapy.cfg：项目的总配置文件，通常无须修改。

Bili：项目的 Python 模块，程序将从此处导入 Python 代码。
    
Bili/items.py：用于定义项目用到的 Item 类。Item 类就是一个 DTO（数据传输对象），通常就是定义 N 个属性，该类需要由开发者来定义。
    
Bili/pipelines.py：项目的管道文件，它负责处理爬取到的信息。该文件需要由开发者编写。
    
Bili/settings.py：项目的配置文件，在该文件中进行项目相关配置。
    
Bili/spiders：在该目录下存放项目所需的蜘蛛，蜘蛛负责抓取项目感兴趣的信息。
复制代码

3.明确爬取内容

https://search.bilibili.com/all?keyword=%E8%AF%BE%E7%A8%8B&page=2
复制代码

以上面链接为例（B站），爬取视频的标题（title）和链接（url）

4.定义项目中每一个类

Items类

import scrapy
复制代码

爬取字段是视频的标题（title）和链接（url），所以对于了title和url两个变量

定义spider类

spider类作用是自定义网页解析规则（新建scrapy项目是没有的，需要自己新建）。

Scrapy 为创建 Spider 提供了 scrapy genspider 命令，该命令的语法格式如下：

scrapy genspider [options] <name> <domain>
复制代码

在命令行窗口中进入 Bili 目录下，然后执行如下命令即可创建一个 Spider：

scrapy genspider lyc "bilibili.com"
复制代码

运行上面命令，即可在 Bili 项目的 Bili /spider 目录下找到一个 lyc.py 文件
编辑lyc.py

import scrapy
复制代码

修改pipeline类

这个类是对爬取的文件最后的处理,一般为负责将所爬取的数据写入文件或数据库中.。
这里我们将它输出到控制台.

from itemadapter import ItemAdapter
复制代码

修改settings类

BOT_NAME = 'Bili'
复制代码

一个 Scarpy项目的简单架构就完成了我们可以运行一下试试.

启动项目

scrapy crawl lyc
复制代码

但只有一页的内容 , 我们可以解析下一页 .
将以下代码加到 lyc.py

import scrapy
复制代码

下一页爬取

再次执行 , 就会一页一页的爬取 .

3、总结

1、为了大家方便学习，我把本文的完整源码上传，需要的通过同名公众回复：scrapy框架

2、通过实战案例『B站』，手把手实现scrapy项目的创建，解析网页，最后成功爬取数据并打印（保存）

3、适合小白入门scrapy，欢迎收藏，分析，学习

文章版权归作者所有，未经允许请勿转载。

THE END

后端

lerna 快速入门

InoutMailingListManager ‘admin cookie’上传和执行PHP代码漏洞

Computer Associates eTrust InoculateIT For Linux漏洞

Hitachi Tuning Manager和JP1/Performance Management – Manager Web Option 跨站请求伪造漏洞

磁力鱼v10.06破解版高效的磁力链接搜索引擎

Secure Elements Class 5 AVR client 多个缓冲区溢出漏洞

以『某站』为实战案例！手把手教你掌握爬虫必备框架『Scrapy』

1、前言

2、Scrapy入门实战

1.环境准备

安装scrapy

2.建立scrapy项目

项目结构

3.明确爬取内容

4.定义项目中每一个类

Items类

定义spider类

修改pipeline类

修改settings类

启动项目

下一页爬取

3、总结

lerna 快速入门

InoutMailingListManager ‘admin cookie’上传和执行PHP代码漏洞

Computer Associates eTrust InoculateIT For Linux漏洞

Hitachi Tuning Manager和JP1/Performance Management – Manager Web Option 跨站请求伪造漏洞

磁力鱼v10.06破解版 高效的磁力链接搜索引擎

Secure Elements Class 5 AVR client 多个缓冲区溢出漏洞

以『某站』为实战案例！手把手教你掌握爬虫必备框架『Scrapy』

1、前言

2、Scrapy入门实战

1.环境准备

安装scrapy

2.建立scrapy项目

项目结构

3.明确爬取内容

4.定义项目中每一个类

Items类

定义spider类

修改pipeline类

修改settings类

启动项目

下一页爬取

3、总结

磁力鱼v10.06破解版高效的磁力链接搜索引擎