这是我参与8月更文挑战的第6天，活动详情查看：8月更文挑战

接上回，《Python爬虫实战：爬取《去哪儿》网数千篇旅游攻略数据》。

我们爬取到了数千篇的旅游攻略文章的数据。

但是事情还没有结束，对于大部分的人来讲，最希望得到的东西应该不是这种干巴巴的 Excel 数据，

而是这种图文并茂的文章吧！

其实之前我们爬过很多类似的网站，比如《人民日报新闻爬虫》，《知乎问题回答爬虫》，都是爬取大段的文章。

不过区别在于，那些爬虫的关注点在于文字，主要用来做分词，语义情感等方面的分析，也就是说不是给人看的，是给程序看的，所以直接将图片，超链接，排版格式等东西舍弃，仅提取文字，使用记事本保存即可。

而这篇爬虫不同，爬取旅游攻略文章，重点在于阅读体验，如果抛弃了图片，抛弃了排版，爬到的攻略文章也就失去了灵魂。

BUT，用什么格式的文件可以保存图文，还可以尽可能保留原始排版呢？想来想去，我觉得 Markdown 或许是最佳选择。

1. 分析网站

相比于上一篇爬虫中各式各样的数据，这篇爬虫要爬的内容就简单很多了。

以 travel.qunar.com/travelbook/… 这篇文章为例，使用开发者工具（F12）来进行分析。

可以看到，文章的正文部分是在一个 <div class='e_main' id='tpl_1'> 标签中的，其中每一个子 div 标签存放一个章节的内容。

分析完毕，是不是确实很简单呢？

如果是按照之前的做法，我可能直接一个 .text 或者 .string ，把其中的文字提取出来就完事儿了。

但是这里我们不能这样做，需要把它完整地取出来，保留其原本的结构，转换成 Markdown 格式进行存储。

2. 将 HTML 转成 Markdown 格式

这里我结合使用了 BeautifulSoup 和 html2text 库。

BeautifulSoup 库用来定位提取文章的正文部分，html2text 库用来将正文部分的 html 文本转化成 markdown 格式。

2.1 提取正文部分

import requests
from bs4 import BeautifulSoup

def getContent(html):
    '''
    提取文章的正文部分的 html
    '''
    bsObj = BeautifulSoup(html,'lxml')
    title = bsObj.find("h1").text
    content = bsObj.find("div",attrs = {"id":"tpl_1"})
    return str(content)

url = 'https://travel.qunar.com/travelbook/note/6910266'
html = fetchUrl(url)    # fetchUrl(url) 函数用于发起网络请求 
content = getContent(html)
print(content)
复制代码

运行结果：

网站没有设置过多的反爬机制，成功获取到文章的正文部分。

2.2 将正文部分的 html 转换成 Markdown 格式

这部分主要是通过 html2text 库来完成，不过该库在转换过程中，有一些转换错误的地方，需要对转换结果做一定的处理。（以下是我在用 html2text 库转换去哪儿网站攻略文章时出现的问题，不知道是库有问题还是网站的问题，大家使用的话根据实际情况进行调整）

2.2.1 章节标题格式

html 中的 h 标签，转换成 Markdown 后，会在 # 后面多两个换行符。

如 h1 标签会转换成 #\n\n，而实际我们需要的是 # （ # 后面加空格）

text = text.replace("#\n\n", "# ")
复制代码

有些标题是有超链接的（网页中查看时，鼠标移上去会有 Tips 框弹出），这些 Tips 信息转换成 Markdown 格式后显示会有点混乱。我们直接将其超链接去除，只保留纯粹的标题文字。

header5 = content.find_all("h5")
for h5 in header5:
    t5 = h5.find("div", attrs = {"class":"b_poi_title_box"})
    h5.insert_after("##### " + t5.text)
    h5.extract()
复制代码

2.2.2 莫名其妙的换行符

可能是网页源码中有一些特殊的字符，转换后出现了很多换行符。

text = text.replace("\.",".")
text = text.replace(".\n",". ")
text = text.replace("tr-\n","tr-")
复制代码

2.2.3 不需要的标签

文章正文部分中夹杂着一些标签，比如下图中的 “评论” ，是我们不需要的，可以将其处理去掉。

我们可以在转换前，直接使用 BeautifulSoup 的 extract 函数将其剔除。

cmts = content.find_all("div", attrs = {"class":"ops"})
for s in cmts:
    s.extract()
复制代码

2.2.4 正文中出现了Markdown 格式控制符号

有些文章中的文字比较活泼可爱，用了很多颜文字，比如 ~~~ ^_^ ~~~ 等，而 ~~~ ，``，* 等这些符号是 Markdown 中用来控制格式的符号，导致虽然文章转换没什么问题，但是显示出现了问题。

# 正文中 ~ 的个数不确定，经过观察这样大概就基本可以正确显示了。
html = html.replace("~~", "~").replace("~~", "~")
复制代码

等等等等，还有其他细节方面的调整，其实也不算是共性问题，分享出来可能意义也不是很大，就不一一列举了，大家遇到了的话针对性地调整就可以了。

3. 完善代码开始爬取

3.1 读取 URL 列表

这里我们直接从上篇文章中爬取得到的 csv 文件中读取（大家感兴趣的可以去看看，跑跑文章中的代码就可以很容易得到）。

为了方便，我这里上传了一份测试用的文档（下载链接），大家可以去下载使用。（也可以在文末加我微信找我要）

import pandas as pd

df = pd.read_csv('data.csv', sep = ',', usecols = [0，1])
for index, title, url in df.itertuples():
    print(title)
    print(url)
复制代码

运行结果：

可以读取到每篇文章的 标题 和 链接 。

3.2 发起网络请求

下面是 fetchUrl 函数，用于发起网络请求。

import requests

def fetchUrl(url):
    '''
    发起网络请求
    '''
    headers = {
        'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.97 Safari/537.36',
    }
    r = requests.get(url,headers=headers)
    r.raise_for_status()
    r.encoding = "utf-8"
    return r.text
复制代码

3.3 爬取正文并转换成 Markdown 格式

getContent 函数用来从网页源码中提取正文部分的 Html 文本，并进行一些简单的预处理。

包括对图片，标题格式的替换，无关标签的剔除，以及一些有干扰的特殊字符的替换。

from bs4 import BeautifulSoup

def getContent(html):
    '''
    提取文章的正文部分的 html
    '''
    html = html.replace("&nbsp;", "")
    html = html.replace("~~", "~").replace("~~", "~")

    bsObj = BeautifulSoup(html,'lxml')
    title = bsObj.find("h1").text
    content = bsObj.find("div",attrs = {"id":"b_panel_schedule"})

    imgs = content.find_all("img")
    for img in imgs:
        src = img['data-original']
        txt = img['title']
        img.insert_after("![{0}]({1})".format(txt,src))
        img.extract()

    header5 = content.find_all("h5")
    for h5 in header5:
        t5 = h5.find("div", attrs = {"class":"b_poi_title_box"})
        #print(t5.text)
        h5.insert_after("##### " + t5.text)
        h5.extract()

    cmts = content.find_all("div", attrs = {"class":"ops"})
    for s in cmts:
        s.insert_after('< br/>')
        s.extract()

    return str(content)
复制代码

Html2Markdown 函数，主要作用是将 html 文本转换成 Markdown 格式，并对转换过程中出现的一些格式错误进行修正。

import html2text as ht

def Html2Markdown(html):
    '''
    将文章正文部分由 html 格式转换成 Markdown 格式
    '''
    text_maker = ht.HTML2Text()
    text = text_maker.handle(html)
    text = text.replace("#\n\n", "# ")
    text = text.replace("\.",".")
    text = text.replace(".\n",". ")
    text = text.replace("< br/>","\n")
    text = text.replace("tr-\n","tr-")
    text = text.replace("查看全部 __","")
    return text
复制代码

3.4 保存文件

我们保存文件时，使用文章标题作为文件名存储。而文件名中有一些字符，如 正反斜杠 / \ ，英文引号 ' "，英文大于小于号 <> 等等，我们需要对其进行剔除，或者替换成中文的符号。否则会报错，保存失败。

import os

def saveMarkdownFile(title,content):
    '''
    保存文本到 Markdown 文件中
    title：文件名
    content：要保存的文本内容
    '''
    # 剔除或替换文件名中不允许出现的符号
    title = title.replace("\","")
    title = title.replace("/","")
    title = title.replace(""","”")
    title = title.replace("'","’")
    title = title.replace("<","《")
    title = title.replace(">","》")
    title = title.replace("|","&")
    title = title.replace(":","：")
    title = title.replace("*","x")
    title = title.replace("?","？")
    
    with open("data/" + title + ".md", 'w', encoding='utf-8') as f:
        f.write(content)
复制代码

3.5 爬虫调度器

最后我们需要写一个爬虫调度的函数，来启动并控制我们的爬虫。

import time
from random import randint

def main():

    df = pd.read_csv('data.csv', sep = ',', usecols = [0，1])
    for index, title, url in df.itertuples():
        html = fetchUrl(url)
        content = getContent(html)
        md = Html2Markdown(content)
        saveMarkdownFile(title, md)

        # 随机等待时间，避免爬取过于频繁触发反爬机制
        t = randint(0,3)
        print("wait -- ",str(t),"s")
        time.sleep(t)

# 启动爬虫
main()
print("爬取完成！")
复制代码

上述就是本次爬虫的全部源码了。

4. 问题解决

4.1 如何安装 html2text 库？

虽然我相信这个小问题一定难不倒聪明的大家的，但是这里还是讲一下，给大伙儿节省点时间，哈哈。

安装命令是：

pip install html2text
复制代码

如果上面那个指令安装时，提示 ConnectTimeoutError 连接超时失败（反正我是连接超时失败了），可以试一下下面这个指令。

pip install html2text -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
复制代码

参考链接：blog.csdn.net/licheetools…

4.2 什么是 Markdown ？如何打开 Markdown 文件？

Markdown 的基本概念我就不说了，自己去网上搜吧。就相当于 Office Word 的精简版，可以让你像写代码一样写文章，用熟练了，写起东西来非常丝滑。

我目前在用的一款 Markdown 编辑器，叫 Typora，界面还是非常干净漂亮的，颜值很高。在这里给大家简单推荐一下，如果大家有什么好用的 Markdown 编辑器，也可以在评论区跟大家分享哦。

下载链接：www.typora.io/

5. 后记

由于是单线程爬取，而且加了相对来说比较长的等待时间（主要也是时间宽裕，也不想给人家网站造成压力）。

一下午时间爬了近2千篇文章，用 Typora 打开，翻阅起来真的是，感觉是真的爽。

如果文章中有哪里没有讲明白，或者讲解有误的地方，欢迎在评论区批评指正，或者扫描下面的二维码，加我微信，大家一起学习交流，共同进步。

文章版权归作者所有，未经允许请勿转载。

THE END

开发工具

js 的 Array

Adobe Acrobat和Reader内存泄露远程代码执行漏洞

@WEB ShoppingCart跨站脚本漏洞

Microsoft Word ‘mso.dll’ LsCreateLine()函数代码执行漏洞

Red Hat JBoss Enterprise Application Platform 信息泄露漏洞

树莓派从选购到入门一条龙

Python 网络爬虫实战：去哪儿网旅游攻略图文爬取保存为 Markdown电子书