最简单的爬虫：用Pandas爬取表格数据-一一网

大家好，我是小五?

书接上文，我们可以使用Pandas将Excel转为html格式，在文末我说与之对应的read_html()也是一个神器！

PS：大家也很给力，点了30个赞，小五赶紧安排上

begin

最简单的爬虫：用Pandas爬取表格数据

有一说一，咱得先承认，用Pandas爬取表格数据有一定的局限性。

它只适合抓取Table表格型数据，那咱们先看看什么样的网页满足条件？

什么样的网页结构？

用浏览器打开网页版，F12查看网页HTML结构，会发现符合条件的网页结构有个共同的特点。

如果你发现HTML结构是下面这个Table格式的，那直接可以用pandas上手。

<table class="..." id="...">
     <thead>
     <tr>
     <th>...</th>
     </tr>
     </thead>
     <tbody>
        <tr>
            <td>...</td>
        </tr>
        <tr>...</tr>
        <tr>...</tr>
        ...
        <tr>...</tr>
        <tr>...</tr>
    </tbody>
</table>
复制代码

这个看着不直观，打开一个北京地区空气质量网站。

F12，左侧是网页中的质量指数表格，它的网页结构完美符合了Table表格型数据网页结构。

这个网页的数据就非常适合使用pandas来爬取。

pd.read_html()

Pandas提供read_html()，to_html()两个函数用于读写html格式的文件。这两个函数非常有用，一个轻松将DataFrame等复杂的数据结构转换成HTML表格；另一个不用复杂爬虫，简单几行代码即可抓取Table表格型数据，简直是个神器！

具体的pd.read_html()参数，可以查看其官方文档：pandas.pydata.org/pandas-docs…

下面直接拿刚才的网页直接上手开大！

import pandas as pd
df = pd.read_html("http://www.air-level.com/air/beijing/", encoding='utf-8',header=0)[0]
复制代码

这里只加了几个参数，header是指定列标题所在的行。加上导包，只需两行代码。

df.head()
复制代码

对比结果，可以看到成功获取了表格数据。

多个表格

上一个案例中，不知道有小伙伴注意到没有

pd.read_html()[0]
复制代码

对于pd.read_html()获取网页结果后，还设置了一个索引。这是因为网页上可能存在存在多个表格，这时候就需要靠索引来指定获取哪个表格？

比如还是刚才的网站，空气质量排行榜网页就明显由两个表格构成的。

这时候如果用pd.read_html()来获取右边的表格，只需要修改获取结果的索引即可。

import pandas as pd
df = pd.read_html("http://www.air-level.com/rank", encoding='utf-8',header=0)[1]
复制代码

对比之下，可以看到成功获取到了网页右侧的表格。

以上就是用pd.read_html()来简单爬取静态网页了。但是我们之所以使用python，就是为了提高效率。如果只是一个网页，鼠标选择复制也不麻烦。所以python操作最大的优点会体现在批量操作上。

批量爬取

下面给大家展示一下，如何用pandas批量爬取网页表格数据。

以新浪财经机构持股汇总数据为例：

一共47页，通过for循环构建47个网页url，再用pd.read_html()循环爬取。

df = pd.DataFrame()
for i in range(1, 48):
    url = f'http://vip.stock.finance.sina.com.cn/q/go.php/vComStockHold/kind/jgcg/index.phtml?p={i}'
    df = pd.concat([df, pd.read_html(url)[0]])   #合并DataFrame
复制代码

还是几行代码，轻松解决。