这是我参与更文挑战的第2天,活动详情查看: 更文挑战
之前我们已经搭建好了基础的环境,今天我们先来了解一下一些相关概念,主要知道一下机器学习的类型以及和数据的相关概念。
机器学习的类型
首先我们先了解一下机器学习的主流类型,主要有**监督学习
,无监督学习
,强化学习
,深度学习
**几种。
监督学习
监督学习是指提供了带标记的数据,提供的数据包括基本的输入数据以及期望的输出数据,算法会根据标记的预期数据不断来训练模型,来生成一个与预期数据接近的模型。
无监督学习
无监督学习是指提供的数据是无标记的数据,需要机器从无标记的数据中探索并推动出潜在的联系。
强化学习
强化学习是带有激励机制的学习方式,即是如果机器行动正确在产生正激励,如果机器行动错误则产生负激励。在这样的场景下来获取最大的利益,达到激励最大化。
深度学习
深度学习是基于神经网络的算法衍生的,以人工神经网络为架构,对资料进行表征学习的算法。
数据与数据集
机器学习离不开数据集,我们先来看一下下面的表:
序号 | 国家 | 性别 | 年龄 | 收入 |
---|---|---|---|---|
1 | 中国 | 男 | 24 | 3500 |
2 | 中国 | 女 | 44 | 12500 |
3 | 美国 | 男 | 28 | 25000 |
4 | 日本 | 男 | 34 | 18000 |
5 | 中国 | 男 | 17500 |
在上面的数据中我们把整个数据表称为数据集,我们把其中的一行称为一个样例,在表格中的一列我们将其成为一个特征,而某一列的具体一个数值我们将其称为属性值。当然数据表中可能也有空白的数据,如第5行中的年龄既是空白,我们将这样的空白称为缺失数据。
在以上的数据表中我们经常期望根据不同国家的人的性别与年龄可以推断出其收入,那么我们可以将上面的表分为两张表:
序号 | 国家 | 性别 | 年龄 |
---|---|---|---|
1 | 中国 | 男 | 24 |
2 | 中国 | 女 | 44 |
3 | 美国 | 男 | 28 |
4 | 日本 | 男 | 34 |
5 | 中国 | 男 | – |
序号 | 收入 |
---|---|
1 | 3500 |
2 | 12500 |
3 | 25000 |
4 | 18000 |
5 | 17500 |
我们期望可以从第一张表去推断出第二张表,如上我们可以将第一张表的数据称为自变量,而第二张表的数据成为因变量。
在实践中我们还需要将数据分为两部分,一部分用来训练模型,而另一部分用来测试我们生成的模型是否准确,这样我们可以将数据分为如下两部分
序号 | 国家 | 性别 | 年龄 |
---|---|---|---|
1 | 中国 | 男 | 24 |
2 | 中国 | 女 | 44 |
3 | 美国 | 男 | 28 |
序号 | 国家 | 性别 | 年龄 |
---|---|---|---|
4 | 日本 | 男 | 34 |
5 | 中国 | 男 | – |
第一个表格我们用来训练模型,我们将其成为训练集,而第二个模型我们将其称为测试集。
之后我们会接着说说数据预处理,数据预处理是在进行机器学习之前的另一个必要的操作。