机器学习8-特征工程

【摘要】 传统编程的关注点是代码。在机器学习项目中,关注点变成了特征表示;即,开发者通过添加和改善特征来调整模型。

 前言

传统编程的关注点是代码。在机器学习项目中,关注点变成了特征表示;即,开发者通过添加和改善特征来调整模型。

特征工程是指将原始数据转换为特征矢量;进行特征工程预计需要大量时间。

一、将原始数据映射到特征

下图中左侧表示来自输入数据源的原始数据,右侧表示特征矢量,也就是组成数据集中样本的浮点值集。

特征工程将原始数据映射到机器学习特征。

二、映射数值

整数和浮点数据不需要特殊编码,因为它们可以与数字权重相乘。

下图中,将原始整数值6转换为特征值6.0并没有多大的意义。

三、映射分类值

分类特征具有一组离散的可能值。例如,可能有一个名为street_name的特征,其中的选项包括:

{'Charleston Road', 'North Shoreline Boulevard', 'Shorebird Way', 'Rengstorff Avenue'}

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享