引言

在互联网大数据场景下，我们经常需要面对高维数据，在对这些数据做分析和可视化的时候，我们通常会面对「高维」这个障碍。在数据挖掘和建模的过程中，高维数据也同样带来大的计算量，占据更多的资源，而且许多变量之间可能存在相关性，从而增加了分析与建模的复杂性。

我们希望找到一种方法，在对数据完成降维「压缩」的同时，尽量减少信息损失。由于各变量之间存在一定的相关关系，因此可以考虑将关系紧密的变量变成尽可能少的新变量，使这些新变量是两两不相关的，那么就可以用较少的综合指标分别代表存在于各个变量中的各类信息。机器学习中的降维算法就是这样的一类算法。

主成分分析（Principal Components Analysis，简称PCA）是最重要的数据降维方法之一。在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。本篇我们来展开讲解一下这个算法。

（本篇降维算法部分内容涉及到机器学习基础知识，没有先序知识储备的宝宝可以查看ShowMeAI的文章图解机器学习 | 机器学习基础知识。

1.PCA与最大可分性

对于 $X = \begin {bmatrix} x_1 \\ x_2 \\ … \\ x_n \end{bmatrix}$ ， $X \in R^n$ 。我们希望 $X$ 从 $n$ 维降到 $n^{‘}$ 维，同时希望信息损失最少。比如，从 $n = 2$ 维降到 $n^{‘} = 1$ 。

左图为一个典型的例子，假如我们要对一系列人的样本进行数据降维（每个样本包含「身高」「体重」两个维度）。右图我们既可以降维到第一主成分轴，也可以降维到第二主成分轴。

哪个主成分轴更优呢？从直观感觉上，我们会认为「第一主成分轴」优于「第二主成分轴」，因为它比较大程度保留了数据之间的区分性（保留大部分信息）。

对PCA算法而言，我们希望找到小于原数据维度的若干个投影坐标方向，把数据投影在这些方向，获得压缩的信息表示。下面我们就一步一步来推导一下PCA算法原理。

先来复习一点点数学知识。我们知道要获得原始数据 $X$ 新的表示空间 $Y$ ，最简单的方法是对原始数据进行线性变换（也叫做基变换） $Y = PX$ 。其中， $X$ 是原始样本， $P$ 是基向量， $Y$ 是新表达。

数学表达为：

\begin{bmatrix} p_1 \\ p_2 \\ \vdots \\ p_r \end{bmatrix}_{r \times n} \begin{bmatrix} x_1 & x_2 & \cdots & x_m \end{bmatrix}_{n \times m} = \begin{bmatrix} p_1 x_1 & p_1 x_2 & \cdots & p_1 x_m \\ p_2 x_1 & p_2 x_2 & \cdots & p_2 x_m \\ \vdots & \vdots & \ddots & \vdots \\ p_r x_1 & p_r x_2 & \cdots & p_r x_m\end{bmatrix}_{r\times m}

文章版权归作者所有，未经允许请勿转载。

THE END

喜欢就支持一下吧