SVM——《统计学习方法第七章》

这篇具有很好参考价值的文章主要介绍了SVM——《统计学习方法第七章》。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

SVM——《统计学习方法第七章》

为什么叫支持向量机

在第二章中我们学过感知机，它是最小化所有误分类点到超平面的距离之和， M 为误分类点的集合，得到的分离超平面是不唯一的。
$\min_{\omega,b}[-\sum_{x_i \in M}y_i (\omega\cdot x_i+b)]$
在支持向量机中，
$\begin{cases} 分类确信度 \frac{|\omega\cdot x_i+b|}{||\omega||}\\ 分类正确性 y_i(\omega\cdot x_i +b) \end{cases} \Rightarrow几何间隔\gamma_i=\frac{y_i(\omega\cdot x_i +b)}{||\omega||}$
哪些样本最有用？就是几何间隔最小的点 $\min \gamma_i$ 。
然后使得几何间隔最小的点最大 $\max_{\omega,b}\min \gamma_i$ ，一看这形式就知道要使用到最大熵章节讲到的原始问题和对偶问题。
$R^n$ 空间中点和向量是等价的，最有用的那些点 $\min \gamma_i$ 称为支持向量。

线性可分支持向量机

线性可分支持向量机是可以将样本点完全分类开来，但是这种情况在现实中是很少的，但是它是最简单的支持向量机。我们先理清它的过程，还有一些证明，后面的向量机都是在它的基础上发展的。
假设有 N 个样本，M 个特征，Y 只有正类（+1）和负类（-1）

几何间隔和函数间隔

几何间隔的定义（点 $x_i,y_i)$ 到超平面 $\omega\cdot x + b=0$ 的距离）：
$\begin{aligned} \gamma_i&=\frac{|\omega\cdot x_i +b|}{||\omega||}\\ &=\frac{y_i(\omega\cdot x_i +b)} {||\omega||}\\ &=y_i(\frac{\omega}{||\omega||}\cdot x_i+\frac{b}{||\omega||}) \end{aligned}$
几何间隔的最小值 $\gamma = \min_i \gamma_i$
优化问题为：
$\begin{aligned} & \max_{\omega,b}\quad \gamma\\ &s.t. \quad y_i(\frac{\omega}{||\omega||}\cdot x_i+\frac{b}{||\omega||})\ge \gamma,i=1,2,...,N \end{aligned}$

函数间隔的定义：
$\begin{aligned} \hat\gamma_i&={|\omega\cdot x_i +b|}\\ &={y_i(\omega\cdot x_i +b)} \\ \end{aligned}$
函数间隔的最小值 $\hat\gamma = \min_i \hat\gamma_i$
优化问题为：
$\begin{aligned} & \max_{\omega,b}\quad \hat\gamma/||\omega||\\ &s.t. \quad {y_i(\omega\cdot x_i +b)}\ge \hat\gamma,i=1,2,...,N \end{aligned}$

怎么将几何间隔和函数间隔联系起来？
第一种：将 $\omega$ 归一化，即 $||\omega||=1$
以下这三种超平面的 $\omega,b$ 不一样，但是表示的是同一个超平面。
$3x^{(1)}+4x^{(2)}+1=0\\ 6x^{(1)}+8x^{(2)}+2=0\\ \frac{3}{5}x^{(1)}+\frac{4}{5}x^{(2)}+\frac{1}{5}=0\\$
将 $\omega$ 归一化后，函数间隔和几何间隔就是等价的，此时优化问题为：
$\begin{aligned} & \max_{\omega,b}\quad \hat\gamma/||\omega||\\ &s.t. \begin{cases} {y_i(\omega\cdot x_i +b)}\ge \hat\gamma,i=1,2,...,N\\ ||\omega ||=1 \end{cases} \end{aligned}$

第二种：对 $\hat\gamma$ 做处理，和刚刚三个超平面处理类似，对 $\omega,b$ 进行放缩，可以使得 $\hat\gamma=\min_{i}\hat\gamma_i=1$
此时优化问题为：
$\begin{aligned} & \min_{\omega ,b}\quad ||\omega||\\ &s.t. \quad {y_i(\omega\cdot x_i +b)}\ge 1,i=1,2,...,N\\ \end{aligned}$

显然，第二种处理能使得问题更加简单。

证明分离超平面存在且唯一

目标函数是凸函数，约束条件是放射函数，所以这个凸优化问题存在最优解。
现在证最优解是唯一的（反证法）：

原始问题算法流程

输入：数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}，y_i\in \{+1,-1\}$
输出：最大间隔分离超平面与决策函数

构造优化问题

$\begin{aligned} & \min_{\omega ,b}\quad \frac{1}{2}||\omega||^2\\ &s.t. \quad 1-{y_i(\omega\cdot x_i +b)}\le 0,i=1,2,...,N\\ \end{aligned}$
所得解为 $\omega^* ,b^*$

分离超平面

$\omega^*\cdot x + b^*=0$
决策函数
$f(x)=\rm sign(\omega^*\cdot x + b^*)$

对偶算法

推导对偶优化问题

由 $\alpha$ 推导 $\omega$ 和 b

对偶算法流程

输入：数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}，y_i\in \{+1,-1\}$
输出：最大间隔分离超平面与决策函数

构造优化问题

$\begin{aligned} & \min_{\alpha}\quad \frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N \alpha_i \alpha_j y_i y_j (x_i\cdot x_j)-\sum_{i=1}^N \alpha_i\\ &s.t. \quad \sum_{i=1}^N \alpha_i y_i= 0\\ &\quad \quad \alpha_i\ge 0,i=1,2,...,N\\ \end{aligned}$

求解优化问题，得到最优解

$\alpha^* = (\alpha_1^*,\alpha_2^*,...,\alpha_N^*)^T$

根据 $\alpha^*$ 得到

$\omega^*=\sum_{i=1}^N \alpha_i^* y_i x_i$
找到符合 $\alpha_j^*>0$ 的点 $x_j,y_j)$ ,计算
$b^*=y_j-\sum_{i=1}^N \alpha_i^*y_i(x_i\cdot x_j)$

分离超平面

$\omega^*\cdot x + b^*=0$
决策函数
$f(x)=\rm sign(\omega^*\cdot x + b^*)$

线性支持向量机(不完全可分)

引入松弛因子

在线性支持向量机中，有四类点：
正确分类且在分界线外面的点（白色的点）： $y_i(\omega\cdot x_i+b)\ge 1$
分类正确但在超平面与分界线之间的点（黄色的点）： $y_i(\omega\cdot x_i+b) + \xi_i\ge 1 ,\xi_i\in (0,1)$
在超平面上的点： $y_i(\omega\cdot x_i+b) + \xi_i\ge 1 ,\xi_i=1$
分类错误的点： $y_i(\omega\cdot x_i+b) + \xi_i\ge 1 ,\xi_i>1$

解决重点就都集中到了这个关键的参数 $\xi_i$ 上，我们给它起名叫做弹性因子或松弛变量。
现在我们就要把原来线性可分的目标函数改成考虑所有松弛变量的新函数，目标函数是：
$\min \frac{1}{2}||\omega^2||+C\sum_{i=1}^N \xi_i$
这里的 $C$ 被称作惩罚系数，它决定了原始参数和松弛变量之间的影响权重。

$C$ 越大代表了误分类起到的作用更大，也可以说对误分类的惩罚力度大
$C$ 越小代表正确分类的参数作用更大，对误分类的惩罚力度小

原始问题算法流程

构造优化问题

$\begin{aligned} & \min_{\omega ,b,\xi_i}\quad \frac{1}{2}||\omega^2||+C\sum_{i=1}^N \xi_i\\ &s.t. \quad 1-\xi_i -{y_i(\omega\cdot x_i +b)}\le 0,i=1,2,...,N\\ &\qquad -\xi_i\le 0 ,i=1,2,...,N \end{aligned}$
所得解为 $\omega^* ,b^*$

分离超平面

$\omega^*\cdot x + b^*=0$
决策函数
$f(x)=\rm sign(\omega^*\cdot x + b^*)$

对偶算法

推导对偶优化问题

由 $\alpha$ 推导 $\omega$ 和 b

对偶算法流程

输入：数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}，y_i\in \{+1,-1\}$
输出：最大间隔分离超平面与决策函数

给定惩罚参数 $C$ ,构造优化问题

求解优化问题，得到最优解

$\alpha^* = (\alpha_1^*,\alpha_2^*,...,\alpha_N^*)^T$

根据 $\alpha^*$ 得到

$\omega^*=\sum_{i=1}^N \alpha_i^* y_i x_i$
找到符合 $0<\alpha_j^*<C$ 的点 $x_j,y_j)$ ,计算
$b^*=y_j-\sum_{i=1}^N \alpha_i^*y_i(x_i\cdot x_j)$

分离超平面

$\omega^*\cdot x + b^*=0$
决策函数
$f(x)=\rm sign(\omega^*\cdot x + b^*)$

从合页损失的角度理解线性支持向量机

合页的表达式

软间隔和合页损失

原始优化问题:
$\min_{\omega ,b,\xi_i}\quad \frac{1}{2}||\omega^2||+C\sum_{i=1}^N \xi_i$

令 $\xi_i = [1-y_i(\omega\cdot x_i + b)]_+=\begin{cases} 1-y_i(\omega\cdot x_i + b) & \xi_i > 0\\ 0& \xi_i\le 0 \end{cases}$
$\min_{\omega ,b,\xi_i}\quad \frac{1}{2}||\omega^2||+C\sum_{i=1}^N \xi_i\\ =\min_{\omega,b}\quad \frac{1}{2}||\omega^2||+C\sum_{i=1}^N [1-y_i(\omega\cdot x_i + b)]_+\\ =\min_{\omega,b}\quad \sum_{i=1}^N [1-y_i(\omega\cdot x_i + b)]_+ + \frac{1}{2C}||\omega^2||\\ =\min_{\omega,b}\quad \sum_{i=1}^N [1-y_i(\omega\cdot x_i + b)]_+ + \lambda ||\omega^2||$
可以理解为最小化合页损失，后面是惩罚项。

三个损失函数的比较

非线性支持向量机

核函数

非线性的也分为可分和不可分两种情况。我们主要看非线性支持向量机(不可分)的情况。
我们需要将非线性转化为线性：原空间的点映射到新空间，用线性支持向量机取解决。
分析线性支持向量机的优化问题，我们可以发现关键计算 $(x_i\cdot x_j)$ 这个内积，其余都是单个数，所以要求新空间是能够计算内积的。
设映射是 $\Phi$ ,
$z_i = \Phi(x_i),z_j = \Phi(x_j)$
$z_i\cdot z_j = \Phi (x_i)\cdot \Phi(x_j)=K(x_i,x_j) 核函数$
有很多映射对应一个核函数，我们不关心具体是什么映射，只关心核函数。
在新空间里 $\min_{\alpha}\quad \frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N \alpha_i \alpha_j y_i y_j K(x_i,x_j)-\sum_{i=1}^N \alpha_i$

如何找到正定核？（ $K(x_i,x_i)\ge 0$ ）
满足以下两个条件：
① $K$ 是对称函数
② 新空间上的Gram矩阵半正定

这部分的具体内容需要泛函的知识，难度较大，感兴趣可以看《统计学习方法李航》

常用核函数(我们所说的核函数就是正定核)：

线性内核函数 $K(x_i,x_j)=x_i\cdot x_j$
多项式核函数 $K(x_i,x_j)=(x_i\cdot x_j+1)^q$
径向基核函数（高斯核函数，RBF） $K(x_i,x_j)=\exp \{-\frac{||x_i-x_j||^2}{2\sigma^2}\}$

还有一种字符串核函数：

算法流程

和线性支持向量机不同的地方就是将 $x_i\cdot x_j$ 改为 $K(x_i,x_j)$ 。

输入：数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}，y_i\in \{+1,-1\}$
输出：最大间隔分离超平面与决策函数

给定惩罚参数 $C$ ,构造优化问题

$\begin{aligned} & \min_{\alpha}\quad \frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N \alpha_i \alpha_j y_i y_j K(x_i, x_j)-\sum_{i=1}^N \alpha_i\\ &s.t. \quad \sum_{i=1}^N \alpha_i y_i= 0\\ &\quad \quad 0\le\alpha_i\le C,i=1,2,...,N\\ \end{aligned}$