机器学习数学基础(一)

写在前面:

函数

函数与数据的泛化
推理与归纳

线性代数

向量与矩阵
特征值与特征空间
高维空间向量
特征向量

函数

定义：

在数学中，函数(function)就是一种关系，是一组输入和一组输出之间的关系，也是映射。

类型

1.2.1指数函数(常用作激活函数)

$$
y = e^x
$$
应用链接：动态模型展示链接

1.2.2 对数函数(指数函数的反函数)

1.2.3 sigmoid函数(一般用作激活函数:因为映射到（0,1）之间)

$$
S(x) = \frac{1}{1+e^{-x}} = \frac{e}{e^x+1}
$$

线性整流函数(常用的为斜坡函数：rectifier)

$$
f(x) = max(0,x)
$$
当 x > 0 时，x = y
当 x < 0 时，y = 0

链接：线性整流函数函数

复合函数（函数的嵌套,Function Decomposition）

举例：
$$
f(x) = 2x+3
$$

$$
f(f(x)) = 2(2x+3)+3 = 4x + 9
$$

动态函数和静态函数

上面为静态函数，下面为动态函数
区别：动态函数的输入是和时间有关系，静态函数的输入则和时间没有关系

比较接近现实的函数(The Real-World Data)

凸函数(Convex Set and Function)

如上图左，t为权重，相当于x，y都属于在0和1之间。
上图右，满足公式的条件就是凸函数。

线性代数(Linear Algebra)

向量(Vector)是一个有方向的标量

向量空间(vector space)

欧几里德空间(Euclidean space)被数学代表着物理空间和概念，比如，长宽高，角度等。用的笛卡尔坐标系来表示。
$$
\begin{pmatrix} 1 \ 2 \end{pmatrix}
$$

上面是二维向量空间
$$
\left(
\begin{matrix}
1\
2\
3\
\end{matrix}
\right)
$$
上面是三维向量空间

向量的模(Norm of Vectors)，向量的范数

$$
\parallel x \parallel
$$

为向量X的范数，
$$
[V;\parallel \cdot \parallel ]
$$
为赋范空间

公理：
$$
\parallel X\parallel \geq 0
$$

$$
\parallel \alpha{X}\parallel = \mid\alpha\mid{\parallel X \parallel}
$$

$$
\parallel X+Y \parallel \leq \parallel X \parallel + \parallel Y \parallel
$$

范数(L-0 TO L-infinity)

链接：范数

L-0范数

指向量中非0的元素的个数，如果用L0范数来规则化一个参数矩阵W的话，就是希望W的大部分元素都是0，意思就是让参数W是稀疏的。但是实际上我们更多是用是L1范数来实现稀疏，因为L1范数的最有凸近似，而且比L0范数要容易优化求解。总之，L1范数和L0范数都可以实现稀疏，L1因具有比L0更好的优化求解特性而被广泛应用。

例子：
$$
\begin{pmatrix} 1 \ 2\end{pmatrix} \Rightarrow 2 \quad\text{说明非零的个数有两个}
$$

$$
\begin{pmatrix} 1 \ 0\end{pmatrix} \Rightarrow 1
\quad\text{说明非零的个数只有1个}
$$

L-1范数和L-2范数

L-1norm是两点之间的距离，也称曼哈顿距离(Mahatten Distance)，即在欧几里德空间的固定指教坐标系上两点所形成的线段对轴产生的投影的距离总和

L-2norm是欧几里德距离(Euclidean Distance),也叫欧氏距离，表示在m维空间中两个点之间的距离

转自：参考链接

在正则化中二者的区别：

下图是表示曼哈顿距离和欧几里德距离的直观图，曼哈顿距离可能有多解

归纳总结：
$$
\parallel x \parallel_p = (\sum_{i = 1}^n {\mid x_i\mid}^p)^\frac{1}{p}
$$
所以当
$$
n = \infty
$$
则公式为
$$
\parallel x \parallel_\infty = (\sum_{i = 1}^n {\mid x_i\mid}^\infty)^\frac{1}{\infty}
$$

$$
\Rightarrow \sqrt[\infty]{\sum_{i=1}^n \mid X_i\mid^{\infty} }
$$

假设存在一个条件：
$$
max(x_1,x_2,x_3,\cdots,x_n) =x_j
$$

$$
x_j\text{里面最大的一个值}
$$

$$
\because x_j^\infty >> x_i^\infty
$$

$$
\parallel x \parallel_\infty = (\sum_{i = 1}^n {\mid x_i\mid}^\infty)^\frac{1}{\infty} \Rightarrow \mid x_j \mid
$$