LASummary
| 奇异值 | 特征值 | |
|---|---|---|
| 定义 | \(AA^T\) 特征值的平方根 | \(A\) 的特征值 |
| 适用 | \(A\) 任意矩阵 | \(A\) 方阵 |
| 几何意义 | 描述矩阵对空间的缩放 | 描述矩阵对空间的旋转和缩放 |
| 求解 | 解 \(Av=\lambda v\) | 奇异值分解: \(A=U\Sigma V^T\) |
| 变换 | 仅在特征向量 \(v\) 方向进行比例系数为特征值 \(\lambda\) 的缩放 | 在左右奇异向量 \(U,V^T\) 上进行旋转, 在奇异值矩阵 \(\Sigma\) 上进行缩放 |
| 符号 | 非负 | 可正, 可负, 可复数 |
SVD
计算\(A^TA\), 特征向量组成 \(V^T\) 的列
计算\(AA^T\), 特征向量组成 \(U\) 的列
设 \(A=\left[ \begin{array}{cc}1&4 \\ 4&1\end{array}\right]\)
奇异值 \(\sigma_1=5,\sigma_2=3\)
\(U=V=\left[ \begin{array}{cc}\frac{1}{\sqrt 2}&\frac{1}{\sqrt 2} \\ \frac{1}{\sqrt 2}&-\frac{1}{\sqrt 2}\end{array}\right]\)
用代码观察:
import numpy as np
import matplotlib.pyplot as plt
# 构造矩阵 A
A = np.array([[1, 4], [4, 1]])
# 生成单位圆上的点
theta = np.linspace(0, 2*np.pi, 100)
circle = np.array([np.cos(theta), np.sin(theta)])
# 应用变换
transformed = A @ circle
# 画图
plt.figure(figsize=(6,6))
plt.plot(circle[0], circle[1], label='Unit Circle', color='blue')
plt.plot(transformed[0], transformed[1], label='Transformed Ellipse', color='red')
plt.axis('equal')
plt.title("Unit Circle → Ellipse under Matrix A")
plt.legend()
plt.grid(True)
plt.show()
SVD 中奇异向量的抽象线性代数解释
奇异值分解 (SVD) 可以从抽象线性代数的视角进行更深层的解释,这超越了单纯的数值计算,转而强调向量空间、内积空间、自伴算子(self-adjoint operators)和谱定理(spectral theorem)的本质结构。以下我将基于有限维内积空间(finite-dimensional inner product spaces,通常是欧几里得空间 ℝ^m 和 ℝ^n 配备标准内积)来阐述,突出奇异向量的“本质”意义:它们揭示了线性变换的“内在对称性”和“主方向”,类似于对称矩阵的对角化,但适用于任意矩形矩阵。
1. 线性变换的视角:域空间与值域空间的协调基
考虑一个矩阵 \( A \in \mathbb{R}^{m \times n} \) 作为从向量空间 \( V = \mathbb{R}^n \) 到 \( W = \mathbb{R}^m \) 的线性变换 \( T: V \to W \),其中 \( V \) 和 \( W \) 都是内积空间。
- 右奇异向量(V 的列):这些向量形成 \( V \) 的一个标准正交基(orthonormal basis),使得变换 \( T \) 在这个基上的行为“简单化”。具体来说,右奇异向量 \( v_1, \dots, v_n \) 是自伴算子 \( T^* T: V \to V \)(其中 \( T^* = A^T \) 是伴随算子)的特征向量。这里,\( T^* T \) 是正半定自伴算子(positive semi-definite self-adjoint operator),因此根据谱定理,它可以对角化:\( T^* T v_i = \lambda_i v_i \),其中 \( \lambda_i = \sigma_i^2 \geq 0 \)(\( \sigma_i \) 是奇异值)。
-
本质意义:右奇异向量定义了 \( V \) 的“主轴”(principal axes),沿这些轴,变换 \( T \) 的“能量”或“拉伸”被最大化。几何上,这类似于椭球的轴:\( \|T v\| \) 在单位球面上的最大值对应最大奇异向量。更抽象地说,它们将 \( V \) 分解为正交直和 \( V = \ker(T^* T) \oplus \bigoplus_{i: \sigma_i > 0} \operatorname{span}\{v_i\} \),其中零奇异值对应核空间(kernel),非零部分对应有效变换方向。这体现了线性变换的“秩-零分解”(rank-nullity theorem)的谱版本。
-
左奇异向量(U 的列):类似地,这些向量形成 \( W \) 的一个标准正交基,是自伴算子 \( T T^*: W \to W \) 的特征向量:\( T T^* u_i = \lambda_i u_i \)。
- 本质意义:左奇异向量定义了 \( W \) 的“主轴”,它们是变换图像(image of T)的正交基。关键关系是 \( T v_i = \sigma_i u_i \)(对于 \( \sigma_i > 0 \)),这意味着变换 \( T \) 将右奇异向量“映射”到左奇异向量,仅通过缩放因子 \( \sigma_i \)。这协调了域和值域的空间结构:SVD 本质上是找到一对“匹配”的正交基,使得 \( T \) 在这些基下的矩阵表示为对角形式(Σ)。在抽象terms中,这类似于将线性变换“对角化”在非对称情况下,通过引入两个不同的基来实现。
总体上,SVD 是谱定理在非自伴算子上的推广:虽然 \( T \) 本身可能不是自伴的(非方阵),但 \( T^* T \) 和 \( T T^* \) 是,从而允许我们“间接”对角化 \( T \)。这揭示了任意线性变换的“极分解”(polar decomposition):\( A = U_p P \),其中 \( P = V \Sigma V^T \) 是正半定矩阵(“幅度”部分),\( U_p = U V^T \) 是部分等距(partial isometry,“相位”部分)。在复数域上,这类似于单位分解,但实数域强调正交性。
2. 向量空间分解的视角:正交直和与秩
从抽象代数看,SVD 诱导了以下向量空间的精细分解: - \( V = \ker(T) \oplus \operatorname{im}(T^*) \)(由右奇异向量支撑,其中零奇异值对应 \( \ker(T) = \ker(T^* T) \),非零对应 \( \operatorname{im}(T^*) \))。 - \( W = \ker(T^*) \oplus \operatorname{im}(T) \)(类似,由左奇异向量支撑)。 - 秩 \( r = \operatorname{rank}(T) \) 等于非零奇异值的数量,这直接源于特征值的非负性。
这比单纯的行/列空间更本质:奇异向量不仅给出基,还给出“有序”基,按奇异值降序排列,量化每个子空间的“重要性”(例如,在主成分分析 PCA 中,右奇异向量即主成分,奇异值即方差)。
3. 内积与范数的本质:Frobenius 范数与核范数
更深层地,奇异值捕捉了变换的“范数”本质: - \( \|A\|_2 = \sigma_1 \)(谱范数,最大拉伸)。 - \( \|A\|_F = \sqrt{\sum \sigma_i^2} \)(Frobenius 范数)。 - \( \|A\|_* = \sum \sigma_i \)(核范数,用于低秩逼近)。
抽象地说,奇异向量将矩阵空间 \( \mathbb{R}^{m \times n} \)(作为内积空间,配备 Frobenius 内积 \( \langle A, B \rangle = \operatorname{tr}(A^T B) \))的元素分解为“秩一”矩阵的正交和:\( A = \sum_{i=1}^r \sigma_i u_i v_i^T \)。每个 \( u_i v_i^T \) 是秩一算子,奇异向量确保这些算子的“正交性”(在矩阵内积下)。
4. 推广到更抽象设置
- Hilbert 空间:在无限维内积空间中,SVD 推广为紧致算子的谱分解(compact operators),奇异向量成为希尔伯特基的子集。这在函数分析中用于积分方程或偏微分方程。
- 模范畴(module category):在抽象代数中,SVD 类似于自由模的 Smith 标准形(Smith normal form),但针对内积结构。更一般地,在表示论中,它对应于半单李代数的 Cartan 分解,但这可能超出有限维线性代数。
- 范畴论视角(更高级):SVD 可以视为线性范畴中态射的“正交对角化”函子,但这较为抽象,通常不直接用于解释奇异向量。
5. 与数值例子的联系
回顾你之前的 2x2 矩阵 \( A = \begin{bmatrix} 3 & 1 \\ 1 & 3 \end{bmatrix} \),它是对称的(自伴),故 SVD 退化为特征分解:左右奇异向量相同。但在一般矩阵中(如非对称),左右奇异向量不同,正体现了域与值域的独立结构。例如,考虑 \( A = \begin{bmatrix} 1 & 0 \\ 0 & 0 \end{bmatrix} \),右奇异向量捕捉“有效输入方向”,左奇异向量捕捉“投影输出”。
总之,奇异向量的本质在于它们桥接了线性变换的域与值域,通过谱定理提供“最优”正交框架,使变换简化为对角形式。这不仅是计算工具,更是理解线性结构的核心定理。如果你需要特定证明、推广到复域,或代码验证(如 SymPy 计算抽象 SVD),可以进一步询问。
vector norm
Minkowski
常见的有 \(1\), \(2\), \(\infty\) 范数, 分别对应 minkowski 距离的特例, 即 manhattan 距离, Euclid 距离, Chebyshev 距离
范数之间关系:
第二个的左半:
两个右半都是基本不等式
matrix norm
Minkowski (Operator Norm)
Frobenius (Entrywise Norm)
Gram Matrix and Scatter Matrix
对于 \(X\in \mathbb R^{d\times n}\):
Gram
\(G=X^\top X\in \mathbb R^{n\times n}\): 样本内积矩阵, 描述样本间的相似性
\(G_{i,j}=x_i^\top x_j=\sum_{k=1}^d x_i^kx_j^k\), 即第 \(i\) 个特征和第 \(j\) 个特征遍历 \(n\) 个特征求出的相似度
相当于两个样本做内积, 与 cosine similarity 类似
Scatter
\(S=XX^\top\in \mathbb{R}^{d\times d}\): 协方差型矩阵, 描述特征间的相似性
协方差矩阵 \(XX^\top=\frac{1}{n}\sum_{i=1}^n (x-\mu)(x-\mu)^\top\)
\(S_{i,j}=\sum_{k=1}^n x_{k}^ix_{k}^j\), 即第 \(i\) 个特征和第 \(j\) 个特征遍历 \(n\) 个数据求出的协方差
connections
非零特征值相同
对于奇异值分解:
\(X=U\Sigma V^\top,XX^\top=U\Sigma\Sigma^\top U^\top, X^\top X=V\Sigma^\top \Sigma V^\top\)
0
任意向量空间都至少包含全 \(0\) 向量
空向量组 \(()\) 张成空间为 \(\set{0}\)