Skip to content

LASummary

奇异值 特征值
定义 \(AA^T\) 特征值的平方根 \(A\) 的特征值
适用 \(A\) 任意矩阵 \(A\) 方阵
几何意义 描述矩阵对空间的缩放 描述矩阵对空间的旋转和缩放
求解 \(Av=\lambda v\) 奇异值分解: \(A=U\Sigma V^T\)
变换 仅在特征向量 \(v\) 方向进行比例系数为特征值 \(\lambda\) 的缩放 在左右奇异向量 \(U,V^T\) 上进行旋转, 在奇异值矩阵 \(\Sigma\) 上进行缩放
符号 非负 可正, 可负, 可复数

SVD

计算\(A^TA\), 特征向量组成 \(V^T\) 的列

计算\(AA^T\), 特征向量组成 \(U\) 的列

\(A=\left[ \begin{array}{cc}1&4 \\ 4&1\end{array}\right]\)

奇异值 \(\sigma_1=5,\sigma_2=3\)

\(U=V=\left[ \begin{array}{cc}\frac{1}{\sqrt 2}&\frac{1}{\sqrt 2} \\ \frac{1}{\sqrt 2}&-\frac{1}{\sqrt 2}\end{array}\right]\)

用代码观察:

import numpy as np
import matplotlib.pyplot as plt

# 构造矩阵 A
A = np.array([[1, 4], [4, 1]])

# 生成单位圆上的点
theta = np.linspace(0, 2*np.pi, 100)
circle = np.array([np.cos(theta), np.sin(theta)])

# 应用变换
transformed = A @ circle

# 画图
plt.figure(figsize=(6,6))
plt.plot(circle[0], circle[1], label='Unit Circle', color='blue')
plt.plot(transformed[0], transformed[1], label='Transformed Ellipse', color='red')
plt.axis('equal')
plt.title("Unit Circle → Ellipse under Matrix A")
plt.legend()
plt.grid(True)
plt.show()
https://www.ams.org/publicoutreach/feature-column/fcarc-svd

SVD 中奇异向量的抽象线性代数解释

奇异值分解 (SVD) 可以从抽象线性代数的视角进行更深层的解释,这超越了单纯的数值计算,转而强调向量空间、内积空间、自伴算子(self-adjoint operators)和谱定理(spectral theorem)的本质结构。以下我将基于有限维内积空间(finite-dimensional inner product spaces,通常是欧几里得空间 ℝ^m 和 ℝ^n 配备标准内积)来阐述,突出奇异向量的“本质”意义:它们揭示了线性变换的“内在对称性”和“主方向”,类似于对称矩阵的对角化,但适用于任意矩形矩阵。

1. 线性变换的视角:域空间与值域空间的协调基

考虑一个矩阵 \( A \in \mathbb{R}^{m \times n} \) 作为从向量空间 \( V = \mathbb{R}^n \)\( W = \mathbb{R}^m \) 的线性变换 \( T: V \to W \),其中 \( V \)\( W \) 都是内积空间。

  • 右奇异向量(V 的列):这些向量形成 \( V \) 的一个标准正交基(orthonormal basis),使得变换 \( T \) 在这个基上的行为“简单化”。具体来说,右奇异向量 \( v_1, \dots, v_n \) 是自伴算子 \( T^* T: V \to V \)(其中 \( T^* = A^T \) 是伴随算子)的特征向量。这里,\( T^* T \) 是正半定自伴算子(positive semi-definite self-adjoint operator),因此根据谱定理,它可以对角化:\( T^* T v_i = \lambda_i v_i \),其中 \( \lambda_i = \sigma_i^2 \geq 0 \)\( \sigma_i \) 是奇异值)。
  • 本质意义:右奇异向量定义了 \( V \) 的“主轴”(principal axes),沿这些轴,变换 \( T \) 的“能量”或“拉伸”被最大化。几何上,这类似于椭球的轴:\( \|T v\| \) 在单位球面上的最大值对应最大奇异向量。更抽象地说,它们将 \( V \) 分解为正交直和 \( V = \ker(T^* T) \oplus \bigoplus_{i: \sigma_i > 0} \operatorname{span}\{v_i\} \),其中零奇异值对应核空间(kernel),非零部分对应有效变换方向。这体现了线性变换的“秩-零分解”(rank-nullity theorem)的谱版本。

  • 左奇异向量(U 的列):类似地,这些向量形成 \( W \) 的一个标准正交基,是自伴算子 \( T T^*: W \to W \) 的特征向量:\( T T^* u_i = \lambda_i u_i \)

  • 本质意义:左奇异向量定义了 \( W \) 的“主轴”,它们是变换图像(image of T)的正交基。关键关系是 \( T v_i = \sigma_i u_i \)(对于 \( \sigma_i > 0 \)),这意味着变换 \( T \) 将右奇异向量“映射”到左奇异向量,仅通过缩放因子 \( \sigma_i \)。这协调了域和值域的空间结构:SVD 本质上是找到一对“匹配”的正交基,使得 \( T \) 在这些基下的矩阵表示为对角形式(Σ)。在抽象terms中,这类似于将线性变换“对角化”在非对称情况下,通过引入两个不同的基来实现。

总体上,SVD 是谱定理在非自伴算子上的推广:虽然 \( T \) 本身可能不是自伴的(非方阵),但 \( T^* T \)\( T T^* \) 是,从而允许我们“间接”对角化 \( T \)。这揭示了任意线性变换的“极分解”(polar decomposition):\( A = U_p P \),其中 \( P = V \Sigma V^T \) 是正半定矩阵(“幅度”部分),\( U_p = U V^T \) 是部分等距(partial isometry,“相位”部分)。在复数域上,这类似于单位分解,但实数域强调正交性。

2. 向量空间分解的视角:正交直和与秩

从抽象代数看,SVD 诱导了以下向量空间的精细分解: - \( V = \ker(T) \oplus \operatorname{im}(T^*) \)(由右奇异向量支撑,其中零奇异值对应 \( \ker(T) = \ker(T^* T) \),非零对应 \( \operatorname{im}(T^*) \))。 - \( W = \ker(T^*) \oplus \operatorname{im}(T) \)(类似,由左奇异向量支撑)。 - 秩 \( r = \operatorname{rank}(T) \) 等于非零奇异值的数量,这直接源于特征值的非负性。

这比单纯的行/列空间更本质:奇异向量不仅给出基,还给出“有序”基,按奇异值降序排列,量化每个子空间的“重要性”(例如,在主成分分析 PCA 中,右奇异向量即主成分,奇异值即方差)。

3. 内积与范数的本质:Frobenius 范数与核范数

更深层地,奇异值捕捉了变换的“范数”本质: - \( \|A\|_2 = \sigma_1 \)(谱范数,最大拉伸)。 - \( \|A\|_F = \sqrt{\sum \sigma_i^2} \)(Frobenius 范数)。 - \( \|A\|_* = \sum \sigma_i \)(核范数,用于低秩逼近)。

抽象地说,奇异向量将矩阵空间 \( \mathbb{R}^{m \times n} \)(作为内积空间,配备 Frobenius 内积 \( \langle A, B \rangle = \operatorname{tr}(A^T B) \))的元素分解为“秩一”矩阵的正交和:\( A = \sum_{i=1}^r \sigma_i u_i v_i^T \)。每个 \( u_i v_i^T \) 是秩一算子,奇异向量确保这些算子的“正交性”(在矩阵内积下)。

4. 推广到更抽象设置

  • Hilbert 空间:在无限维内积空间中,SVD 推广为紧致算子的谱分解(compact operators),奇异向量成为希尔伯特基的子集。这在函数分析中用于积分方程或偏微分方程。
  • 模范畴(module category):在抽象代数中,SVD 类似于自由模的 Smith 标准形(Smith normal form),但针对内积结构。更一般地,在表示论中,它对应于半单李代数的 Cartan 分解,但这可能超出有限维线性代数。
  • 范畴论视角(更高级):SVD 可以视为线性范畴中态射的“正交对角化”函子,但这较为抽象,通常不直接用于解释奇异向量。

5. 与数值例子的联系

回顾你之前的 2x2 矩阵 \( A = \begin{bmatrix} 3 & 1 \\ 1 & 3 \end{bmatrix} \),它是对称的(自伴),故 SVD 退化为特征分解:左右奇异向量相同。但在一般矩阵中(如非对称),左右奇异向量不同,正体现了域与值域的独立结构。例如,考虑 \( A = \begin{bmatrix} 1 & 0 \\ 0 & 0 \end{bmatrix} \),右奇异向量捕捉“有效输入方向”,左奇异向量捕捉“投影输出”。

总之,奇异向量的本质在于它们桥接了线性变换的域与值域,通过谱定理提供“最优”正交框架,使变换简化为对角形式。这不仅是计算工具,更是理解线性结构的核心定理。如果你需要特定证明、推广到复域,或代码验证(如 SymPy 计算抽象 SVD),可以进一步询问。

vector norm

Minkowski

\[||x||_p=(|x_1|^p+|x_2|^p+\cdots +|x_n|^p)^{\frac 1p}\]

常见的有 \(1\), \(2\), \(\infty\) 范数, 分别对应 minkowski 距离的特例, 即 manhattan 距离, Euclid 距离, Chebyshev 距离

\[||x||_1=\sum_{i=1}^n|x_i|,||x||_2=\sqrt{\sum_{i=1}^nx_i^2},||x||_\infty=\max_{i=1}^n |x_i|\]

范数之间关系:

\[||x||_\infty\leq ||x||_2\leq \sqrt n ||x||_\infty\]
\[||x||_2\leq ||x||_1\leq \sqrt n||x||_2\]

第二个的左半:

\[||x||_1^2=\sum_{i}|x_i|^2+\sum_{i,j}2|x_i||x_j|\geq \sum_{i}|x_i|^2=||x||_2^2\]

两个右半都是基本不等式

matrix norm

Minkowski (Operator Norm)

Frobenius (Entrywise Norm)

\[||A||_F=\sqrt{\sum_{i=1}^m\sum_{j=1}^n |a_{i,j}|^2}=\sqrt{\mathrm{tr}(A^\top A)}\]

Gram Matrix and Scatter Matrix

对于 \(X\in \mathbb R^{d\times n}\):

Gram

\(G=X^\top X\in \mathbb R^{n\times n}\): 样本内积矩阵, 描述样本间的相似性

\(G_{i,j}=x_i^\top x_j=\sum_{k=1}^d x_i^kx_j^k\), 即第 \(i\) 个特征和第 \(j\) 个特征遍历 \(n\) 个特征求出的相似度

相当于两个样本做内积, 与 cosine similarity 类似

Scatter

\(S=XX^\top\in \mathbb{R}^{d\times d}\): 协方差型矩阵, 描述特征间的相似性

协方差矩阵 \(XX^\top=\frac{1}{n}\sum_{i=1}^n (x-\mu)(x-\mu)^\top\)

\(S_{i,j}=\sum_{k=1}^n x_{k}^ix_{k}^j\), 即第 \(i\) 个特征和第 \(j\) 个特征遍历 \(n\) 个数据求出的协方差

connections

非零特征值相同

对于奇异值分解:

\(X=U\Sigma V^\top,XX^\top=U\Sigma\Sigma^\top U^\top, X^\top X=V\Sigma^\top \Sigma V^\top\)

0

任意向量空间都至少包含全 \(0\) 向量

空向量组 \(()\) 张成空间为 \(\set{0}\)