LASummary

	奇异值	特征值
定义	\(AA^T\) 特征值的平方根	\(A\) 的特征值
适用	\(A\) 任意矩阵	\(A\) 方阵
几何意义	描述矩阵对空间的缩放	描述矩阵对空间的旋转和缩放
求解	解 \(Av=\lambda v\)	奇异值分解: \(A=U\Sigma V^T\)
变换	仅在特征向量 \(v\) 方向进行比例系数为特征值 \(\lambda\) 的缩放	在左右奇异向量 \(U,V^T\) 上进行旋转, 在奇异值矩阵 \(\Sigma\) 上进行缩放
符号	非负	可正, 可负, 可复数

SVD

计算\(A^TA\), 特征向量组成 \(V^T\) 的列

计算\(AA^T\), 特征向量组成 \(U\) 的列

设 \(A=\left[ \begin{array}{cc}1&4 \\ 4&1\end{array}\right]\)

奇异值 \(\sigma_1=5,\sigma_2=3\)

\(U=V=\left[ \begin{array}{cc}\frac{1}{\sqrt 2}&\frac{1}{\sqrt 2} \\ \frac{1}{\sqrt 2}&-\frac{1}{\sqrt 2}\end{array}\right]\)

用代码观察:

import numpy as np
import matplotlib.pyplot as plt

# 构造矩阵 A
A = np.array([[1, 4], [4, 1]])

# 生成单位圆上的点
theta = np.linspace(0, 2*np.pi, 100)
circle = np.array([np.cos(theta), np.sin(theta)])

# 应用变换
transformed = A @ circle

# 画图
plt.figure(figsize=(6,6))
plt.plot(circle[0], circle[1], label='Unit Circle', color='blue')
plt.plot(transformed[0], transformed[1], label='Transformed Ellipse', color='red')
plt.axis('equal')
plt.title("Unit Circle → Ellipse under Matrix A")
plt.legend()
plt.grid(True)
plt.show()

https://www.ams.org/publicoutreach/feature-column/fcarc-svd

SVD 中奇异向量的抽象线性代数解释

奇异值分解 (SVD) 可以从抽象线性代数的视角进行更深层的解释，这超越了单纯的数值计算，转而强调向量空间、内积空间、自伴算子（self-adjoint operators）和谱定理（spectral theorem）的本质结构。以下我将基于有限维内积空间（finite-dimensional inner product spaces，通常是欧几里得空间 ℝ^m 和 ℝ^n 配备标准内积）来阐述，突出奇异向量的“本质”意义：它们揭示了线性变换的“内在对称性”和“主方向”，类似于对称矩阵的对角化，但适用于任意矩形矩阵。

1. 线性变换的视角：域空间与值域空间的协调基

考虑一个矩阵 \( A \in \mathbb{R}^{m \times n} \) 作为从向量空间 \( V = \mathbb{R}^n \) 到 \( W = \mathbb{R}^m \) 的线性变换 \( T: V \to W \)，其中 \( V \) 和 \( W \) 都是内积空间。

右奇异向量（V 的列）：这些向量形成 \( V \) 的一个标准正交基（orthonormal basis），使得变换 \( T \) 在这个基上的行为“简单化”。具体来说，右奇异向量 \( v_1, \dots, v_n \) 是自伴算子 \( T^* T: V \to V \)（其中 \( T^* = A^T \) 是伴随算子）的特征向量。这里，\( T^* T \) 是正半定自伴算子（positive semi-definite self-adjoint operator），因此根据谱定理，它可以对角化：\( T^* T v_i = \lambda_i v_i \)，其中 \( \lambda_i = \sigma_i^2 \geq 0 \)（\( \sigma_i \) 是奇异值）。
本质意义：右奇异向量定义了 \( V \) 的“主轴”（principal axes），沿这些轴，变换 \( T \) 的“能量”或“拉伸”被最大化。几何上，这类似于椭球的轴：\( \|T v\| \) 在单位球面上的最大值对应最大奇异向量。更抽象地说，它们将 \( V \) 分解为正交直和 \( V = \ker(T^* T) \oplus \bigoplus_{i: \sigma_i > 0} \operatorname{span}\{v_i\} \)，其中零奇异值对应核空间（kernel），非零部分对应有效变换方向。这体现了线性变换的“秩-零分解”（rank-nullity theorem）的谱版本。
左奇异向量（U 的列）：类似地，这些向量形成 \( W \) 的一个标准正交基，是自伴算子 \( T T^*: W \to W \) 的特征向量：\( T T^* u_i = \lambda_i u_i \)。
本质意义：左奇异向量定义了 \( W \) 的“主轴”，它们是变换图像（image of T）的正交基。关键关系是 \( T v_i = \sigma_i u_i \)（对于 \( \sigma_i > 0 \)），这意味着变换 \( T \) 将右奇异向量“映射”到左奇异向量，仅通过缩放因子 \( \sigma_i \)。这协调了域和值域的空间结构：SVD 本质上是找到一对“匹配”的正交基，使得 \( T \) 在这些基下的矩阵表示为对角形式（Σ）。在抽象terms中，这类似于将线性变换“对角化”在非对称情况下，通过引入两个不同的基来实现。

总体上，SVD 是谱定理在非自伴算子上的推广：虽然 \( T \) 本身可能不是自伴的（非方阵），但 \( T^* T \) 和 \( T T^* \) 是，从而允许我们“间接”对角化 \( T \)。这揭示了任意线性变换的“极分解”（polar decomposition）：\( A = U_p P \)，其中 \( P = V \Sigma V^T \) 是正半定矩阵（“幅度”部分），\( U_p = U V^T \) 是部分等距（partial isometry，“相位”部分）。在复数域上，这类似于单位分解，但实数域强调正交性。

2. 向量空间分解的视角：正交直和与秩

从抽象代数看，SVD 诱导了以下向量空间的精细分解： - \( V = \ker(T) \oplus \operatorname{im}(T^*) \)（由右奇异向量支撑，其中零奇异值对应 \( \ker(T) = \ker(T^* T) \)，非零对应 \( \operatorname{im}(T^*) \)）。 - \( W = \ker(T^*) \oplus \operatorname{im}(T) \)（类似，由左奇异向量支撑）。 - 秩 \( r = \operatorname{rank}(T) \) 等于非零奇异值的数量，这直接源于特征值的非负性。

这比单纯的行/列空间更本质：奇异向量不仅给出基，还给出“有序”基，按奇异值降序排列，量化每个子空间的“重要性”（例如，在主成分分析 PCA 中，右奇异向量即主成分，奇异值即方差）。

3. 内积与范数的本质：Frobenius 范数与核范数

更深层地，奇异值捕捉了变换的“范数”本质： - \( \|A\|_2 = \sigma_1 \)（谱范数，最大拉伸）。 - \( \|A\|_F = \sqrt{\sum \sigma_i^2} \)（Frobenius 范数）。 - \( \|A\|_* = \sum \sigma_i \)（核范数，用于低秩逼近）。

抽象地说，奇异向量将矩阵空间 \( \mathbb{R}^{m \times n} \)（作为内积空间，配备 Frobenius 内积 \( \langle A, B \rangle = \operatorname{tr}(A^T B) \)）的元素分解为“秩一”矩阵的正交和：\( A = \sum_{i=1}^r \sigma_i u_i v_i^T \)。每个 \( u_i v_i^T \) 是秩一算子，奇异向量确保这些算子的“正交性”（在矩阵内积下）。

4. 推广到更抽象设置

Hilbert 空间：在无限维内积空间中，SVD 推广为紧致算子的谱分解（compact operators），奇异向量成为希尔伯特基的子集。这在函数分析中用于积分方程或偏微分方程。
模范畴（module category）：在抽象代数中，SVD 类似于自由模的 Smith 标准形（Smith normal form），但针对内积结构。更一般地，在表示论中，它对应于半单李代数的 Cartan 分解，但这可能超出有限维线性代数。
范畴论视角（更高级）：SVD 可以视为线性范畴中态射的“正交对角化”函子，但这较为抽象，通常不直接用于解释奇异向量。

5. 与数值例子的联系

回顾你之前的 2x2 矩阵 \( A = \begin{bmatrix} 3 & 1 \\ 1 & 3 \end{bmatrix} \)，它是对称的（自伴），故 SVD 退化为特征分解：左右奇异向量相同。但在一般矩阵中（如非对称），左右奇异向量不同，正体现了域与值域的独立结构。例如，考虑 \( A = \begin{bmatrix} 1 & 0 \\ 0 & 0 \end{bmatrix} \)，右奇异向量捕捉“有效输入方向”，左奇异向量捕捉“投影输出”。

总之，奇异向量的本质在于它们桥接了线性变换的域与值域，通过谱定理提供“最优”正交框架，使变换简化为对角形式。这不仅是计算工具，更是理解线性结构的核心定理。如果你需要特定证明、推广到复域，或代码验证（如 SymPy 计算抽象 SVD），可以进一步询问。

vector norm

Minkowski

\[||x||_p=(|x_1|^p+|x_2|^p+\cdots +|x_n|^p)^{\frac 1p}\]

常见的有 \(1\), \(2\), \(\infty\) 范数, 分别对应 minkowski 距离的特例, 即 manhattan 距离, Euclid 距离, Chebyshev 距离

\[||x||_1=\sum_{i=1}^n|x_i|,||x||_2=\sqrt{\sum_{i=1}^nx_i^2},||x||_\infty=\max_{i=1}^n |x_i|\]

范数之间关系:

\[||x||_\infty\leq ||x||_2\leq \sqrt n ||x||_\infty\]

\[||x||_2\leq ||x||_1\leq \sqrt n||x||_2\]

第二个的左半:

\[||x||_1^2=\sum_{i}|x_i|^2+\sum_{i,j}2|x_i||x_j|\geq \sum_{i}|x_i|^2=||x||_2^2\]

两个右半都是基本不等式

matrix norm

Minkowski (Operator Norm)

Frobenius (Entrywise Norm)

\[||A||_F=\sqrt{\sum_{i=1}^m\sum_{j=1}^n |a_{i,j}|^2}=\sqrt{\mathrm{tr}(A^\top A)}\]

Gram Matrix and Scatter Matrix

对于 \(X\in \mathbb R^{d\times n}\):

Gram

\(G=X^\top X\in \mathbb R^{n\times n}\): 样本内积矩阵, 描述样本间的相似性

\(G_{i,j}=x_i^\top x_j=\sum_{k=1}^d x_i^kx_j^k\), 即第 \(i\) 个特征和第 \(j\) 个特征遍历 \(n\) 个特征求出的相似度

相当于两个样本做内积, 与 cosine similarity 类似

Scatter

\(S=XX^\top\in \mathbb{R}^{d\times d}\): 协方差型矩阵, 描述特征间的相似性

协方差矩阵 \(XX^\top=\frac{1}{n}\sum_{i=1}^n (x-\mu)(x-\mu)^\top\)

\(S_{i,j}=\sum_{k=1}^n x_{k}^ix_{k}^j\), 即第 \(i\) 个特征和第 \(j\) 个特征遍历 \(n\) 个数据求出的协方差

connections

非零特征值相同

对于奇异值分解:

\(X=U\Sigma V^\top,XX^\top=U\Sigma\Sigma^\top U^\top, X^\top X=V\Sigma^\top \Sigma V^\top\)

0

任意向量空间都至少包含全 \(0\) 向量

空向量组 \(()\) 张成空间为 \(\set{0}\)