矩阵的相似与对角化
矩阵的相似
定义:设$\boldsymbol{A},\boldsymbol{B}$都是$n$阶方阵,若有可逆矩阵$\boldsymbol{P}$,使得:
$\begin{align}\boldsymbol{B}=\boldsymbol{P}^{-1}\boldsymbol{A}\boldsymbol{P}\end{align}$
则称$\boldsymbol{P}$为相似变换矩阵(Similarity transformation matrix),称$\boldsymbol{B}$是$\boldsymbol{A}$的相似矩阵(Similar matrix),记作:
$\begin{align}\boldsymbol{A}\simeq \boldsymbol{B}\end{align}$
简单解释下上述定义,如果$\boldsymbol{A}$和$\boldsymbol{B}$是相似矩阵,那么两者实际上是同一个线性映射在不同基下的代数表示:
再严谨点的话,应该说相似矩阵是特殊的、同一个线性映射在不同基下的代数表示。这里有两层意思:
- 什么是“同一个线性映射在不同基下的代数表示”?
- 为什么说“相似矩阵是特殊的”同一个线性映射在不同基下的代数表示?
下面是更详细的解释。
同一个线性映射在不同基下的代数表示
比如某线性映射如下,其作用是将向量$\boldsymbol{x}$映射为向量$\boldsymbol{y}$:
在自然基下,上述向量的坐标分别是$[\boldsymbol{x}]\mathcal{E}$和$[\boldsymbol{y}]\mathcal{E}$,上述线性映射可用矩阵$\boldsymbol{A}$来表示,即有$\boldsymbol{A}[\boldsymbol{x}]\mathcal{E}=[\boldsymbol{y}]\mathcal{E}$。或者图示如下:
或者在基$\mathcal{P}$,上述向量的坐标分别是$[\boldsymbol{x}]\mathcal{P}$和$[\boldsymbol{y}]\mathcal{P}$,上述线性映射可用矩阵$\boldsymbol{B}$来表示,即有$\boldsymbol{B}[\boldsymbol{x}]\mathcal{P}=[\boldsymbol{y}]\mathcal{P}$。或者图示如下:
上面的矩阵$\boldsymbol{A}$和矩阵$\boldsymbol{B}$就是同一个线性映射在不同基下的代数表示。
相似矩阵
如果存在可逆矩阵$\boldsymbol{P}$,也就是存在过渡矩阵$\boldsymbol{P}$,通过坐标变换公式有:
$\begin{align}[\boldsymbol{x}]\mathcal{E}=\boldsymbol{P}[\boldsymbol{x}]\mathcal{P},\quad [\boldsymbol{y}]\mathcal{P}=\boldsymbol{P}^{-1}[\boldsymbol{y}]\mathcal{E}\end{align}$
那么矩阵$\boldsymbol{A}$和矩阵$\boldsymbol{B}$就可通过过渡矩阵$\boldsymbol{P}$联系起来,此时$\boldsymbol{A}$和$\boldsymbol{B}$就是相似矩阵:
对角化
如果$n$阶方阵$A$有$n$个线性无关的特征向量$\boldsymbol{p_1},\boldsymbol{p_2},\cdots,\boldsymbol{p_n}$,那么如下矩阵:
$\begin{align}P=(\boldsymbol{p_1},\boldsymbol{p_2},\cdots,\boldsymbol{p_n})\end{align}$
可以使得:
$\begin{align}A=P\Lambda P^{-1}\end{align}$
其中$\Lambda$为如下对角阵
$\begin{align}\Lambda=\left(\begin{array}{llll}\lambda{1} & & & \ & \lambda{2} & & \ & & \ddots & \ & & & \lambda_{n}\end{array}\right)\end{align}$
其中的$\lambda_1,\lambda_2,\cdots,\lambda_n$为特征向量$\boldsymbol{p_1},\boldsymbol{p_2},\cdots,\boldsymbol{p_n}$对应的特征值,该过程称为对角化(Diagonalizable)。
查看详情
已知:
$\begin{align}P=(\boldsymbol{p_1},\boldsymbol{p_2},\cdots,\boldsymbol{p_n})\end{align}$
根据矩阵乘法列观点、矩阵乘法的定义以及特征值和特征向量的定义,可得:
$\begin{align}\begin{aligned} AP &=A(\boldsymbol{p1},\boldsymbol{p_2},\cdots,\boldsymbol{p_n})=(A\boldsymbol{p_1},A\boldsymbol{p_2},\cdots,A\boldsymbol{p_n})\\ &=(\lambda_1\boldsymbol{p_1},\lambda_2\boldsymbol{p_2},\cdots,\lambda_n\boldsymbol{p_n})\\ &=(\boldsymbol{p_1},\boldsymbol{p_2},\cdots,\boldsymbol{p_n})\left(\begin{array}{llll}\lambda{1} & & & \ & \lambda{2} & & \ & & \ddots & \ & & & \lambda{n}\end{array}\right)\ \end{aligned}\end{align}$
令$\Lambda=\left(\begin{array}{llll}\lambda{1} & & & \ & \lambda{2} & & \ & & \ddots & \ & & & \lambda_{n}\end{array}\right)$,上式可以改写为:
$\begin{align}AP=P\Lambda\end{align}$
因为特征向量$\boldsymbol{p_1},\boldsymbol{p_2},\cdots,\boldsymbol{p_n}$线性无关,所以$P$是可逆的,因此可以给上式两侧同时右乘逆矩阵$P^{-1}$,得:
$\begin{align}A=P\Lambda P^{-1}\end{align}$
除了向量空间$\mathbb{R}^n$的自然基$\mathcal{E}$:
$\begin{align}\mathcal{E}={\boldsymbol{e_1},\boldsymbol{e_2},\cdots,\boldsymbol{e_n}}\end{align}$
因为$\boldsymbol{p_1},\boldsymbol{p_2},\cdots,\boldsymbol{p_n}$是$n$个线性无关的特征向量,所以它是向量空间$\mathbb{R}^n$的另外一个基$\mathcal{P}$:
$\begin{align}\mathcal{P}={\boldsymbol{p_1},\boldsymbol{p_2},\cdots,\boldsymbol{p_n}}\end{align}$
那么上面提到的$P=(\boldsymbol{p_1},\boldsymbol{p_2},\cdots,\boldsymbol{p_n})$就是由自然基$\mathcal{E}$到基$\mathcal{P}$的过渡矩阵。所以根据之前学习的相似矩阵,对角化实际上是将自然基$\mathcal{E}$下的$A$转为了基$\mathcal{P}$下的$\Lambda$:
举例说明
举一个例子来进一步说明下求解的过程:
(1)先求出矩阵$A=\begin{pmatrix}0.95&0.03\0.05&0.97\end{pmatrix}$的特征值和对应的特征向量为:
$\begin{align}\lambda1=1,\quad\lambda_2=0.92\\boldsymbol{p}{1}=\begin{pmatrix}3\5\end{pmatrix},\quad \boldsymbol{p}_{2}=\begin{pmatrix}1\-1\end{pmatrix}\end{align}$
因为$\lambda1\ne\lambda_2$,根据不同特征值对应的特征向量线性无关,所以$\boldsymbol{p}{1}$和$\boldsymbol{p}_{2}$肯定线性无关,所以$A$是可以对角化的。
(2)然后构造:
$\begin{align}P=(\boldsymbol{p}1,\boldsymbol{p}{2})=\begin{pmatrix}3&1\5&-1\end{pmatrix}\end{align}$
就可以完成对角化了:
$\begin{align}A=P\Lambda P^{-1}\end{align}$
其中对角阵$\Lambda$就是由特征值构成的:
$\begin{align}\Lambda=\begin{pmatrix}\lambda_1&0\0&\lambda_2\end{pmatrix}=\begin{pmatrix}1&0\0&0.92\end{pmatrix}\end{align}$
(3)注意,对角化的结果并不唯一。如果像下面这样构造:
$\begin{align}P=(\boldsymbol{p}2,\boldsymbol{p}{1})=\begin{pmatrix}1&3\-1&5\end{pmatrix}\end{align}$
那么需要修改下$\Lambda$:
$\begin{align}\Lambda=\begin{pmatrix}\lambda_2&0\0&\lambda_1\end{pmatrix}=\begin{pmatrix}0.92&0\0&1\end{pmatrix}\end{align}$
也可以使得$A=P\Lambda P^{-1}$成立。
计算$A^n$
还是上面提到的矩阵$A=\begin{pmatrix}0.95&0.03\0.05&0.97\end{pmatrix}$,可以看到$A^n$很不好计算:
$\begin{align}\begin{aligned} A^n &=\underbrace{\begin{pmatrix}0.95&0.03\0.05&0.97\end{pmatrix}\begin{pmatrix}0.95&0.03\0.05&0.97\end{pmatrix}\cdots\begin{pmatrix}0.95&0.03\0.05&0.97\end{pmatrix}}{\large n}\ &=\underbrace{\begin{pmatrix}0.904&0.0576\0.096&0.9424\end{pmatrix}\begin{pmatrix}0.95&0.03\0.05&0.97\end{pmatrix}\cdots\begin{pmatrix}0.95&0.03\0.05&0.97\end{pmatrix}}{\large n-1}\ &=\underbrace{\begin{pmatrix}0.86168&0.082992\0.13832&0.917008\end{pmatrix}\begin{pmatrix}0.95&0.03\0.05&0.97\end{pmatrix}\cdots\begin{pmatrix}0.95&0.03\0.05&0.97\end{pmatrix}}_{\large n-2}\ &=\color{red}{?} \end{aligned}\end{align}$
不过像上面一样将的$A$对角化后,即:
$\begin{align}A=P\Lambda P^{-1}=P\begin{pmatrix}1&0\0&0.92\end{pmatrix}P^{-1}\end{align}$
那么:
$\begin{align}\begin{aligned} A^n &=\left(P\Lambda P^{-1}\right)^n\ &=P\Lambda P^{-1}P\Lambda P^{-1}\cdots P\Lambda P^{-1} &&P\Lambda P^{-1}=I\ &=P\Lambda^n P^{-1} \end{aligned}\end{align}$
而对角阵的$n$次方是很好计算的,所以:
$\begin{align}A^n=P\Lambda^n P^{-1}=P\begin{pmatrix}1^n&0\0&0.92^n\end{pmatrix}P^{-1}\end{align}$
或者从相似矩阵的角度来理解,通过将自然基$\mathcal{E}$下的$A^n$转为了基$\mathcal{P}$下的$\Lambda^n$,从而将问题简化了:
解题方式
$n$阶矩阵$\boldsymbol{A}$可相似对角化$\Leftrightarrow \boldsymbol{A}$有$n$个线性无关的特征向量
$n$矩阵$\boldsymbol{A}$可相似对角化$\Leftrightarrow \boldsymbol{A}$对应于每个$k{i}$重特征值都有$k{i}$个线性无关的特征向量
比如: 6阶矩阵$A{6}$ ,
$\begin{align}\begin{array}{|c|c|c|c|}
\hline 特征值 & \mathbf{1 , 1 , 1} & \mathbf{2 , 2} & \mathbf{3} \
\hline 特征向量 & \alpha{1}, \alpha{2}, \alpha{3} & \beta{1}, \beta{2} & \gamma \
\hline
\end{array}\end{align}$其中$\alpha{1}, \alpha{2}, \alpha{3}$线性无关,$\beta{1}, \beta_{2}$线性无关,$\gamma$线性无关$(\gamma \neq 0)$
对于矩阵$\boldsymbol{A}$的每个$k{i}$重特征值$\lambda{i}$,都有$\mathrm{r}\left(\lambda{i} E-A\right)=n-k{i}$
比如: 6阶矩阵$A_{6}$,
$\begin{align}\begin{array}{|c|c|c|c|}
\hline 特征值 & \mathbf{1 , 1 , 1}(这个是重根) & \mathbf{2 , 2}(这个是重根) & \mathbf{3} \
\hline 秩 & \mathrm{r}(1 \cdot E-A)=3 & \mathrm{r}(2 E-A)=4 & \mathrm{r}(3 E-A)=5 \
\hline
\end{array}\end{align}$$n$阶矩阵$\boldsymbol{A}$有$n$个不同特征值$\Rightarrow \boldsymbol{A}$可相似对角化
$n$阶矩阵$\boldsymbol{A}$为实对称矩阵$\Rightarrow \boldsymbol{A}$可相似对角化。这个就是实对称矩阵(主对角线对称)$\boldsymbol{A}=\left(\begin{array}{lll}
0 & 0 & 1 \
0 & 1 & 0 \
1 & 0 & 0
\end{array}\right)$,$\boldsymbol{A}=\left(\begin{array}{lll}
1 & 2 & 3 \
2 & 5 & 6 \
3 & 6 & 7
\end{array}\right)$矩阵的秩为1,$\mathrm{r}(A)=1$,($\operatorname{tr}(A)$表示A的跡)
$\begin{align}\begin{array}{|c|c|}
\hline \operatorname{tr}(A) \neq 0 & \operatorname{tr}(A)=0 \
\hline \text { 可以相似对角化 } & \text { 不可相似对角化 } \
\hline
\end{array}\end{align}$
以上1、2、3为$\boldsymbol{A}$可相似对角化的充要条件;4、5、6为$\boldsymbol{A}$可相似对角化的充分条件
例题
设$A=\left(\begin{array}{ccc}
2 & 2 & -2 \
2 & 5 & -4 \
-2 & -4 & 5
\end{array}\right)$,求可递$P$,使$P^{-1} A P=\Lambda$
解题步骤
1.通过给出的A,求$\lambda$与$\xi$
2.找到$n$个线性无关的特征向量
2.把这些特征向量组合成$P$,令$P=(\boldsymbol{\xi}{1}, \boldsymbol{\xi}{2}, \cdots, \boldsymbol{\xi}{n})$,验证$P^{-1}AP=\left(\begin{array}{llll}
\lambda{1} & & & \
& \lambda{2} & & \
& & \ddots & \
& & & \lambda{n}
\end{array}\right)$
由特征方程
$\begin{align}\begin{array}{l}
|\lambda \boldsymbol{E}-\boldsymbol{A}|=\left|\begin{array}{ccc}
\lambda-2 & -2 & 2 \
-2 & \lambda-5 & 4 \
2 & 4 & \lambda-5
\end{array}\right|=\left|\begin{array}{ccc}
\lambda-2 & -2 & 0 \
-2 & \lambda-5 & \lambda-1 \
2 & 4 & \lambda-1
\end{array}\right|=\left|\begin{array}{ccc}
\lambda-2 & -2 & 0 \
-4 & \lambda-9 & 0 \
2 & 4 & \lambda-1
\end{array}\right| \
=(\lambda-1)\left(\lambda^{2}-11 \lambda+10\right)=(\lambda-1)^{2}(\lambda-10)=0 \
\end{array}\end{align}$
知$\boldsymbol{A}$有特征值$\lambda{1}=\lambda{2}=1, \lambda_{3}=10$
当$\lambda{1}=\lambda{2}=1$时,有
$\begin{align}(\boldsymbol{E}-\boldsymbol{A}) \boldsymbol{x}=\left[\begin{array}{ccc}
-1 & -2 & 2 \
-2 & -4 & 4 \
2 & 4 & -4
\end{array}\right]\left[\begin{array}{l}
x{1} \
x{2} \
x_{3}
\end{array}\right]=\mathbf{0}\end{align}$
解得基础解系为$\boldsymbol{\xi}{1}=[-2,1,0]^{\mathrm{T}}, \boldsymbol{\xi}{2}=[2,0,1]^{\mathrm{T}}$,所以对应的两个线性无关的特征向量
当$\lambda_{3}=10$时,有
$\begin{align}(10 \boldsymbol{E}-\boldsymbol{A}) \boldsymbol{x}=\left[\begin{array}{ccc}
8 & -2 & 2 \
-2 & 5 & 4 \
2 & 4 & 5
\end{array}\right]\left[\begin{array}{l}
x{1} \
x{2} \
x_{3}
\end{array}\right]=\mathbf{0}\end{align}$
解得基础解系为$\xi_{3}=[1,2,-2]^{\mathrm{T}}$,所以对应的一个线性无关的特征向量
令$P=\left(\xi{1} \xi{2} \xi_{3}\right)=\left(\begin{array}{ccc}
-2 & 2 & 1 \
1 & 0 & 2 \
0 & 1 & -2
\end{array}\right)$
使$
P^{-1} A P=\left(\begin{array}{lll}
1&&\ & 1 & \
& & 10
\end{array}\right)$
或者
令$P^{\prime}=\left(\xi{3} \xi{1} \xi_{2}\right)=\left(\begin{array}{ccc}
1 & -2 & 2 \
2 & 1 & 0 \
-2 & 0 & 1
\end{array}\right)$
使$P^{1^{-1}} A P^{\prime}=\left(\begin{array}{lll}
10&&\ & 1 & \
& & 1
\end{array}\right)$
这两个答案都可以,区别就是$\xi{1} \xi{2} \xi_{3}$的位置和特征值的位置关系
判断下面4个矩阵,那个是不可对角化的
$\begin{align}D{1}=\left[\begin{array}{lll}2 & 1 & 0 \ 0 & 2 & 0 \ 0 & 0 & 4\end{array}\right], D{2}=\left[\begin{array}{lll}2 & 0 & 1 \ 0 & 2 & 0 \ 0 & 0 & 4\end{array}\right], D{3}=\left[\begin{array}{lll}2 & 0 & 0 \ 0 & 2 & 1 \ 0 & 0 & 4\end{array}\right], D{4}=\left[\begin{array}{lll}2 & 1 & 1 \ 0 & 2 & 0 \ 0 & 2 & 4\end{array}\right]\end{align}$
四个矩阵的特征值均为$2,2,4$,其中$\lambda=2$为二重根
$\begin{align}\begin{array}{|c|c|c|c|}
\hline D{1} & D{2} & D{3} & D{4} \
\hline \mathrm{r}\left(2 E-D{1}\right)=2 & \mathrm{r}\left(2 E-D{2}\right)=1 & \mathrm{r}\left(2 E-D{3}\right)=1 & \mathrm{r}\left(2 E-D{4}\right)=1 \
\hline 不可对角化 & 可对角化 & 可对角化 & 可对角化 \
\hline
\end{array}\end{align}$