[Quant 1.5] 矩陣微積分Matrix Calculus基礎 (2)

2022-07-28 08:47 作者:安平生一人好_ 0人讀過 | 我要投稿

資源是MIT 2020年的一節(jié)網(wǎng)課，教授是Alan Edelman

https://www.youtube.com/watch?v=oGZK3yGF-6k

我在B站沒找到搬運的資源，所以要看這個視頻需要??

還有一個問答的鏈接，我下面也提到了

https://math.stackexchange.com/questions/3724359/does-there-exist-a-gradient-chain-rule-for-this-case

我沒有把兩個專欄放在一起是因為B站要求專欄圖片不能超過100個。而公式還算圖片，我寫公式寫的太多了，所以兩部分分開發(fā)了。

3. Matrix到Scalar的函數(shù)梯度

假設有一個 $m%5Ctimes%20n$ 的矩陣A，這個矩陣A是一個變量

$A%20%3D%20%0A%5Cbegin%7Bpmatrix%7D%0AA_%7B11%7D%20%26%20%5Cldots%20%26%20A_%7B1n%7D%5C%5C%0A%5Cvdots%20%26%20%5Cddots%20%26%20%5Cvdots%5C%5C%0AA_%7Bm1%7D%20%26%20%5Cldots%20%26%20A_%7Bmn%7D%0A%5Cend%7Bpmatrix%7D$

函數(shù) $f%3A%20%5Cmathbb%7BR%7D%5E%7Bm%5Ctimes%20n%7D%20%5Crightarrow%20%5Cmathbb%7BR%7D$ 的梯度就是

$%5Cnabla_A%20f%20%3D%20%0A%5Cbegin%7Bpmatrix%7D%0A%5Cfrac%7B%5Cpartial%20f%7D%7B%5Cpartial%20A_%7B11%7D%7D%20%26%20%5Cldots%20%26%5Cfrac%7B%5Cpartial%20f%7D%7B%5Cpartial%20A_%7B1n%7D%7D%5C%5C%0A%5Cvdots%20%26%20%5Cddots%20%20%26%20%5Cvdots%20%5C%5C%0A%5Cfrac%7B%5Cpartial%20f%7D%7B%5Cpartial%20A_%7Bm1%7D%7D%20%26%20%5Cldots%20%26%20%5Cfrac%7B%5Cpartial%20f%7D%7B%5Cpartial%20A_%7Bmn%7D%7D%0A%5Cend%7Bpmatrix%7D$

舉個例子，假設現(xiàn)在的變量是一個 $2%5Ctimes%203$ 的矩陣A。函數(shù) $f%3A%20%5Cmathbb%7BR%7D%5E%7B2%5Ctimes3%7D%20%5Crightarrow%20%5Cmathbb%7BR%7D%20%5Cquad%20A%20%5Crightarrow%20A_%7B11%7D%5E2%20%2B2A_%7B13%7D%20-%20A_%7B23%7D%20%2B%201%20$ ?的梯度就是：

$%5Cnabla_A%20f%20%3D%20%0A%5Cbegin%7Bpmatrix%7D%0A2A_%7B11%7D%260%262%5C%5C%0A0%20%26%200%20%26%20-1%0A%5Cend%7Bpmatrix%7D$

但是在現(xiàn)實生活中，我們很難遇到上面這種奇怪的 $%20%5Cmathbb%7BR%7D%5E%7Bm%5Ctimes%20n%7D%20%5Crightarrow%20%5Cmathbb%7BR%7D$ 的函數(shù)。從函數(shù)形式上我們也能看出來，我們只是想做一個求導練習，這種函數(shù)不會出現(xiàn)在什么物理或者金融的應用上。而在線性代數(shù)的應用方面，尤其是AI，最常見的把Matrix轉化為Scalar的函數(shù)就是trace函數(shù)，也就是一個 $%5Cmathbb%7BR%7D%5E%7Bn%20%5Ctimes%20n%7D$ 矩陣對角線所有項的和。我這里先復習一下trace的基本性質：

-?Lineartity:? $tr(aA%2BbB)%20%3D%20atr(A)%20%2B%20btr(B)$

-?cyclic property:? $tr(ABC)%20%3D%20tr(CAB)%20%3D%20tr(BCA)$

-?about trace of a product:? $tr(A%5ETB)%3Dtr(B%5ETA)%20%3D%20%5Csum%5Climits_%7Bi%2Cj%7DA_%7Bij%7DB_%7Bij%7D$

-?equality with sum of the eigenvalues:? $tr(A)%20%3D%20%5Csum%5Climits%5En_i%20%5Clambda_i%20%5Cquad%20%5Clambda_i%20%5Ctext%7B's%20are%20eigenvalues%20of%20matrix%20A%20with%20multiplicity%7D$

那么我們可能碰到的Matrix到Scalar的函數(shù)都可能長什么樣呢，最簡單的一個例子就是

$f(A)%20%3D%20tr(A)$

這個例子很直接，想想就知道 $%5Cnabla_A%20f%20%3D%20I$ ，因為trace定義就是把對角線的項加到一起。

然后是二次的例子

$f(A)%20%3D%20tr(A%5E2)$

這個函數(shù)的梯度看起來不像上一個那么直接，貌似需要把矩陣寫出來再相乘然后求偏導數(shù)。如果你覺得求梯度需要把矩陣的每一項設出來的時候，就可以試試AB公式！

$df%20%3D%20dtr(A%5E2)$

現(xiàn)在問自己一個問題： $dtr(A%5E2)%5Cstackrel%7B%3F%7D%7B%3D%7Dtr(dA%5E2)%20%5C$ 。

毫無疑問這個等式是對的，兩個矩陣先做差再取trace和先取trace再做差結果是一樣的，因為trace本身是個線性函數(shù)。那么我們下面就可以在trace里面應用AB公式。

$%5Cbegin%7Balign%7D%0Adf%20%26%3D%20dtr(A%5E2)%5C%5C%0A%26%3Dtr(dA%5E2)%5C%5C%0A%26%3D%20tr(dA%5Ccdot%20A%2BA%5Ccdot%20dA)%5C%5C%0A%26%3D%20tr(dA%5Ccdot%20A)%2Btr(A%5Ccdot%20dA)%5C%5C%0A%26%3D2tr(AdA)%20%5Cquad%20%5Ctext%7B(by%20cyclic%20property)%7D%0A%5Cend%7Balign%7D$

做到這里我們卡住了，因為我們無法從最后一行的trace函數(shù)中分離出 $dA$ ，因此沒法直接看出函數(shù) $f$ 的梯度。所以我們需要一個定理來夸過這一步。這個定理在后面關于trace的Matrix到Scalar函數(shù)的求梯度問題也經(jīng)常用到。

$f$ 是關于矩陣A的函數(shù)，如果有等式 $df%20%3D%20tr(M%5ETdA)$ ，那么 $%5Cnabla_A%20f%20%3D%20M%5ET$

這個證明我就先不在這寫了，先功利的記下這個公式。所以上面的微分就可以寫成 $df%20%3D%20tr((2A%5ET)%5ETdA)$ ，所以就有

$%5Cbegin%7Balign%7D%0A%5Cnabla_A%20f%20%26%3D%202A%5ET%0A%5Cend%7Balign%7D$

第三個例子：

$f(A)%20%3D%20(Ax-b)%5ET(Ax-b)$

似曾相識的例子，只不過這個函數(shù)的變量是矩陣A。我們再次用一下AB公式

$df%20%3D%20d(Ax-b)%5ET%20%5Ccdot%20(Ax-b)%20%2B%20(Ax-b)%5ET%20d(Ax-b)%20$

等式右邊的兩項都是Scalar，所以每一項的轉置都等于它本身。我們把等號右邊第一項取轉置，發(fā)現(xiàn)這兩項都是一樣的

$%5Cbegin%7Balign%7D%0Adf%20%26%3D%202(Ax-b)%5ETd(Ax-b)%5C%5C%0A%26%3D%202(Ax-b)%5ET(dA)x%20%5Cquad%20(%E5%9B%A0%E4%B8%BA%E8%BF%99%E6%98%AF%E4%B8%AAscalar%EF%BC%8C%E6%89%80%E4%BB%A5%E5%AE%83%E7%9A%84trace%E7%AD%89%E4%BA%8E%E5%AE%83%E6%9C%AC%E8%BA%AB)%5C%5C%0A%26%3Dtr(2(Ax-b)%5ET(dA)x)%5C%5C%0A%26%3Dtr(2x(Ax-b)%5ET(dA))%20%5Cquad%20%5Ctext%7B(cyclic%20property)%7D%5C%5C%0A%26%3Dtr((2(Ax-b)x)%5ETdA)%0A%5Cend%7Balign%7D%0A$

套用上面的定理，我們得到了

$%5Cbegin%7Balign%7D%0A%5Cnabla_A%20f%20%26%3D%202(Ax-b)%5ETx%0A%5Cend%7Balign%7D%0A$

4. 矩陣微積分中的鏈式法則Chain rule

終于寫到這第四個標題了??，這個鏈式法則就是我當初要寫個專欄的原因。RNN和DNN一樣要做backward propogation，但是當變量含有向量或者矩陣的時候，我們需要求Loss在矩陣參數(shù)或者向量參數(shù)上的梯度。這一篇里面的數(shù)學就都能用上了。

我這里還是用了自己的習慣，那就是所有的向量變量都是列變量，所以所有梯度都是行變量。我知道這不是標準的，但我暫時不能理解要求梯度是列變量的好處在哪里，真的很麻煩。如果我以后知道了原因我會回來改的。。

我們先來關注Vector到Vector的復合函數(shù)求導：

$%5Cbegin%7Balign%7D%0Ag%26%3A%5Cmathbb%7BR%7D%5En%20%5Crightarrow%5Cmathbb%7BR%7D%5Em%5C%5C%0Af%26%3A%5Cmathbb%7BR%7D%5Em%20%5Crightarrow%5Cmathbb%7BR%7D%5Ep%5C%5C%0Ax%26%5Cin%20%5Cmathbb%7BR%7D%5En%0A%5Cend%7Balign%7D$

求復合函數(shù) $h(x)%20%3D%20f(g(x))%5Cquad%20%5Cmathbb%7BR%7D%5En%20%5Crightarrow%20%5Cmathbb%7BR%7D%5Ep$ 的梯度。梯度公式其實很簡單，和微積分中學過的是很類似的。

$%5Cnabla_x%20h%20%3D%20%5Cnabla_%7Bg(x)%7Df%20%5Ccdot%20%5Cnabla_xg$

一切都是對應的，因為 $h$ 是 $%5Cmathbb%7BR%7D%5En%20%5Crightarrow%20%5Cmathbb%7BR%7D%5Ep$ ，所以 $%5Cnabla_x%20h%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bp%20%5Ctimes%20n%7D$ 。而

$%5Cbegin%7Balign%7D%0A%5Cnabla_%7Bg(x)%7Df%20%26%5Cin%20%5Cmathbb%7BR%7D%5E%7Bp%5Ctimes%20m%7D%5C%5C%0A%5Cnabla_xg%20%26%5Cin%20%5Cmathbb%7BR%7D%5E%7Bm%5Ctimes%20n%7D%0A%5Cend%7Balign%7D$

所以右邊的兩個gradient矩陣（也就是Jacobian）相乘起來和左邊的矩陣維度是一樣的。因為法則簡單，我就不針對這個chain rule舉例子了。但是有另一個例子需要思考一下。

$f(x)%20%3D%20h(Wx-b)$

其中 $h$ 是一個element-wise函數(shù)（例如sigmoid函數(shù)），它作用于自變量矩陣/向量的每一項。因為element-wise函數(shù)針對矩陣的操作有別與矩陣乘法這類線性操作，我們不能像之前一樣用Jacobian相乘的方式來獲得這個函數(shù) $f$ 的梯度。

一個笨拙的方式思考一下，向量 $x$ 變化 $dx$ 后使得 $h$ 的自變量變化 $Wdx$ ，所以 $h$ 輸出的變化是 $h(Wx-b)$ 關于向量 $Wx-b$ 的每一項的導數(shù)值再乘以 $Wdx$ 。這正對應著矩陣叉乘。所以可以得到

$df%20%3D%20h'.(W%5Cmathbf%7Bx%7D-b)%20%5Ctimes%20(Wd%5Cmathbf%7Bx%7D)$

我們從這個公式是無法獲得Jacobian的，由于全微分中有矩陣叉乘。我們知道矩陣點乘是有結合律的，但是叉乘和點乘不能結合。因此我們要把上面等式中的一些矩陣和向量設出來，看看有沒有更好的表示方法來看出來Jacobian。

假設 $f%EF%BC%9A%5Cmathbb%7BR%7D%5En%20%5Crightarrow%20%5Cmathbb%7BR%7D%5Em$ ，我們設出矩陣 $W$ 和向量 $%5Cmathbf%7Bx%7D$

$W%20%3D%20%0A%5Cbegin%7Bpmatrix%7D%0AW_%7B11%7D%20%26%20%5Cldots%20%26W_%7B1n%7D%5C%5C%0A%5Cvdots%20%26%20%5Cddots%20%26%20%5Cvdots%5C%5C%0AW_%7Bm1%7D%20%26%20%5Cldots%20%26%20W_%7Bmn%7D%0A%5Cend%7Bpmatrix%7D%0A%0A%5Cquad%0A%0A%5Cmathbf%7Bx%7D%20%3D%0A%5Cbegin%7Bpmatrix%7D%0Ax_1%5C%5C%0A%5Cvdots%5C%5C%0Ax_n%0A%5Cend%7Bpmatrix%7D%0A%0A%5Cquad%20%0A%0Ad%5Cmathbf%7Bx%7D%20%3D%20%0A%5Cbegin%7Bpmatrix%7D%0Adx_1%5C%5C%0A%5Cvdots%5C%5C%0Adx_n%0A%5Cend%7Bpmatrix%7D$

$df$ 是一個 $m%5Ctimes%201$ 的向量，我們要研究它的第 $i$ 項

$(df)_i%20%3D%20%20h'((W%5Cmathbf%7Bx%7D-b)_i)(%5Csum%5Climits_%7Bj%3D1%7D%5E%7Bn%7DW_%7Bij%7Ddx_j)$

因為 $%5Csum$ 累加的角標是 $j$ ，所以我們可以把前面含 $i$ 的 $h'((W%5Cmathbf%7Bx%7D-b)_i)$ 放到 $%5Csum$ 里面去

$(df)_i%20%3D%20%20%5Csum%5Climits_%7Bj%3D1%7D%5E%7Bn%7Dh'((W%5Cmathbf%7Bx%7D-b)_i)W_%7Bij%7Ddx_j$

考慮到所有的 $i$ ，等式右邊相當于什么？相當于把矩陣 $W%5Cin%5Cmathbb%7BR%7D%5E%7Bm%5Ctimes%20n%7D$ 的每一行都乘以 $h'((W%5Cmathbf%7Bx%7D-b))%5Cin%20%5Cmathbb%7BR%7D%5E%7Bm%5Ctimes1%7D$ 的對應項，得到新的矩陣之后，再和 $d%5Cmathbf%7Bx%7D$ 做矩陣乘法。這樣我們就能把之前的叉乘轉化為點乘，再通過結合律，就可以得到Jacobian了。