五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

[Quant 1.5] 矩陣微積分Matrix Calculus基礎 (2)

2022-07-28 08:47 作者:安平生一人好_  | 我要投稿

資源是MIT 2020年的一節(jié)網(wǎng)課,教授是Alan Edelman

https://www.youtube.com/watch?v=oGZK3yGF-6k

我在B站沒找到搬運的資源,所以要看這個視頻需要??


還有一個問答的鏈接,我下面也提到了

https://math.stackexchange.com/questions/3724359/does-there-exist-a-gradient-chain-rule-for-this-case


我沒有把兩個專欄放在一起是因為B站要求專欄圖片不能超過100個。而公式還算圖片,我寫公式寫的太多了,所以兩部分分開發(fā)了。


3. Matrix到Scalar的函數(shù)梯度

假設有一個m%5Ctimes%20n的矩陣A,這個矩陣A是一個變量

A%20%3D%20%0A%5Cbegin%7Bpmatrix%7D%0AA_%7B11%7D%20%26%20%5Cldots%20%26%20A_%7B1n%7D%5C%5C%0A%5Cvdots%20%26%20%5Cddots%20%26%20%5Cvdots%5C%5C%0AA_%7Bm1%7D%20%26%20%5Cldots%20%26%20A_%7Bmn%7D%0A%5Cend%7Bpmatrix%7D

函數(shù)f%3A%20%5Cmathbb%7BR%7D%5E%7Bm%5Ctimes%20n%7D%20%5Crightarrow%20%5Cmathbb%7BR%7D的梯度就是

%5Cnabla_A%20f%20%3D%20%0A%5Cbegin%7Bpmatrix%7D%0A%5Cfrac%7B%5Cpartial%20f%7D%7B%5Cpartial%20A_%7B11%7D%7D%20%26%20%5Cldots%20%26%5Cfrac%7B%5Cpartial%20f%7D%7B%5Cpartial%20A_%7B1n%7D%7D%5C%5C%0A%5Cvdots%20%26%20%5Cddots%20%20%26%20%5Cvdots%20%5C%5C%0A%5Cfrac%7B%5Cpartial%20f%7D%7B%5Cpartial%20A_%7Bm1%7D%7D%20%26%20%5Cldots%20%26%20%5Cfrac%7B%5Cpartial%20f%7D%7B%5Cpartial%20A_%7Bmn%7D%7D%0A%5Cend%7Bpmatrix%7D



舉個例子,假設現(xiàn)在的變量是一個2%5Ctimes%203的矩陣A。函數(shù)f%3A%20%5Cmathbb%7BR%7D%5E%7B2%5Ctimes3%7D%20%5Crightarrow%20%5Cmathbb%7BR%7D%20%5Cquad%20A%20%5Crightarrow%20A_%7B11%7D%5E2%20%2B2A_%7B13%7D%20-%20A_%7B23%7D%20%2B%201%20?的梯度就是:

%5Cnabla_A%20f%20%3D%20%0A%5Cbegin%7Bpmatrix%7D%0A2A_%7B11%7D%260%262%5C%5C%0A0%20%26%200%20%26%20-1%0A%5Cend%7Bpmatrix%7D



但是在現(xiàn)實生活中,我們很難遇到上面這種奇怪的%20%5Cmathbb%7BR%7D%5E%7Bm%5Ctimes%20n%7D%20%5Crightarrow%20%5Cmathbb%7BR%7D的函數(shù)。從函數(shù)形式上我們也能看出來,我們只是想做一個求導練習,這種函數(shù)不會出現(xiàn)在什么物理或者金融的應用上。而在線性代數(shù)的應用方面,尤其是AI,最常見的把Matrix轉化為Scalar的函數(shù)就是trace函數(shù),也就是一個%5Cmathbb%7BR%7D%5E%7Bn%20%5Ctimes%20n%7D矩陣對角線所有項的和。我這里先復習一下trace的基本性質:

-?Lineartity:?tr(aA%2BbB)%20%3D%20atr(A)%20%2B%20btr(B)

-?cyclic property:?tr(ABC)%20%3D%20tr(CAB)%20%3D%20tr(BCA)

-?about trace of a product:?tr(A%5ETB)%3Dtr(B%5ETA)%20%3D%20%5Csum%5Climits_%7Bi%2Cj%7DA_%7Bij%7DB_%7Bij%7D

-?equality with sum of the eigenvalues:?tr(A)%20%3D%20%5Csum%5Climits%5En_i%20%5Clambda_i%20%5Cquad%20%5Clambda_i%20%5Ctext%7B's%20are%20eigenvalues%20of%20matrix%20A%20with%20multiplicity%7D


那么我們可能碰到的Matrix到Scalar的函數(shù)都可能長什么樣呢,最簡單的一個例子就是

f(A)%20%3D%20tr(A)

這個例子很直接,想想就知道%5Cnabla_A%20f%20%3D%20I,因為trace定義就是把對角線的項加到一起。


然后是二次的例子

f(A)%20%3D%20tr(A%5E2)

這個函數(shù)的梯度看起來不像上一個那么直接,貌似需要把矩陣寫出來再相乘然后求偏導數(shù)。如果你覺得求梯度需要把矩陣的每一項設出來的時候,就可以試試AB公式!

df%20%3D%20dtr(A%5E2)

現(xiàn)在問自己一個問題:dtr(A%5E2)%5Cstackrel%7B%3F%7D%7B%3D%7Dtr(dA%5E2)%20%5C。

毫無疑問這個等式是對的,兩個矩陣先做差再取trace和先取trace再做差結果是一樣的,因為trace本身是個線性函數(shù)。那么我們下面就可以在trace里面應用AB公式。

%5Cbegin%7Balign%7D%0Adf%20%26%3D%20dtr(A%5E2)%5C%5C%0A%26%3Dtr(dA%5E2)%5C%5C%0A%26%3D%20tr(dA%5Ccdot%20A%2BA%5Ccdot%20dA)%5C%5C%0A%26%3D%20tr(dA%5Ccdot%20A)%2Btr(A%5Ccdot%20dA)%5C%5C%0A%26%3D2tr(AdA)%20%5Cquad%20%5Ctext%7B(by%20cyclic%20property)%7D%0A%5Cend%7Balign%7D

做到這里我們卡住了,因為我們無法從最后一行的trace函數(shù)中分離出dA,因此沒法直接看出函數(shù)f的梯度。所以我們需要一個定理來夸過這一步。這個定理在后面關于trace的Matrix到Scalar函數(shù)的求梯度問題也經(jīng)常用到。

f是關于矩陣A的函數(shù),如果有等式df%20%3D%20tr(M%5ETdA),那么%5Cnabla_A%20f%20%3D%20M%5ET

這個證明我就先不在這寫了,先功利的記下這個公式。所以上面的微分就可以寫成df%20%3D%20tr((2A%5ET)%5ETdA),所以就有

%5Cbegin%7Balign%7D%0A%5Cnabla_A%20f%20%26%3D%202A%5ET%0A%5Cend%7Balign%7D


第三個例子:

f(A)%20%3D%20(Ax-b)%5ET(Ax-b)

似曾相識的例子,只不過這個函數(shù)的變量是矩陣A。我們再次用一下AB公式

df%20%3D%20d(Ax-b)%5ET%20%5Ccdot%20(Ax-b)%20%2B%20(Ax-b)%5ET%20d(Ax-b)%20

等式右邊的兩項都是Scalar,所以每一項的轉置都等于它本身。我們把等號右邊第一項取轉置,發(fā)現(xiàn)這兩項都是一樣的

%5Cbegin%7Balign%7D%0Adf%20%26%3D%202(Ax-b)%5ETd(Ax-b)%5C%5C%0A%26%3D%202(Ax-b)%5ET(dA)x%20%5Cquad%20(%E5%9B%A0%E4%B8%BA%E8%BF%99%E6%98%AF%E4%B8%AAscalar%EF%BC%8C%E6%89%80%E4%BB%A5%E5%AE%83%E7%9A%84trace%E7%AD%89%E4%BA%8E%E5%AE%83%E6%9C%AC%E8%BA%AB)%5C%5C%0A%26%3Dtr(2(Ax-b)%5ET(dA)x)%5C%5C%0A%26%3Dtr(2x(Ax-b)%5ET(dA))%20%5Cquad%20%5Ctext%7B(cyclic%20property)%7D%5C%5C%0A%26%3Dtr((2(Ax-b)x)%5ETdA)%0A%5Cend%7Balign%7D%0A

套用上面的定理,我們得到了

%5Cbegin%7Balign%7D%0A%5Cnabla_A%20f%20%26%3D%202(Ax-b)%5ETx%0A%5Cend%7Balign%7D%0A


4. 矩陣微積分中的鏈式法則Chain rule

終于寫到這第四個標題了??,這個鏈式法則就是我當初要寫個專欄的原因。RNN和DNN一樣要做backward propogation,但是當變量含有向量或者矩陣的時候,我們需要求Loss在矩陣參數(shù)或者向量參數(shù)上的梯度。這一篇里面的數(shù)學就都能用上了。


我這里還是用了自己的習慣,那就是所有的向量變量都是列變量,所以所有梯度都是行變量。我知道這不是標準的,但我暫時不能理解要求梯度是列變量的好處在哪里,真的很麻煩。如果我以后知道了原因我會回來改的。。


我們先來關注Vector到Vector的復合函數(shù)求導:

%5Cbegin%7Balign%7D%0Ag%26%3A%5Cmathbb%7BR%7D%5En%20%5Crightarrow%5Cmathbb%7BR%7D%5Em%5C%5C%0Af%26%3A%5Cmathbb%7BR%7D%5Em%20%5Crightarrow%5Cmathbb%7BR%7D%5Ep%5C%5C%0Ax%26%5Cin%20%5Cmathbb%7BR%7D%5En%0A%5Cend%7Balign%7D

求復合函數(shù)h(x)%20%3D%20f(g(x))%5Cquad%20%5Cmathbb%7BR%7D%5En%20%5Crightarrow%20%5Cmathbb%7BR%7D%5Ep的梯度。梯度公式其實很簡單,和微積分中學過的是很類似的。

%5Cnabla_x%20h%20%3D%20%5Cnabla_%7Bg(x)%7Df%20%5Ccdot%20%5Cnabla_xg

一切都是對應的,因為h%5Cmathbb%7BR%7D%5En%20%5Crightarrow%20%5Cmathbb%7BR%7D%5Ep,所以%5Cnabla_x%20h%20%5Cin%20%5Cmathbb%7BR%7D%5E%7Bp%20%5Ctimes%20n%7D。而

%5Cbegin%7Balign%7D%0A%5Cnabla_%7Bg(x)%7Df%20%26%5Cin%20%5Cmathbb%7BR%7D%5E%7Bp%5Ctimes%20m%7D%5C%5C%0A%5Cnabla_xg%20%26%5Cin%20%5Cmathbb%7BR%7D%5E%7Bm%5Ctimes%20n%7D%0A%5Cend%7Balign%7D

所以右邊的兩個gradient矩陣(也就是Jacobian)相乘起來和左邊的矩陣維度是一樣的。因為法則簡單,我就不針對這個chain rule舉例子了。但是有另一個例子需要思考一下。


f(x)%20%3D%20h(Wx-b)

其中h是一個element-wise函數(shù)(例如sigmoid函數(shù)),它作用于自變量矩陣/向量的每一項。因為element-wise函數(shù)針對矩陣的操作有別與矩陣乘法這類線性操作,我們不能像之前一樣用Jacobian相乘的方式來獲得這個函數(shù)f的梯度。


一個笨拙的方式思考一下,向量x變化dx后使得h的自變量變化Wdx,所以h輸出的變化是h(Wx-b)關于向量Wx-b的每一項的導數(shù)值再乘以Wdx。這正對應著矩陣叉乘。所以可以得到

df%20%3D%20h'.(W%5Cmathbf%7Bx%7D-b)%20%5Ctimes%20(Wd%5Cmathbf%7Bx%7D)

我們從這個公式是無法獲得Jacobian的,由于全微分中有矩陣叉乘。我們知道矩陣點乘是有結合律的,但是叉乘和點乘不能結合。因此我們要把上面等式中的一些矩陣和向量設出來,看看有沒有更好的表示方法來看出來Jacobian。


假設f%EF%BC%9A%5Cmathbb%7BR%7D%5En%20%5Crightarrow%20%5Cmathbb%7BR%7D%5Em,我們設出矩陣W和向量%5Cmathbf%7Bx%7D

W%20%3D%20%0A%5Cbegin%7Bpmatrix%7D%0AW_%7B11%7D%20%26%20%5Cldots%20%26W_%7B1n%7D%5C%5C%0A%5Cvdots%20%26%20%5Cddots%20%26%20%5Cvdots%5C%5C%0AW_%7Bm1%7D%20%26%20%5Cldots%20%26%20W_%7Bmn%7D%0A%5Cend%7Bpmatrix%7D%0A%0A%5Cquad%0A%0A%5Cmathbf%7Bx%7D%20%3D%0A%5Cbegin%7Bpmatrix%7D%0Ax_1%5C%5C%0A%5Cvdots%5C%5C%0Ax_n%0A%5Cend%7Bpmatrix%7D%0A%0A%5Cquad%20%0A%0Ad%5Cmathbf%7Bx%7D%20%3D%20%0A%5Cbegin%7Bpmatrix%7D%0Adx_1%5C%5C%0A%5Cvdots%5C%5C%0Adx_n%0A%5Cend%7Bpmatrix%7D

df是一個m%5Ctimes%201的向量,我們要研究它的第i

(df)_i%20%3D%20%20h'((W%5Cmathbf%7Bx%7D-b)_i)(%5Csum%5Climits_%7Bj%3D1%7D%5E%7Bn%7DW_%7Bij%7Ddx_j)

因為%5Csum累加的角標是j,所以我們可以把前面含ih'((W%5Cmathbf%7Bx%7D-b)_i)放到%5Csum里面去

(df)_i%20%3D%20%20%5Csum%5Climits_%7Bj%3D1%7D%5E%7Bn%7Dh'((W%5Cmathbf%7Bx%7D-b)_i)W_%7Bij%7Ddx_j

考慮到所有的i,等式右邊相當于什么?相當于把矩陣W%5Cin%5Cmathbb%7BR%7D%5E%7Bm%5Ctimes%20n%7D的每一行都乘以h'((W%5Cmathbf%7Bx%7D-b))%5Cin%20%5Cmathbb%7BR%7D%5E%7Bm%5Ctimes1%7D的對應項,得到新的矩陣之后,再和d%5Cmathbf%7Bx%7D做矩陣乘法。這樣我們就能把之前的叉乘轉化為點乘,再通過結合律,就可以得到Jacobian了。

df%20%3D%20diag(h'(W%5Cmathbf%7Bx%7D-b))%5Ccdot%20Wd%5Cmathbf%7Bx%7D

所以

%5Cnabla_%5Cmathbf%7Bx%7D%20f%20%3D%20J%20%3D%20diag(h'(W%5Cmathbf%7Bx%7D-b))%5Ccdot%20W

驗證一下,這個Jacobian確實是一個m%20%5Ctimes%20n的矩陣,任務完成!


我這一篇寫的很細,希望如果以后有人能用到這篇文章的話,即使基礎相對薄弱也能看懂。令一點就是我隱約覺得這篇里面有些地方我自己的理解可能也會有問題,后續(xù)發(fā)現(xiàn)了會更新的。



[Quant 1.5] 矩陣微積分Matrix Calculus基礎 (2)的評論 (共 條)

分享到微博請遵守國家法律
舟曲县| 永顺县| 西安市| 台州市| 垣曲县| 电白县| 屏东市| 瓮安县| 大城县| 五华县| 吴堡县| 泰兴市| 乌什县| 吕梁市| 鹰潭市| 巴彦淖尔市| 三穗县| 辽宁省| 汝城县| 万山特区| 凤城市| 邻水| 中西区| 和静县| 浦东新区| 玉门市| 荆州市| 滦南县| 湘乡市| 屏东市| 安新县| 安阳市| 武山县| 资溪县| 鸡西市| 禄劝| 惠安县| 深州市| 沁水县| 沂水县| 巴塘县|