【官方雙語】深度學(xué)習(xí)之反向傳播算法 上/下 Part 3 ver 0.9 bet

一、原理
反向傳播原理: 反向傳播算法主要由兩個環(huán)節(jié)(梯度的傳播計算,激勵傳播與權(quán)重更新)反復(fù)循環(huán)迭代。(僅考慮對單目標的識別)
【注】3b1b在兩個視頻里并沒有區(qū)別兩個環(huán)節(jié),只是含糊說,兩者都是反向傳播,實際上第一個視頻主要介紹的是權(quán)重、激勵(向后傳播)更新環(huán)節(jié),第二個視頻講的是梯度(向后傳播)計算的。
二、過程
過程大概分五步:
1.隨機分布權(quán)重
2.輸入樣本 得到 各層激活值
3. 求最終 激活值 與 期望激活值的距離 即代價
4.反向傳播,計算?w/?c, ?b/?c (即w,c的靈敏度)(見P2下篇)
(一定要看下篇?。?/p>
5.修改權(quán)重、偏置、激活(間接)以縮短代價。
將反向傳播計算的梯度向量作工具,實現(xiàn)以
下目標:
5.1 根據(jù)現(xiàn)有w的比例,分配下一層激活期
望
5.2 根據(jù)現(xiàn)有a的比例,分配權(quán)重更改期望
5.3 修改偏置
6.向后重復(fù)直到第一層
7.輸入同類樣本的不同圖案
:三、概念 & 規(guī)則
箭頭是神經(jīng)元激活度的期望變化
(就是我們希望它能這樣變化)
紅箭頭表示我們希望它減小
藍箭頭反之
箭頭長短是期望變化的幅值,范圍為:0 ≤ 幅值 ≤ 1
證據(jù):
L-1層的神經(jīng)元的期望激活度由L-1層神經(jīng)元與
L層神經(jīng)元的權(quán)重決定。
權(quán)重越大,期望激活度越大
(假設(shè):每層的權(quán)重更改總量有限)
證據(jù)有二:
證據(jù)1 :

證據(jù)1的時間戳:
證據(jù)二:箭頭求和

光目標神經(jīng)元激活還不夠,我還想要非目標神經(jīng)元被抑制。否則答案就變成多個了,與實際情況不符。
每列箭頭代表根據(jù)已有權(quán)重分布,我們期望前一層神經(jīng)元激活度的改變情況,不同列對應(yīng)不同的最終輸出的神經(jīng)元(不懂的同學(xué)下面這段多看看)。
具體的分配方法3b1b只是說按比例,沒細說,我在本文第三段給出一個猜測,供參考
草稿
(讀者別看了,內(nèi)容亂,而且有未改的錯誤)
因為要識別的不止一個數(shù),所以要追求代價的平均值最小
因為,最后選答案是選出最大激活的元,假如你有1個自由分配的量,如果按減小分配,每個數(shù)分配0.2,你分配五個數(shù),不一定能選出正確答案,但如果把1直接給2(2是正確答案),那你必能選對
減閾、加權(quán)、加激
假想圖1是神經(jīng)網(wǎng)絡(luò)的第一層與第二層,則說明:
數(shù)字二這張圖片,明顯出現(xiàn)了1,6,7,9的特征(因為它們最亮)

圖1 倒二激活層情況
由此推得:2 這張圖 出現(xiàn)了 倒數(shù)第二層(高度綜合層)的1,6,7,9..特征(不考慮倒二層的具體特征)
hebb法則:加強同時激活的神經(jīng)元的關(guān)聯(lián)
此處即將對網(wǎng)絡(luò)層的各權(quán)重進行加強 / 削弱處理,所以3b1b說有點像

圖2 神經(jīng)元的代價期待
每個箭頭代表wij 對代價均值的偏導(dǎo)數(shù)
即wij的微小變化引起的代價均值的微小變化的比值,以圖2 紅圈中的w42為例
假設(shè)1:本來就暗神經(jīng)元->實現(xiàn)抓大頭
假設(shè)2:輸出層的其它答案
假設(shè)1不成立,因為在7:38箭頭列是對應(yīng)最終輸出的神經(jīng)元
簡單說,最后一層與數(shù)據(jù)自帶的期望值是可以逐步算出三個導(dǎo)數(shù)進而算出權(quán)重與代價的導(dǎo)數(shù)
具體計算方法:

^
/ \
| |

dz/db 根據(jù) 第二張圖的第二行式子可得 1
矛盾:
假設(shè):激活值全知
所有方法為了求比值
但3b1b說該方法是反向傳播,即改變權(quán)重
則要么,反向傳播不是改權(quán)重
要么,算比值也是反向傳播的一種
箭頭是什么?
假設(shè)1:dw
假設(shè)2:dc/dw
思考筆記
asu:arr = dw
asu:性價比 (目標 - 非目標)高=> 該比同,影響大asu=> 實際該比要更多
asu:實際改比相同
梯度下降 = dc/dw 下降
id:梯度向量指示我們分配改動權(quán)重總量的比例:
=>
arr = asu1期望變化,asu2 dc/dw
asu1 => re => dc/dw =>sort=> proportion
asu2 => null
asu1 - sum
asu {?=> arr in neuron} = ? in video
egt:
asu {?=> arr in neuron} = ? in video
proportion of w => (da = arr):
