五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

比CNN更強有力,港中文賈佳亞團隊提出兩類新型自注意力網(wǎng)絡(luò)|CVPR2020

2020-05-12 15:10 作者:極市平臺  | 我要投稿

本文作者研究了自注意力在圖像識別模型中的有效性,提出兩種形式的自注意力:pairwise與patchwise,從魯棒性和泛化性能方面均「優(yōu)于標準卷積網(wǎng)絡(luò)」。

Tips:作者系極市原創(chuàng)作者計劃特約作者Happy

歡迎大家聯(lián)系極市小編(微信ID:fengcall19)加入極市原創(chuàng)作者行列

paper:https://hszhao.github.io/papers/cvpr20_san.pdf

code:https://github.com/hszhao/SAN

該文是香港中文大學賈佳亞老師團隊投于CVPR2020的一篇關(guān)于動態(tài)濾波器卷積的文章。對動態(tài)濾波器卷積實現(xiàn)不明白的小伙伴可能看該文會非常費力。本文首先在不改變原文意思的基礎(chǔ)上進行簡單的翻譯與介紹,在后續(xù)的文章中本人將從另一個角度對該文進行解析并進行復(fù)現(xiàn)和轉(zhuǎn)換,歡迎持續(xù)關(guān)注。

Abstract

近期的研究表明:自注意力可以作為圖像識別模型的基礎(chǔ)模塊而存在。作者探索了自注意力機制的變種并對其在圖像識別中的有效性進行了評價。作者考慮了兩種形式的自注意力機制:(1)?pairwise self-attention,它是標準點積注意力的擴展,本質(zhì)上是一組操作;(2)?patchwise self-attention一種比卷積更強有力的的操作,其對應(yīng)的模型明顯優(yōu)于標準卷積版本。作者還通過實驗驗證了所提表達方式的魯棒性,并證實自注意力網(wǎng)絡(luò)從魯棒性和泛化性能方面均優(yōu)于標準卷積網(wǎng)絡(luò)。

看完上面這一段介紹,大家有沒有感覺看的云里霧里,不知所云。這到底是個什么鬼?沒關(guān)系,下面的原文翻譯會讓你更加的不知所云,拭目以待!

Method

在卷積網(wǎng)絡(luò)中,網(wǎng)絡(luò)中的OP有兩個作用:(1) 特征聚合(feature aggregation),對局部近鄰特征采用核參數(shù)進行加權(quán)得到輸出特征;(2) 特征變換(feature transformation),它有后接線性映射以及非線性函數(shù)達成(即BatchNorm+ReLU)。

作者認為:前述兩個功能可以解耦。如果可以采用一種特殊的機制進行特征聚合,那么采用感知器(它包含線性映射與非線性函數(shù))進行逐點特征變換。作者主要聚焦于特征聚合部分進行研究。其實說白了就是嘗試提出一種特殊的機制替代標準卷積。

常規(guī)卷積通過固定核進行特征聚合,即全圖權(quán)值共享,不會隨特征內(nèi)容而自適應(yīng)變化,同時參數(shù)量會隨著聚合特征數(shù)量增加而增加。鑒于此,作者提出幾種特征聚合機制并構(gòu)建了一個高性能圖像識別框架(它交錯執(zhí)行特征聚合(自注意力)和特征變換(逐點感知器))。

作者探索了兩種類型的自注意力機制:(1)?pairwise self-attention;(2)?patchwise self-attention.

Pairwise Self-attention

Position Encoding

Patchwise Self-attention

Self-attention Block

上圖給出了本文所提出的自注意力機制在殘差模塊中嵌入示意圖。輸入特征圖將經(jīng)由兩個處理流:(1)左邊分支用于評估輸出注意力權(quán)值;(2)右邊分支將對輸入進行線性變換,為更有效的處理進行降維。前述兩個分支的輸出將通過Hadamard乘積進行特聚合,聚合后特征將經(jīng)由規(guī)范化操作+非線性激活與最后的非線性層得到與輸入同等通道的輸出。

看到這里,不知道各位小伙伴是否看懂了作者想要表達的意思?反正我第一次看的時候是沒看懂,也不知道到底是怎么做的,看的云里霧里一塌糊涂。沒關(guān)系,我后面會提供一種更為通用的解釋來介紹上述兩種自注意力機制。

Network Architectures

前面基本上已經(jīng)把本文的核心全部介紹完畢了,那么接下來就是要說明一下如何利用前述提到的兩種模塊搭建一個完成的神經(jīng)網(wǎng)絡(luò)了。

ResNet不愧是深度學習的里程碑,萬能油網(wǎng)絡(luò)啊,太多太多的網(wǎng)絡(luò)都是在ResNet的基礎(chǔ)上進行修改發(fā)paper,造就了太多的高質(zhì)量paper(比如Res2Net, ResNeXt, MobileNetV2等)。

沒有任何意外,作者還是在ResNet的基礎(chǔ)上進行改造。下表為改造模型參數(shù)列表,作者提供了三種深度的網(wǎng)絡(luò)SAN10, SAN15, SAN19,它們分別對應(yīng)ResNet26, ResNet38, ResNet50。

前面給出了作者改造的網(wǎng)絡(luò)結(jié)構(gòu):SAN系列。我們從下面幾個部分針對該系列模型進行簡單的分析。

  • Backbone: SAN的骨干部分包含5個階段,不同階段具有不同的空間分辨率,最終輸出32倍下采樣的特征。每個階段包含不同數(shù)量的自注意力模塊,相鄰的兩個階段參考DenseNet通過過渡層(過渡層的作用是降低空間分辨率并提升通道數(shù))橋接。在五個階段之外,后接一個分來Head模塊,該模塊由全局均值池化、全連接層以及softmax構(gòu)成。

  • Transition:過渡層的用于降低特征空間分辨率,因此可以降低計算復(fù)雜度提升感受野。過渡層由BatchNorm、ReLU、MaxPool以及1x1卷積(用于擴增通道維度)構(gòu)成。

  • Footprint:局部范圍用于控制特征聚合的上下文數(shù)量,為平衡計算復(fù)雜度和效果,作者在后四個階段的只注意模塊中設(shè)為,而第一個則設(shè)為(出于計算復(fù)雜度、顯存消耗考慮)。

  • Instantiations:通過調(diào)節(jié)網(wǎng)絡(luò)不同階段的自注意力模塊的數(shù)量控制網(wǎng)絡(luò)的容量,相關(guān)配置參數(shù)將上表,基本上是參考ResNet進行設(shè)置的。

Comparison

上表對比了自注意力模塊與常規(guī)卷積、標量注意力機制之間的區(qū)別所在。

  • Convolution:常規(guī)卷積具有固定的核權(quán)值,不會隨內(nèi)容而變化,但和權(quán)值會跨通道變化(但這種變化是訓練確定的,很難說是真正意義上的通道自適應(yīng));

  • Scalar Attention:標量注意力的聚合權(quán)值會根據(jù)內(nèi)容隨位置發(fā)生變換,但存在跨通道共享。

  • Vector attention:作者所設(shè)計的自注意力模塊則同時具有內(nèi)容自適應(yīng)與通道自適應(yīng)性。

Experiments

作者在ImageNet數(shù)據(jù)集上進行了所提方法的實驗與驗證。相關(guān)訓練信息如下:

  • Epoch:100

  • Learning rate: cosine learning rate with base 0.1

  • Standard data augmentation: random crop, random flip, normalize

  • SyncSGD: momentum=0.9, weight decay=0.0001

  • Label Smoothing: regularization coefficient=0.1

  • BatchSize: 256.

    關(guān)于自注意力模塊的幾個參數(shù)設(shè)置為:r1=16,r2=4,權(quán)值共享的通道數(shù)設(shè)為8.

上圖給出了所提SAN與對標ResNet的性能差異對比。從中可以看到:(1)?pairwise模型媲美甚至優(yōu)于對標的ResNet模型;(2)patchwise模型以極大的優(yōu)勢超越了對標的ResNet。

上表對比了自注意力模塊中不同相關(guān)函數(shù)下的性能,從中可以看到:(1)對于pairwise模型而言,summation、subtraction以及Hadamard乘積具有相似的精度,并優(yōu)于其他兩種相關(guān)函數(shù);(2)對于patchwise模型而言,concatenation取得最佳性能。

上表對比了自注意力模塊中不同映射函數(shù)的性能對比。從中可以看到:(1)對于pairwise模型而言,兩個全連接層即可取得最佳性能;(2) 對于patchwise模型而言,不同的配置具有相似的性能(考慮到內(nèi)存占用與計算量問題,作者最終選用了兩個全連接層的配置)。

上表驗證了自注意力模塊中使用三個離散變換函數(shù)的必要性。從中可以看到:使用三個獨立的變換函數(shù)具有最佳性能,使用獨立變換函數(shù)的另外一個優(yōu)勢是降低計算復(fù)雜度。

上表對比了自注意力模塊中不同局部范圍(即卷積核尺寸)下的性能對比。從中可以看到:(1)在常規(guī)卷積中,提升卷積核尺寸會提升計算復(fù)雜度與內(nèi)存占用;(2)在SAN中,性能先隨核尺寸增大而提升,而后達到飽和。對于pairwise模型而言,提升核尺寸對于參數(shù)沒有任何影響。綜合考量后,作者將核尺寸設(shè)置為7*7。


最后,作者評價了位置編碼在pairwise模型中的重要性,結(jié)果見上表。從中可以看到:位置編碼具有很重要的影響:位置編碼能帶來5%的性能提升。

此外,作者從兩個方面驗證了模型的魯棒性。(1) 旋轉(zhuǎn)魯棒性(見上表),pairwise模型具有更佳的抗旋轉(zhuǎn)性魯棒性,這也與前面提到的patchwise不具有置換不變性不謀而合;(2) 對抗魯棒性(見下表),patchwise具有更佳的對抗攻擊魯棒性;(3)相比常規(guī)卷積網(wǎng)絡(luò),自注意力網(wǎng)絡(luò)具有更佳的魯棒性和泛化性能。

Conclusion

作者研究了自注意力在圖像識別模型中的有效性,作者提出了兩種形式的自注意力:pairwisepatchwise。作者通過實驗得到以下幾點重要發(fā)現(xiàn):

  • 基于pairwise的網(wǎng)絡(luò)取得了匹配甚至超越純卷積網(wǎng)絡(luò)的性能,這意味著計算機視覺中深度學習的成功并非與卷積網(wǎng)絡(luò)緊密相連,還有其他的方案具有媲美甚至更優(yōu)的判別能力(比如permutation- and cardinality-invariance);

  • 基于patchwise的網(wǎng)絡(luò)取得了超越純卷積網(wǎng)絡(luò)的性能,這意味著塊自注意力可能在其他計算機視覺中取得更好的性能增益;

  • 相比標量(scale/dot-product)自注意力機制(當前主流注意力機制),向量(vector)自注意力更有力且具有明顯優(yōu)勢。


比CNN更強有力,港中文賈佳亞團隊提出兩類新型自注意力網(wǎng)絡(luò)|CVPR2020的評論 (共 條)

分享到微博請遵守國家法律
百色市| 错那县| 阳春市| 革吉县| 永年县| 东宁县| 报价| 桂林市| 甘孜县| 琼中| 简阳市| 瓦房店市| 台山市| 承德市| 富平县| 界首市| 德清县| 辽源市| 蕲春县| 楚雄市| 哈密市| 乌鲁木齐县| 阜新| 湖南省| 天全县| 衡东县| 平武县| 囊谦县| 延川县| 新绛县| 方山县| 榆社县| 集安市| 汝阳县| 翁牛特旗| 昔阳县| 紫云| 喜德县| 鄂托克旗| 四川省| 拉萨市|