五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

9月深度學(xué)習(xí)論文任務(wù)送達(dá) 內(nèi)附論文讀后總結(jié)

2021-09-07 18:16 作者:深度之眼官方賬號  | 我要投稿

學(xué)姐在打(上)工(班)間(摸)隙(魚)時(shí)候看到推特上有這樣的拼貼畫。

?


這是作者為所讀論文所做的圖片摘要,目的是通過這樣的圖片摘要拼貼畫的方式,讓大家能夠一目了然的獲得本篇論文的大致信息和深度學(xué)習(xí)的新趨勢。感興趣的同學(xué)們可以去推特上看一下。



學(xué)姐看到作者8月閱讀了4篇深度學(xué)習(xí)的論文,并在9月做了推薦,這不立馬就給大家整理了!認(rèn)真閱讀后收藏,最好是能梳理出來自己的思路并進(jìn)行思考才算掌握!


01

作者:Feurer et al. (2021)

論文名稱:Auto-Sklearn 2.0: Hands-free AutoML via Meta-Learning

Auto-Sklearn 2.0:通過元學(xué)習(xí)實(shí)現(xiàn)免提AutoML



論文閱讀總結(jié):


Auto-ML有望消除超參數(shù)和模型選擇的繁瑣手動調(diào)整。舉個(gè)例子——Auto-Sklearn API(鏈接在底部參考文檔),它提供了一個(gè)簡單的高級接口來自動評估多個(gè)預(yù)處理和模型擬合管道。


以前的 Auto-ML 系統(tǒng)的一個(gè)關(guān)鍵因素是使用所謂的元特征,這些元特征最初是為手頭的數(shù)據(jù)集計(jì)算的。然后使用這些特征來選擇一個(gè)“策略”,以便在解決方案空間中順序搜索。策略選擇基于到代表性數(shù)據(jù)集的元數(shù)據(jù)集的元特征距離。


如果數(shù)據(jù)集與元數(shù)據(jù)集有很大差異,有時(shí)這可能會導(dǎo)致泛化問題。而且,很難設(shè)計(jì)有代表性的元特征并調(diào)整Auto-ML算法本身的超參數(shù)。


Auto-Sklearn 2.0旨在通過引入兩個(gè)改變來克服這兩個(gè)挑戰(zhàn):

首先,他們不依賴元特征,而是使用元學(xué)習(xí)的初始管道組合。最初,對這些候選投資組合進(jìn)行評估,以啟動貝葉斯優(yōu)化內(nèi)循環(huán)。


其次,他們引入了一個(gè)元學(xué)習(xí)策略選擇器,它根據(jù)所考慮的數(shù)據(jù)集中的樣本數(shù)量和特征,規(guī)定了一個(gè)模型選擇策略(例如交叉驗(yàn)證vs簡單的堅(jiān)持評估)和一個(gè)預(yù)算分配策略(全預(yù)算與更積極的連續(xù)減半)。因此,該系統(tǒng)更接近分層的元-元方法。


作者在OpenML基準(zhǔn)(OpenML文檔鏈接在底部)測試上驗(yàn)證了他們提出的修改,并為10分鐘和60分鐘的時(shí)間預(yù)算提供了新的技術(shù)水平。


Paper

https://ml.informatik.uni-freiburg.de/papers/21-ARXIV-ASKL2.pdf


Code

https://github.com/automl/auto-sklearn


02

作者:Steiner et al.(2021)

論文名稱:How to train your ViT?Data, Augmentation, and Regularization in Vision Transformers

如何訓(xùn)練你的ViT?Vision Transformers 中的數(shù)據(jù)、增強(qiáng)和正則化



論文閱讀總結(jié):


雖然 Vision Transformer (ViT) 模型很靈活并且不需要預(yù)先支持的歸納偏差(例如卷積的平移等方差),但它們的訓(xùn)練協(xié)議可能相當(dāng)復(fù)雜,最終結(jié)果可能對超參數(shù)敏感。施泰納等人旨在研究計(jì)算預(yù)算、模型大小、增強(qiáng)/正則化和訓(xùn)練數(shù)據(jù)量之間的權(quán)衡。


該論文為從業(yè)者提供了寶貴的見解,并展示了超過 5 萬次 ViT 培訓(xùn)運(yùn)行的結(jié)果。


具體來說,論文中作者表明,通過使用數(shù)據(jù)增強(qiáng)(例如 MixUp 和 RandAug)和模型正則化(例如權(quán)重衰減和丟棄)的正確組合,可以實(shí)現(xiàn)與在 10 倍數(shù)據(jù)上訓(xùn)練的模型相當(dāng)?shù)哪P托阅?。在大?shù)據(jù)上預(yù)先訓(xùn)練的ViT也會產(chǎn)生表征,更適合下游傳輸。


此外,作者表明,僅微調(diào)單個(gè)最佳轉(zhuǎn)換器(在預(yù)訓(xùn)練數(shù)據(jù)集上評估)通常會產(chǎn)生與基于微調(diào)數(shù)據(jù)選擇的模型相當(dāng)?shù)哪P汀R虼?,微調(diào)單個(gè) ViT 以獲得適合您的傳輸應(yīng)用程序的良好模型可能更具成本效益。


最后,作者比較了不同的增強(qiáng)和正則化技術(shù)。他們發(fā)現(xiàn)數(shù)據(jù)增強(qiáng)在更多情況下似乎比模型正則化更有效??偟膩碚f,論文的主要優(yōu)勢在于它們使用標(biāo)準(zhǔn)化的培訓(xùn)設(shè)置,這使他們能夠提出有證據(jù)支持的聲明。


paper

https://arxiv.org/abs/2106.10270

code

https://github.com/google-research/vision_transformer


03

作者:Jastrzebski et al.(2021)

論文名稱:

Catastrophic Fisher Explosion: Early Phase Fisher Matrix Impacts Generalization

Catastrophic Fisher Explosion:早期Fisher矩陣影響泛化



論文閱讀總結(jié):


人們經(jīng)常會讀到深度學(xué)習(xí)中隨機(jī)梯度下降的“隱式正則化”。但這實(shí)際上指的是什么?


Jastrzebski等人研究了一種由于使用大學(xué)習(xí)率而產(chǎn)生的正則化。他們表明,在訓(xùn)練早期,較小的學(xué)習(xí)率會導(dǎo)致 Fisher 信息矩陣軌跡的強(qiáng)烈振蕩。這種“Explosion”似乎會導(dǎo)致更糟糕的最終泛化,但可以通過提高學(xué)習(xí)率的訓(xùn)練來規(guī)避。


基于這一見解,作者定義了一個(gè)顯式正則化器,它促進(jìn)了一個(gè)小的 Fisher 跟蹤。他們表明,這種正則化器縮小了學(xué)習(xí)率較小的訓(xùn)練運(yùn)行的性能差距,并提供證據(jù)表明,在訓(xùn)練早期使用正則化項(xiàng)時(shí)特別有效。


作者認(rèn)為,這種效果可能是由于記憶有限造成的,并表明 Fisher 矩陣的跡與噪聲示例的梯度成正比。通過懲罰軌跡,可以降低這些示例的學(xué)習(xí)速度并減少過度擬合。


最后,他們表明Fisher懲罰會導(dǎo)致平坦的最小值(通過Hessian的跡線測量的低曲率),這已被證明可以更好地泛化。因此,本文的主要貢獻(xiàn)在于將早期訓(xùn)練階段的不穩(wěn)定性與觀察到的Fisher信息行為聯(lián)系起來。

Paper

https://arxiv.org/abs/2012.14193


04

作者:Raghu et al. (2021)

論文名稱:Do Vision Transformers See Like Convolutional Neural Networks?

視覺轉(zhuǎn)換器看起來像卷積神經(jīng)網(wǎng)絡(luò)嗎?



論文閱讀總結(jié):


Vision transformer是如何解決任務(wù)的? 它們的表征結(jié)構(gòu)與傳統(tǒng)的CNN相似還是完全不同?


研究這個(gè)問題的一個(gè)強(qiáng)大工具是表征相似性分析 (RSA)。RSA 使用 Centered Kernel Alignment 比較不同輸入的兩個(gè)網(wǎng)絡(luò)層的激活。結(jié)果的數(shù)值度量告訴您表示的相似程度。科恩布里斯等人(2019)以前使用這種方法來闡明 ResNets 的計(jì)算機(jī)制。那么與ViT相比有什么區(qū)別呢?

ViT 層在所有層之間具有更一致的相似性。這意味著信息通過架構(gòu)傳播得更強(qiáng)大。拉古等人表明這是由于兩個(gè)原因:


首先,自注意力機(jī)制允許在比局部卷積更早的階段聚合全局信息。


其次,ViTs 中的跳過連接允許通過數(shù)十層傳達(dá)早期聚合信息。如果在某個(gè)塊訓(xùn)練一個(gè)禁用跳過連接的 ViT,這將在所有先前和所有后來的塊之間強(qiáng)制執(zhí)行“通信”分區(qū)。


另一個(gè)發(fā)現(xiàn)是ResNets需要更多的早期層來獲得可以用很少的ViT層獲得的表示。這可能又是由于注意力機(jī)制能夠在早期整合全局信息。最后,作者表明 ViT 需要在大量數(shù)據(jù)上進(jìn)行訓(xùn)練才能學(xué)習(xí)局部性的歸納偏差。甚至 ImageNet-1k 似乎都不夠,只有 Google 內(nèi)部的 JFT-300 數(shù)據(jù)集。


Paper:

https://arxiv.org/abs/2108.08810


參考文檔


https://towardsdatascience.com/four-deep-learning-papers-to-read-in-september-2021-3650a30725d

https://docs.openml.org/

https://github.com/automl/auto-sklearn

http://proceedings.mlr.press/v97/kornblith19a/kornblith19a.pdf

https://twitter.com/hashtag/mlcollage


本文中如果出現(xiàn)翻譯問題,歡迎評論區(qū)討論提出。

免責(zé)聲明:本文內(nèi)容來源互聯(lián)網(wǎng),僅供參考。轉(zhuǎn)載稿件版權(quán)歸原作者和機(jī)構(gòu)所有,如有侵權(quán),請聯(lián)系我們刪除。


每天18:30分更新

關(guān)注學(xué)姐+星標(biāo)+在看

不迷路看好文



9月深度學(xué)習(xí)論文任務(wù)送達(dá) 內(nèi)附論文讀后總結(jié)的評論 (共 條)

分享到微博請遵守國家法律
明溪县| 兰考县| 崇义县| 玛纳斯县| 额尔古纳市| 东港市| 赤峰市| 临猗县| 额尔古纳市| 石门县| 九江市| 新郑市| 沾益县| 民权县| 五常市| 铁力市| 娄底市| 子长县| 竹山县| 迁安市| 东兰县| 武穴市| 清徐县| 化州市| 铜川市| 兖州市| 宁津县| 鲜城| 湘潭市| 盐山县| 龙江县| 棋牌| 阳谷县| 化德县| 渭源县| 米林县| 丹凤县| 丰宁| 武邑县| 萍乡市| 深水埗区|