五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

BERT 論文逐段精讀【論文精讀】

2023-01-20 22:45 作者:夢到死鎖的銀行家  | 我要投稿
  • 摘要

BETR:Bidirectional Encoder Representations from Transformers(transformer模型的雙向編碼器表示)

BERT和ELMo的對比:ELMo用的是基于RNN的架構(gòu),BERT用的是transformer,所以ELMo針對一些下游任務(wù),需要對架構(gòu)做一些調(diào)整,而BERT就不需要做很大的調(diào)整

BERT和GPT的對比,GPT是用左邊的信息預(yù)測未來的信息,是單向的;而BERT是雙向的,也就是利用上下文的信息

  • 引言

使用預(yù)訓(xùn)練模型做特征表示的兩種策略:feature-based和fine-tuning。

  1. 基于特征的方法的代表ELMo,對每一個下游任務(wù)構(gòu)造一個和該任務(wù)相關(guān)的神經(jīng)網(wǎng)絡(luò)(用的是RNN架構(gòu))
  2. 基于微調(diào)的方法的代表是GPT,把預(yù)訓(xùn)練好的模型放在下游的任務(wù)時不需要改變太多,只需要改一點(也就是模型預(yù)訓(xùn)練好的參數(shù)會在下游任務(wù)的數(shù)據(jù)上進行微調(diào)即可)
  3. 總結(jié):這兩種方法都是使用相同的目標函數(shù),都是使用一個單向的語言模型

引出作者的想法

以上的方法在做預(yù)訓(xùn)練的表征的時候會有局限性,因為標準的語言模型是單向的,所以存在一定的局限性。比如GPT是從左到右的架構(gòu),但是比如分析句子情感的任務(wù),從左到右和從右到左都是合法的;而兩個方向的信息應(yīng)該都有用,所以針對此類任務(wù),應(yīng)該使用兩個方向的信息,效果會更好。

作者的做法

使用“完形填空”方式(masked lanuage model, MLM)來預(yù)訓(xùn)練以減輕單向性造成的約束。提出的MLM方式就是隨機蓋住一些token,然后目標函數(shù)是預(yù)測哪些被蓋住的token。

(打算先看完BERT再去看ViLT)

BERT 論文逐段精讀【論文精讀】的評論 (共 條)

分享到微博請遵守國家法律
晋宁县| 尼木县| 宜黄县| 余庆县| 剑河县| 石家庄市| 商河县| 隆子县| 陇川县| 井陉县| 耿马| 精河县| 马尔康县| 珠海市| 东乌珠穆沁旗| 牡丹江市| 枣阳市| 金寨县| 汽车| 南充市| 景德镇市| 黄冈市| 沂水县| 五原县| 瑞丽市| 海盐县| 上饶市| 安溪县| 丹东市| 长武县| 乳山市| 藁城市| 绥芬河市| 锦屏县| 德钦县| 安西县| 平阴县| 通城县| 无棣县| 康乐县| 肇源县|