深度之眼預(yù)訓(xùn)練大模型背景下的知識(shí)問答與對(duì)話生成
BERT 預(yù)訓(xùn)練模型及文本分類
BERT?全稱為 Bidirectional Encoder Representations from Transformer,是谷歌在 2018 年 10 月發(fā)布的語言表示模型。BERT 通過維基百科和書籍語料組成的龐大語料進(jìn)行了預(yù)訓(xùn)練,使用時(shí)只要根據(jù)下游任務(wù)進(jìn)行輸出層的修改和模型微調(diào)訓(xùn)練,就可以得到很好的效果。BERT 發(fā)布之初,就在 GLUE、MultiNLI、SQuAD 等評(píng)價(jià)基準(zhǔn)和數(shù)據(jù)集上取得了超越當(dāng)時(shí)最好成績(jī)的結(jié)果。但在深入了解 BERT 結(jié)構(gòu)之前,先需要了解一下什么是語言模型,以及在 BERT 誕生之前人們是如何進(jìn)行文本向量化的。
語言模型和詞向量
語言模型?是用于計(jì)算文本序列概率的模型。在自然語言處理的發(fā)展中,應(yīng)用較為廣泛的語言模型有兩種:統(tǒng)計(jì)式語言模型和神經(jīng)網(wǎng)絡(luò)語言模型。接下來就將分別介紹一下它們。
統(tǒng)計(jì)式語言模型
統(tǒng)計(jì)式語言模型(Statistical Language Model)是根據(jù)概率分布,計(jì)算字詞所組成的字符串的幾率的模型,簡(jiǎn)單來說,統(tǒng)計(jì)式語言模型就是計(jì)算一句話符不符合語言規(guī)律。比如,使用語言模型計(jì)算出「我今天吃了一個(gè)蘋果」的概率,一定比「蘋果個(gè)我今天吃了一」的概率大,所以前者比后者存在的可能性更大。
在具體構(gòu)建統(tǒng)計(jì)式語言模型時(shí),了便于計(jì)算,轉(zhuǎn)化為公式 (2):
