散文網(wǎng) » 生活 »日常 » 深度之眼預(yù)訓(xùn)練大模型背景下的知識(shí)問答與對(duì)話生成

深度之眼預(yù)訓(xùn)練大模型背景下的知識(shí)問答與對(duì)話生成

2023-06-21 21:49 作者:呀我滴sixgod尼 0人讀過 | 我要投稿

BERT 預(yù)訓(xùn)練模型及文本分類

BERT?全稱為 Bidirectional Encoder Representations from Transformer，是谷歌在 2018 年 10 月發(fā)布的語言表示模型。BERT 通過維基百科和書籍語料組成的龐大語料進(jìn)行了預(yù)訓(xùn)練，使用時(shí)只要根據(jù)下游任務(wù)進(jìn)行輸出層的修改和模型微調(diào)訓(xùn)練，就可以得到很好的效果。BERT 發(fā)布之初，就在 GLUE、MultiNLI、SQuAD 等評(píng)價(jià)基準(zhǔn)和數(shù)據(jù)集上取得了超越當(dāng)時(shí)最好成績(jī)的結(jié)果。但在深入了解 BERT 結(jié)構(gòu)之前，先需要了解一下什么是語言模型，以及在 BERT 誕生之前人們是如何進(jìn)行文本向量化的。

語言模型和詞向量

語言模型?是用于計(jì)算文本序列概率的模型。在自然語言處理的發(fā)展中，應(yīng)用較為廣泛的語言模型有兩種：統(tǒng)計(jì)式語言模型和神經(jīng)網(wǎng)絡(luò)語言模型。接下來就將分別介紹一下它們。
統(tǒng)計(jì)式語言模型
統(tǒng)計(jì)式語言模型（Statistical Language Model）是根據(jù)概率分布，計(jì)算字詞所組成的字符串的幾率的模型，簡(jiǎn)單來說，統(tǒng)計(jì)式語言模型就是計(jì)算一句話符不符合語言規(guī)律。比如，使用語言模型計(jì)算出「我今天吃了一個(gè)蘋果」的概率，一定比「蘋果個(gè)我今天吃了一」的概率大，所以前者比后者存在的可能性更大。
在具體構(gòu)建統(tǒng)計(jì)式語言模型時(shí)，了便于計(jì)算，轉(zhuǎn)化為公式 (2)：

標(biāo)簽：