【花師小哲】當(dāng)代煉金術(shù)(神經(jīng)網(wǎng)絡(luò))前沿(12)——WebGPT:GPT并不是首次結(jié)合Bing?
看到WebGPT先不要恐慌,這不是什么GPT的新殺器(GPT-4:不然我的排面呢),其實(shí)是2021年就有的一個(gè)GPT模型,這也是說(shuō),GPT族其實(shí)并不是第一次和Bing結(jié)合,而是早就做過(guò)了。但是,顯然,WebGPT并不是很成功的一款產(chǎn)品,以至于談到ChatGPT人們一般會(huì)認(rèn)為InstructGPT是其前身(或姐妹模型),而不會(huì)談到WebGPT,于是,這篇我們來(lái)談?wù)刉ebGPT。


1.lamda
先說(shuō)下我是如何知道WebGPT的,其實(shí)很簡(jiǎn)單,就是在讀lamda論文的時(shí)候看到相關(guān)研究里有(這答案好沒(méi)有新意哦,就像是發(fā)現(xiàn)奧利奧里有糖霜一樣[?])。
簡(jiǎn)單介紹一下,lamda是谷歌的問(wèn)答系統(tǒng),它做出來(lái)比ChatGPT早,但是谷歌出于很多問(wèn)題的顧慮所以并沒(méi)有放出來(lái),最近放出來(lái)的Bard可以認(rèn)為是基于lamda的模型,當(dāng)然,目前看起來(lái)這個(gè)產(chǎn)品并不成功。和GPT一樣,lamda也是模型族,這個(gè)族里有不同參數(shù)量的一群模型
其實(shí)最開(kāi)始先吐槽lamda主要是這篇論文是在是讀的太痛苦了,直接放一張圖:

沒(méi)錯(cuò),lamda并不是端到端的系統(tǒng),是可以查詢外部信息來(lái)生成答案的,并且采取了大量的措施來(lái)使得其回答更優(yōu)質(zhì)。
那么,何為優(yōu)質(zhì)呢?論文提到三個(gè)指標(biāo):質(zhì)量、安全和符合事實(shí)。然后就到了這篇論文極其頭疼的地方了——它花了極大地篇幅來(lái)講各種各樣的評(píng)價(jià)指標(biāo)及其用法,這顯得整個(gè)系統(tǒng)極其復(fù)雜。然而諷刺的是,最終谷歌還是害怕lamda會(huì)出現(xiàn)危險(xiǎn)的答案,沒(méi)把它放出來(lái)。
相比之下,ChatGPT就簡(jiǎn)單粗暴很多,不需要什么指標(biāo),只要人的智能夠多,機(jī)器的智能就夠多。

2.WebGPT是什么樣的系統(tǒng)
相信我,你不太會(huì)愿意用它的,至少我完全不想著用,畢竟人家的界面都是這樣的:

倒不是說(shuō)界面不好看,主要是人一眼看過(guò)去應(yīng)該不知道怎么用。
簡(jiǎn)單來(lái)說(shuō),這確實(shí)是一個(gè)問(wèn)答系統(tǒng),但是其運(yùn)作方式大概是這樣的(我沒(méi)用過(guò),只是根據(jù)論文猜個(gè)大概):
(1)輸入問(wèn)題
(2)WebGPT會(huì)從Bing的API中獲取很多鏈接,它會(huì)自己篩選一些它認(rèn)為高質(zhì)量的鏈接,并給出這些鏈接的摘要(PS:現(xiàn)在的ChatGPT也會(huì)給每一個(gè)New Chat生成摘要哦)
(3)人可以再次篩選需要的鏈接
(4)點(diǎn)擊“答案生成”按鈕,WebGPT會(huì)結(jié)合這些鏈接生成答案
(5)人可以反饋答案是否滿意(ChatGPT也有哦),這期間所有的人類操作都可以當(dāng)做反饋。
當(dāng)然人在用系統(tǒng)給的反饋只是錦上添花,基礎(chǔ)的功能還是要在發(fā)布時(shí)就實(shí)現(xiàn)好

3.人類反饋
從標(biāo)題就可以看出來(lái),這篇論文試圖說(shuō)明一個(gè)觀點(diǎn):對(duì)于語(yǔ)言大模型,最終人類反饋是繞不開(kāi)的。這也是后來(lái)ChatGPT會(huì)出現(xiàn)的一個(gè)很重要的結(jié)論。
一共有四種:
(1)行為克隆(Behavior cloning, BC),或監(jiān)督微調(diào)。
(2)獎(jiǎng)勵(lì)模型(Reward modeling, RM)。
(3)強(qiáng)化學(xué)習(xí)(Reinforcement learning, RL)。
(4)拒絕抽樣(Rejection sample)。
畢竟這個(gè)系列的專欄是科普性質(zhì),就不展開(kāi)講了。
最終WebGPT的實(shí)驗(yàn)證明最有效的組合是(1)+(4),然而,懂一些ChatGPT底層技術(shù)的朋友應(yīng)該知道,ChatGPT的幾個(gè)重要核心其實(shí)是(2)+(3),可以說(shuō)WebGPT完全避開(kāi)了正確答案(?)
還好WebGPT的論文沒(méi)有說(shuō)死,還是說(shuō)了強(qiáng)化學(xué)習(xí)在某些場(chǎng)合下是有用的,不然這梗我可能又要玩一年了

4.為什么WebGPT沒(méi)有像ChatGPT那樣成功
(這個(gè)問(wèn)題是不是該問(wèn)問(wèn)InstructGPT,畢竟它和ChatGPT應(yīng)該是目前最像的模型了)
這部分涉及到一些專業(yè)知識(shí)(畢竟是直接粘貼了我的論文筆記,懶得寫新的了)。僅為個(gè)人初步觀點(diǎn)。
(1)交互界面不夠靈活,提問(wèn)要有一定的形式,更類似于數(shù)據(jù)庫(kù)檢索或web信息檢索系統(tǒng);
(2)答案受查詢結(jié)果的影響較大(雖然WebGPT會(huì)使用語(yǔ)言模型再給鏈接提取摘要);
(3)比較數(shù)據(jù)是對(duì)兩種回答排序,更多的排序交給了RM(以防大家忘記,這個(gè)是獎(jiǎng)勵(lì)模型,不是RoboMaster),而ChatGPT是人工的多回答排序;
(4)人類的反饋太多反而使得使用的步驟過(guò)于繁瑣

5.結(jié)語(yǔ)
其實(shí)在寫這篇專欄的時(shí)候收到了導(dǎo)師的這一條消息:

好吧,我被迫進(jìn)入新的時(shí)代了,雖然其實(shí)我并不是很清楚出了什么事(按理說(shuō)表格預(yù)訓(xùn)練都還處于研究初期啊,都是一群謎語(yǔ)人),但突然有些感慨,畢竟這個(gè)時(shí)代終歸會(huì)來(lái)的。