圖靈AI&ChatGPT實(shí)戰(zhàn)訓(xùn)練營(yíng)
一,ChatGPT簡(jiǎn)介
ChatGPT是一款于2022年11月30日在美國(guó)發(fā)布的聊天機(jī)器人程序,是一款基于人工智能技術(shù)驅(qū)動(dòng)的自然語言處理工具。
ChatGPT全稱為“Chat Generative Pre-trained Transformer”,Chat是聊天,GPT是“生成型預(yù)訓(xùn)練變換模型”,它可以翻譯成“聊天生成預(yù)訓(xùn)練轉(zhuǎn)換器”或簡(jiǎn)稱“優(yōu)化對(duì)話的語言模型”。
ChatGPT是OpenAI開發(fā)的、具有語言預(yù)測(cè)與文本續(xù)寫功能的一個(gè)大模型。一個(gè)用對(duì)話的方式進(jìn)行交互的模型。一種基于互聯(lián)網(wǎng)可用數(shù)據(jù)訓(xùn)練的文本生成深度學(xué)習(xí)模型。一個(gè)人工智能聊天機(jī)器人程序。
ChatGPT是一款建立在云計(jì)算、海量數(shù)據(jù)庫(kù)、人工智能算法架構(gòu)和深度神經(jīng)網(wǎng)絡(luò)基礎(chǔ)之上開發(fā)的聊天機(jī)器人程序,它不像傳統(tǒng)的搜索引擎一樣復(fù)制和拼湊網(wǎng)上已有的信息給用戶。相反,它提供的回答是有邏輯的、生動(dòng)的,有上下文關(guān)聯(lián)的。
總結(jié)一下,ChatGPT是美國(guó)人工智能研究實(shí)驗(yàn)室OpenAI新推出的一種人工智能技術(shù)驅(qū)動(dòng)的自然語言處理工具,使用了Transformer神經(jīng)網(wǎng)絡(luò)架構(gòu),也是GPT-3.5架構(gòu),這是一種用于處理序列數(shù)據(jù)的模型,擁有語言理解和文本生成能力,尤其是它會(huì)通過連接大量的語料庫(kù)來訓(xùn)練模型,這些語料庫(kù)包含了真實(shí)世界中的對(duì)話,使得ChatGPT具備上知天文下知地理,還能根據(jù)聊天的上下文進(jìn)行互動(dòng)的能力,做到與真正人類幾乎無異的聊天場(chǎng)景進(jìn)行交流。ChatGPT不單是聊天機(jī)器人,還能進(jìn)行撰寫郵件、視頻腳本、文案、翻譯、代碼等任務(wù)。
ChatGPT功能
ChatGPT目前系統(tǒng)功能主要是文本生成、聊天機(jī)器人、語言問答、語言翻譯、自動(dòng)文摘、繪畫功能、編程功能、視頻生成等八大功能模塊所組成。
二,ChatGPT底層技術(shù)架構(gòu)
ChatGPT生成性預(yù)訓(xùn)練變換模型
從ChatGPT字面意思來看,Chat是聊天,GPT才是關(guān)鍵。
字母G是Generative,屬于生成的人工智能,根據(jù)我們的需要,創(chuàng)造生成全新的內(nèi)容。
字母P是Pre-trained的縮寫,預(yù)訓(xùn)練。表示這個(gè)模型已經(jīng)在大量的數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練,ChatGPT在與人的對(duì)話中幾乎接近正常人的交流,就是因?yàn)橐呀?jīng)接受過海量數(shù)據(jù)的訓(xùn)練,而這些數(shù)據(jù)就是我們2022年以前在互聯(lián)網(wǎng)上的內(nèi)容(目前版本的ChatGPT還不具備網(wǎng)絡(luò)數(shù)據(jù)實(shí)時(shí)更新功能)。ChatGPT當(dāng)前還沒有實(shí)現(xiàn)網(wǎng)絡(luò)的實(shí)時(shí)連接,因此回答問題的時(shí)效性受到一定的限制。
字母T是Transformer,轉(zhuǎn)換器的意思,是ChatGPT底層人工智能學(xué)習(xí)的一個(gè)算法架構(gòu)。
ChatGPT嚴(yán)格意義上來說是一種基于Transformer的自然語言處理模型。采用預(yù)訓(xùn)練加微調(diào)的方法,通過對(duì)大規(guī)模語料庫(kù)進(jìn)行預(yù)訓(xùn)練,對(duì)標(biāo)注數(shù)據(jù)進(jìn)行微調(diào),從而使模型能夠適應(yīng)特定的自然語言處理任務(wù),擁有語言理解和文本生成能力。
ChatGPT的演進(jìn)
ChatGPT使用基于GPT-3.5架構(gòu)的大型語言模型并加以強(qiáng)化訓(xùn)練訓(xùn)練。
ChatGPT的演進(jìn)過程:
第一階段:GPT-1發(fā)布
2018年6月,OpenAl 第一篇論文《Improving Language Understanding by Generative Pre-Training》通過生成式預(yù)訓(xùn)練來提高語言理解能力的論文中提出了第一個(gè)模型GPT-1。從這篇論文中得出的關(guān)鍵結(jié)論是,Transformer 架構(gòu)與無監(jiān)督預(yù)訓(xùn)練的結(jié)合產(chǎn)生了GPT-1, 加上有監(jiān)督微調(diào)方式,針對(duì)特定任務(wù)進(jìn)行預(yù)訓(xùn)練,實(shí)現(xiàn)了強(qiáng)大自然語言理解能力。
第二階段:GPT-2發(fā)布
2019年2月,OpenAI發(fā)表了第二篇論文《Language Models are Unsupervised Multitask Learners》,推出了GPT-2 。GPT-2是一種自然語言生成模型,其設(shè)計(jì)目標(biāo)是生成與人類語言相似的文本,可以完成多任務(wù)處理。
第三階段:GPT-3發(fā)布
2020年5月,OpenAI發(fā)表第三篇論文《Language Models are Few-Shot Learners》,推出了GPT-3。GPT-2和GPT-3是兩個(gè)不同的模型,它們的主要區(qū)別在于應(yīng)用場(chǎng)景、模型規(guī)模和性能表現(xiàn)。GPT-3是一種自然語言生成模型,它是目前規(guī)模最大的預(yù)訓(xùn)練模型,可以生成高質(zhì)量的自然語言文本,包括文章、詩(shī)歌、對(duì)話等。GPT-3還支持一些其他的自然語言任務(wù),例如翻譯、問答、語義搜索等。
第四階段:GPT-3.5 發(fā)布
2022年11月29日,OpenAI發(fā)布了一個(gè)命名為“text-davinci-003”(文本-達(dá)芬奇-003常稱為GPT3.5)的新模型。它以對(duì)話方式進(jìn)行交互,既能夠做到回答問題,也能承認(rèn)錯(cuò)誤、質(zhì)疑不正確的前提以及拒絕不恰當(dāng)?shù)恼?qǐng)求。
ChatGPT的預(yù)訓(xùn)練加微調(diào)
所謂的ChatGPT預(yù)訓(xùn)練,是一個(gè)基于transform模型的預(yù)訓(xùn)練語言模型,它的訓(xùn)練邏輯如下:
第一是語料準(zhǔn)備,從互聯(lián)網(wǎng)上收集大量文本語料。
第二是對(duì)數(shù)據(jù)預(yù)處理,對(duì)語料進(jìn)行處理,把它們分割成許多獨(dú)立的句子或段落,對(duì)每個(gè)句子進(jìn)行分詞。分詞后把每個(gè)單詞轉(zhuǎn)換成數(shù)字,生成一個(gè)數(shù)字序列,然后構(gòu)建成數(shù)字詞典。
ChatGPT訓(xùn)練就是使用這些數(shù)字序列用transformer模型進(jìn)行模擬場(chǎng)景試驗(yàn),需要投入大量的人工干預(yù),并使用監(jiān)督學(xué)習(xí)的方式對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào)。根據(jù)獎(jiǎng)勵(lì)模型優(yōu)化策略,然后生成輸出,ChatGPT的預(yù)訓(xùn)練應(yīng)當(dāng)是基于正向傳遞,反向更新,梯度收斂,預(yù)訓(xùn)練模型降低了獲取更高水平人工智能的成本。
ChatGPT的Transformer轉(zhuǎn)換器
ChatGPT的核心技術(shù)之一是Transformer轉(zhuǎn)換器,Transformer技術(shù)是近幾年人工智能技術(shù)最大的亮點(diǎn)之一,由谷歌的人工智能的團(tuán)隊(duì)“谷歌大腦”首先發(fā)布。
這種模型是使用一種叫自注意力的機(jī)制(self attention mechanism),它允許模型在進(jìn)行預(yù)測(cè)的時(shí)候,可根據(jù)語言序列的任何位置,為輸入數(shù)據(jù)的不同部分賦予不同的權(quán)重,并支持處理更大的數(shù)據(jù)集。
Transformer的精度和性能上都比之前流行的CNN(卷積神經(jīng)網(wǎng)絡(luò))、RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))等模型,大幅提升了模型訓(xùn)練的效果,讓人工智能在更大模型、更多數(shù)據(jù)、更強(qiáng)算力的基礎(chǔ)上進(jìn)一步增強(qiáng)運(yùn)算能力。此外,還具有很強(qiáng)的跨模態(tài)處理能力,不僅在NLP(自然語言理解)領(lǐng)域表現(xiàn)優(yōu)異,在語音、圖像方面也顯示出了優(yōu)異的性能。
Transformer是ChatGPT語言模型的核心技術(shù),是一種用于序列到序列(Sequence-to-Sequence)任務(wù)的神經(jīng)網(wǎng)絡(luò)模型,例如機(jī)器翻譯,語音識(shí)別和生成對(duì)話等,它使用了注意力機(jī)制來計(jì)算輸入序列和輸出序列之間的關(guān)系。
Transformer的主要優(yōu)點(diǎn)是它可以并行地處理輸入序列中的所有信息,因此在訓(xùn)練和推理時(shí)都有很高效率。
此外,Transformer沒有使用循環(huán)結(jié)構(gòu),因此它不受長(zhǎng)序列的影響,并且在處理長(zhǎng)序列時(shí)不會(huì)出現(xiàn)梯度消失或爆炸的問題。
ChatGPT人類反饋優(yōu)化語言模型(RLHF)
ChatGPT 面對(duì)多樣化的問題對(duì)答如流,已經(jīng)打破了機(jī)器和人類溝通的邊界,這一工作的背后是大型語言模型 (Large Language Model,LLM) 生成領(lǐng)域的新訓(xùn)練范式RLHF (Reinforcement Learning from Human Feedback) ,即依據(jù)人類反饋的強(qiáng)化學(xué)習(xí)方法模型。
OpenAI官網(wǎng)上如是說:我們使用依據(jù)人類反饋的強(qiáng)化學(xué)習(xí)方法模型(RLHF)來實(shí)施訓(xùn)練,使用監(jiān)督微調(diào)訓(xùn)練一個(gè)初始模型與人類人工智能訓(xùn)練師提供對(duì)話,他們?cè)谄渲邪缪萦脩艉腿斯ぶ悄苤?。我們讓培?xùn)師可以訪問模型編寫的建議,以幫助他們撰寫答案。為了創(chuàng)建強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)模型,我們需要收集比較數(shù)據(jù),其中包括兩個(gè)或多個(gè)按質(zhì)量排名的模型響應(yīng)。為了收集這些數(shù)據(jù),我們進(jìn)行了人工智能培訓(xùn)師與聊天機(jī)器人的對(duì)話。我們隨機(jī)選擇了一個(gè)模型編寫的消息,抽樣了幾個(gè)替代完成,并讓AI培訓(xùn)師對(duì)它們進(jìn)行排名。使用這些獎(jiǎng)勵(lì)模型,我們可以使用近端策略優(yōu)化來微調(diào)模型,我們執(zhí)行了此過程的多次迭代。
ChatGPT強(qiáng)化學(xué)習(xí)算法訓(xùn)練獎(jiǎng)勵(lì)模型簡(jiǎn)單來說就是分為三個(gè)階段:
第一階段是收集示范數(shù)據(jù),人工智能培訓(xùn)師與聊天機(jī)器人對(duì)話,并接受監(jiān)督。
第二階段是收集比較數(shù)據(jù),訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型。
第三階段是利用PPO強(qiáng)化學(xué)習(xí)算法,優(yōu)化一個(gè)針對(duì)獎(jiǎng)勵(lì)模型的策略。
ChatGPT的DALL.E 2自然語言轉(zhuǎn)換成像技術(shù)
根據(jù)OpenAI官網(wǎng)上的介紹,ChatGPT中的DALL.E 2自然語言轉(zhuǎn)換成像技術(shù),最初只是一個(gè)研究項(xiàng)目,目標(biāo)是制定并繼續(xù)改進(jìn)安全緩解的措施,其中包括:
第一、限制DALL·E 2 自然語言轉(zhuǎn)換成影像時(shí)生成暴力、仇恨或成人圖像。通過從訓(xùn)練數(shù)據(jù)中刪除有害的視頻內(nèi)容、使用先進(jìn)的技術(shù)來防止真實(shí)人物的面部,包括公眾知名人物的面部在視頻中出現(xiàn)。
第二、遏制用戶濫用政策。不允許文本要求生成暴力、成人或政治內(nèi)容等視頻。如果我們的過濾器發(fā)現(xiàn)可能違反我們政策的文本提示和圖片上傳,ChatGPT就會(huì)采用自動(dòng)化和人工監(jiān)控系統(tǒng)予以拒絕。
OpenAI認(rèn)為:負(fù)責(zé)任的開發(fā)和安全監(jiān)管是人工智能的重要組成部分,讓用戶對(duì)ChatGPT安全系統(tǒng)有信心。
OpenAI希望DALL.E 2自然語言轉(zhuǎn)換成像技術(shù)能降低圖像生成模型相關(guān)的風(fēng)險(xiǎn)。為此,DALL.E 2在互聯(lián)網(wǎng)上數(shù)億張帶標(biāo)題的圖像上進(jìn)行訓(xùn)練,刪除并重新加權(quán)其中一些圖像,更改模型學(xué)習(xí)的內(nèi)容。
同時(shí),采用在DALL.E 2中設(shè)置各種防護(hù)欄訓(xùn)練數(shù)據(jù)集,過濾訓(xùn)練數(shù)據(jù),放大偏差、重復(fù)數(shù)據(jù)刪除等多種技術(shù)手段,以防止生成的圖像違反內(nèi)容管制政策。使人們能夠創(chuàng)造性地表達(dá)自己,幫助人們了解ChatGPT人工智能系統(tǒng)如何看待和理解我們的世界,對(duì)于創(chuàng)造人類的人工智能使命至關(guān)重要。
ChatGPT存在哪些局限性
1,數(shù)據(jù)偏差和樣本不足問題。雖然 ChatGPT 使用了很大規(guī)模的語料庫(kù)進(jìn)行預(yù)訓(xùn)練,但是其在某些領(lǐng)域的樣本仍然不足,比如在一些非英文的語言中,ChatGPT 的表現(xiàn)不如英文。
2,在訓(xùn)練的強(qiáng)化學(xué)習(xí) (RL) 階段,沒有真相和問題標(biāo)準(zhǔn)答案的具體來源,來答復(fù)你的問題。
3,模型參數(shù)過多,計(jì)算資源要求高。ChatGPT 模型參數(shù)數(shù)量大,對(duì)計(jì)算資源的要求也高,需要大規(guī)模的GPU 集群才能進(jìn)行訓(xùn)練和應(yīng)用。
4,監(jiān)督訓(xùn)練可能會(huì)誤導(dǎo)/偏向模型傾向于知道理想的答案,而不是模型生成一組隨機(jī)的響應(yīng)并且只有人類評(píng)論者選擇好的/排名靠前的響應(yīng)