OpenAI 創(chuàng)始人最新演講:ChatGPT 炸裂新功能,分享怎樣教 AI 使用工具
以下文章來源于Founder Park ,作者Founder Park
OpenAI 的聯(lián)合創(chuàng)始人,三位核心成員之一的 Greg Brockman 日前在 TED2023 上發(fā)表演講,過程中演示了足以取代上周爆火的 AutoGPT 的新功能,還有 OpenAI 在人機(jī)協(xié)作方面的思考和進(jìn)展。
以下是演講內(nèi)容,經(jīng) Founder Park 編輯整理。
七年前,我們創(chuàng)辦了 OpenAI。因為人工智能領(lǐng)域正在發(fā)生一些非常有趣的事,我們想引導(dǎo)它向積極的方向發(fā)展。
從那天到現(xiàn)在,整個領(lǐng)域取得了難以置信的進(jìn)展,令人驚嘆。
人們?yōu)橹d奮,也為之擔(dān)憂。這也是我們所感受到的。
最重要的是,我們似乎正在進(jìn)入一個歷史性時期,全世界都在定義一個對人類社會的未來至關(guān)重要的技術(shù)。
我相信我們可以善加引用這項技術(shù)。
今天我想向你們展示的,就是這項技術(shù)最新的進(jìn)展,以及一些我們一直秉承的基本設(shè)計原則。
01
教會 AI 使用工具
首先,我想展示,如何為 AI 開發(fā)工具,而不是為人類開發(fā)工具。
Greg 展示了如何用 ChatGPT 策劃一頓晚飯,用 Dall-E 繪制出來,用第三方插件列出制作這頓晚飯的菜單,并發(fā)布到推特上。
所有這些動作,都由 ChatGPT 自動完成,但用戶又可以在每一個關(guān)鍵動作中介入操作。
我們繼續(xù)。前面展示的這個案例,關(guān)鍵不僅僅在于如何創(chuàng)建工具,更重要的是如何教會 AI 使用它們。
(它需要理解)當(dāng)我們在問這些相對復(fù)雜的問題時,我們究竟想讓它做些什么?
為此,我們使用了一種古老的想法。
如果你回看阿蘭·圖靈 1950 年關(guān)于圖靈測試的論文,他說,你永遠(yuǎn)不會為這個問題編寫答案。,相反,你可以學(xué)習(xí)。你可以設(shè)計一個機(jī)器,就像一個人類孩子一樣,然后通過反饋來教它。
讓一個人類老師在它嘗試和做出好或壞的事情時提供獎勵和懲罰。這正是我們?nèi)绾斡?xùn)練 ChatGPT 的方法。
這是一個兩步流程。
第一步,我們通過無監(jiān)督學(xué)習(xí)過程生成了圖靈所謂的兒童機(jī)器。
我們只是向它展示整個世界、整個互聯(lián)網(wǎng),并說:「預(yù)測你從未見過的文本中的下一個內(nèi)容?!?/p>
這個過程賦予了它各種厲害的技能。
比如這個數(shù)學(xué)問題,問它下一個詞是什么?那個綠色的「9」,就是數(shù)學(xué)問題的答案。

但是我們還需要做第二步,也就是教 AI 如何使用這些技能。
為此,我們提供反饋。
我們讓 AI 嘗試多種方法,給我們多個建議,然后人類對它們進(jìn)行評分,說「這個比那個好」。這不僅強(qiáng)化了 AI 所說的具體內(nèi)容,而且非常重要的是,強(qiáng)化了 AI 用于產(chǎn)生答案的整個過程。這使它能夠概括。它可以推斷你的意圖并將其應(yīng)用于它以前沒有看到過的情景,那些沒有收到反饋的情況。
現(xiàn)在,有時我們需要教 AI 的東西并不是你所期望的。
例如,當(dāng)我們首次向可汗學(xué)院展示 GPT-4 時,他們說:「哇,這太棒了,我們將能夠教授學(xué)生很棒的東西。只有一個問題,它不會檢查學(xué)生的數(shù)學(xué)。如果有錯誤的數(shù)學(xué),它會快樂地假裝 1+1 等于 3 并運行它?!?/p>
因此,我們需要收集一些反饋數(shù)據(jù)。
薩爾·汗本人非常友善,他自己花了 20 小時時間與我們的團(tuán)隊一起為機(jī)器提供反饋。
在幾個月的時間里,我們能夠教會 AI,「嘿,你真的應(yīng)該在這種特定的情況下反擊人類?!?/p>
通過這種方式,我們實際上對模型進(jìn)行了很多改進(jìn)。當(dāng)你在 ChatGPT 中按下那個不喜歡的大拇指時,實際上就像發(fā)送了一個蝙蝠信號給我們的團(tuán)隊,說「這是一個需要收集反饋的薄弱環(huán)節(jié)」。
因此,當(dāng)你這樣做時,這是我們真正傾聽用戶,并確保我們正在構(gòu)建對每個人都更有用的東西的一種方式。
02
事實核查和人類反饋
提供高質(zhì)量的反饋是一件困難的事情。如果你讓一個孩子打掃房間,如果你只檢查地板,你不知道你是否只是教他們把所有的玩具都塞進(jìn)衣柜里。
同樣的推理也適用于人工智能。隨著我們前往更困難的任務(wù),我們必須擴(kuò)大我們提供高質(zhì)量反饋的能力。但為此,AI 本身樂意提供幫助。它很樂意幫助我們提供更好的反饋,并隨著時間的推移擴(kuò)大我們監(jiān)督機(jī)器的能力。
讓我給你展示一下我的意思。
例如,你可以向 GPT-4 提出這樣的問題,即這兩篇關(guān)于無監(jiān)督學(xué)習(xí)和從人類反饋中學(xué)習(xí)的基礎(chǔ)博客之間經(jīng)過了多長時間?
模型說過去了兩個月。但這是真的嗎?就像這些模型并不是 100%可靠一樣,盡管它們每次提供一些反饋就會變得更好。但我們實際上可以使用 AI 進(jìn)行事實檢查。它可以檢查自己的工作。你可以說,為我核實這一點。
在這種情況下,我實際上給了 AI 一個新工具。這是一個瀏覽工具,模型可以發(fā)出搜索查詢并點擊網(wǎng)頁。它實際上會在執(zhí)行操作時寫出整個思維鏈。它說,我要搜索這個,然后它會進(jìn)行搜索。然后它找到了出版日期和搜索結(jié)果。然后它發(fā)出另一個搜索查詢。它將單擊博客文章。你可以做所有這些,但這是一項非常繁瑣的任務(wù)。這不是人類真正想做的事情。坐在駕駛座上,處于這個管理者的位置,可以更有趣,如果你愿意,可以再次檢查工作。
引文出現(xiàn),因此你可以輕松驗證整個推理鏈的任何部分。
結(jié)果實際上,兩個月是錯誤的。
(ChatGPT 核查后的答案)兩個月零一周,正確的。
03
重新思考人機(jī)交互
對我來說,整個過程最有趣的是它是人類和人工智能之間的多步協(xié)作。
因為人類使用這個事實檢查工具是為了為另一個人工智能生產(chǎn)數(shù)據(jù),使其對人類更加有用。
我認(rèn)為這真正展示了一種我們期望在未來更為普遍的形式,即我們將人類和機(jī)器非常謹(jǐn)慎地設(shè)計成問題的一部分,以及我們希望解決該問題的方式。
我們確保人類提供管理、監(jiān)督、反饋,機(jī)器以可檢查和值得信賴的方式運行。而通過合作,我們能夠創(chuàng)造出更值得信賴的機(jī)器。隨著時間的推移,如果我們正確地進(jìn)行這個過程,我們將能夠解決不可能解決的問題。
多么不可能呢?
我們將重新思考我們與機(jī)器交互的幾乎每一個方面。
例如,電子表格。
自 40 年前的 VisiCalc 以來,它們以某種形式存在。我認(rèn)為它們在那個時候并沒有發(fā)生太多變化。
Greg 在 ChatGPT 中上傳了一個表格,記錄了過去 30 年來 167000 篇 AI 領(lǐng)域論文的數(shù)據(jù)。ChatGPT 使用 Python 自動分析數(shù)據(jù),理解表格的每一縱列意味著什么,并在 Greg 的指令下繪出了多個可視化圖表。Greg 用非??谡Z化的文字表達(dá)對產(chǎn)出效果的不滿,ChatGPT 理解了他的意思,并自動修改了圖表。
04
人與機(jī)器的共同協(xié)作
我們未來會怎樣使用這項技術(shù)呢?
在這頁 PPT 上,一個人帶著他生病的狗去看獸醫(yī),獸醫(yī)卻作出了錯誤的判斷:「我們等等再看看吧?!?/p>
如果狗主人聽了這句話,那只狗就不會活到今天。與此同時,他向 GPT-4 提供了血液檢測和完整的病歷記錄,GPT-4 說:「我不是獸醫(yī),你需要找專業(yè)人士,這里有一些假設(shè)?!?/p>
他把這些信息帶給了第二位獸醫(yī),后者利用這些信息挽救了狗的生命。
這些系統(tǒng)并不完美。你不能過分依賴它們。但這個故事顯示出,一個與醫(yī)療專業(yè)人員和 ChatGPT 一起進(jìn)行頭腦風(fēng)暴的人,能夠取得一個否則不可能實現(xiàn)的結(jié)果。
我認(rèn)為這是我們考慮如何將這些系統(tǒng)整合到我們的世界中時應(yīng)該反思和思考的事情。
我深信,讓人工智能發(fā)揮作用需要大家的參與。這是為了決定我們希望它如何融入,為了制定規(guī)則,決定什么是人工智能會做和不會做的事情。
如果聽完演講你只需要記住一句話,那就是:這項技術(shù)看起來與人們預(yù)期的完全不同。所以我們都必須變得精通。而這也是我們發(fā)布 ChatGPT 的原因之一。我相信,我們可以共同實現(xiàn) OpenAI 的使命,確保人工智能的普及造福全人類。
05
問答環(huán)節(jié)
演講結(jié)束后,TED 主席 Chris Anderson(簡稱 CA) 上臺,與 Greg Brockman (簡稱 GB)做了一個簡短的訪談,下面為訪談內(nèi)容。
CA:OpenAI 只有小幾百名員工。Google 有數(shù)千名員工致力于人工智能。為什么是你們開發(fā)了這項震驚世界的技術(shù)?
GB:事實上,我們都在巨人的肩膀上。毫無疑問,如果你看看算力的進(jìn)步、算法的進(jìn)步、數(shù)據(jù)的進(jìn)步,所有這些都是整個行業(yè)共同努力的結(jié)果。
但是在 OpenAI 內(nèi)部,我們從早期開始就做出了許多非常明智的選擇。
第一個選擇是要直面現(xiàn)實。
我們認(rèn)真思考了:要取得進(jìn)展需要什么?我們嘗試了許多行不通的方法,因此你只會看到那些有效的方法。我認(rèn)為最重要的是讓來自不同背景的人們和諧地協(xié)作。
CA:什么時候意識到智能開始出現(xiàn)了?
GB:深度學(xué)習(xí),我們一直都覺得自己是一個深度學(xué)習(xí)實驗室。
如何做到(智能)?我認(rèn)為在早期,我們不知道。
我們嘗試了很多事情,其中一個人正在訓(xùn)練一個模型來預(yù)測亞馬遜評論中的下一個字符,他得到了一個結(jié)果——這是一個句法過程,你會期望模型會預(yù)測逗號放在哪里,名詞和動詞在哪里。
但他實際上做出了一個最先進(jìn)的情感分析分類器。這個模型可以告訴你一個評論是積極的還是消極的。
今天我們聽到這個,就覺得,得了吧,任何人都可以做到這一點。
但這是你第一次看到這種語義從潛在的句法過程中出現(xiàn)的情況。從那時起,我們知道,你必須擴(kuò)大這個東西,看看它會走到哪里。
CA:我們很多人都有一個困擾。這東西(ChatGPT)被叫做預(yù)測(下一個詞的)機(jī)器,但是從它展現(xiàn)的能力來看,它不可能只是一臺預(yù)測機(jī)器。
涌現(xiàn)思想的關(guān)鍵在于,當(dāng)數(shù)量達(dá)到一定程度時,會出現(xiàn)意外的情況。像螞蟻,一支螞蟻到處跑和一群螞蟻的行動是完全不同的。城市也是,房屋數(shù)量增加,會出現(xiàn)郊區(qū)、文化中心、交通擁堵。
你能告訴我讓你都大吃一驚的意外涌現(xiàn)是什么情況嗎?
GB:在 ChatGPT 中,如果您嘗試添加 40 位數(shù)字,該模型將能夠執(zhí)行它,表明它已經(jīng)學(xué)習(xí)了一個「內(nèi)部電路」(internal circuit)來進(jìn)行加法。然而,如果您讓它做 40 位數(shù)字和一個 35 位數(shù)字的加法,它經(jīng)常會出錯。
這表明雖然它正在學(xué)習(xí)這個過程,但它還沒有完全泛化。
它不可能記住 40 位數(shù)字的加法表,這比宇宙中所有原子的數(shù)量還要多。所以它必須學(xué)會一些基本規(guī)律,(這個案例表明)它還沒完全學(xué)會,不能理解任意數(shù)字是如何相加的。
CA:所以在這里發(fā)生的事情是,你讓它擴(kuò)大規(guī)模并分析了大量的文本。結(jié)果,它正在學(xué)習(xí)你沒有預(yù)料到它能學(xué)到的東西。
GB:嗯,是的,這也更加微妙。我們開始擅長的一門科學(xué)是預(yù)測新興能力。
要做到這一點,工程質(zhì)量至關(guān)重要,而且這個領(lǐng)域經(jīng)常被忽視。我們不得不重建整個堆棧,就像建造火箭一樣,每個公差都必須非常小。
在機(jī)器學(xué)習(xí)中也是如此,在進(jìn)行預(yù)測之前,必須正確地設(shè)計每個堆棧的每個組件。有許多平滑的擴(kuò)展曲線告訴我們智能的一些基本特征。你們可以在我們的 GPT-4 博客文章中看到這些曲線。
現(xiàn)在,我們能夠通過查看比例小 10000 或 1000 倍的模型來預(yù)測編碼問題的性能。雖然現(xiàn)在還處于早期階段,但這其中的一些特點是平穩(wěn)的。
CA: 一個大的擔(dān)憂是隨著規(guī)模的擴(kuò)大,可能會出現(xiàn)一些你能夠預(yù)測但仍然有可能讓你驚訝的事情。這是正在發(fā)生的事情的基礎(chǔ)。但為什么沒有出現(xiàn)真正可怕的巨大風(fēng)險呢?
GB:我認(rèn)為這些都是程度,規(guī)模和時間的問題。
人們似乎忽視了與世界的整合作為一個非常強(qiáng)大和新興的因素。這就是我們認(rèn)為逐步部署非常重要的原因之一。
目前,我的重點是提供高質(zhì)量的反饋。對于我們今天所做的任務(wù),檢查它們很容易。例如,對于數(shù)學(xué)問題的答案為七,這很簡單。然而,監(jiān)督總結(jié)一本書等任務(wù)則很困難。你怎么知道書的總結(jié)是否好呢?你必須閱讀整本書,但是沒有人想這樣做(笑)。
因此,逐步進(jìn)行是很重要的。當(dāng)我們轉(zhuǎn)向書的概要時,我們需要適當(dāng)監(jiān)督這項任務(wù),并與機(jī)器建立一個記錄,以確保它們能夠執(zhí)行我們的意圖。我們必須生產(chǎn)出更好、更有效、更可靠的擴(kuò)展方法,使機(jī)器與我們相一致。
CA:在這個會話的后面,我們將聽到批評者聲稱系統(tǒng)內(nèi)部沒有真正的理解。他們認(rèn)為我們永遠(yuǎn)不會知道系統(tǒng)是否會產(chǎn)生錯誤或者缺乏常識。格雷格,你是否相信這是真的,但是隨著規(guī)模的擴(kuò)大,再加上人類的反饋,系統(tǒng)最終將以高度的自信實現(xiàn)真相和智慧?你能確定這一點嗎?
GB:是的,我認(rèn)為 OpenAI 正在朝著這個方向發(fā)展。OpenAI 的方法是讓現(xiàn)實打在臉上,因為這個領(lǐng)域充滿了空洞的承諾。專家們已經(jīng)說了 70 年,神經(jīng)網(wǎng)絡(luò)不會起作用,但他們?nèi)匀粵]有被證明是正確的。也許還需要 70 年或更長時間才能證明他們是正確的。我們的方法始終是推動這項技術(shù)的極限,以看到它的實際效果,以便我們可以轉(zhuǎn)向新的范式。我們尚未發(fā)掘出這項技術(shù)的全部潛力。
CA:我的意思是,你們所持的立場非常具有爭議性。正確的做法是將其公之于眾,然后利用所有這些反饋,而不僅僅是你的團(tuán)隊提供反饋。現(xiàn)在世界正在提供反饋。但是,如果壞事要出現(xiàn),它們將會出現(xiàn)。
我最初聽說的 OpenAI 的故事是,你們成立為非營利組織,成為對使用 AI 進(jìn)行未知、可能是邪惡的事情的大公司的重要檢查。如果有必要,你們將建立模型來追究他們的責(zé)任,并減緩該領(lǐng)域的發(fā)展速度?;蛘咧辽?,那是我聽到的。
然而,發(fā)生的事情恰恰相反。你們發(fā)布了 GPT,特別是 ChatGPT,震驚了科技界,現(xiàn)在谷歌、Meta 和其他公司正在趕緊跟進(jìn)。他們的一些批評是,你們強(qiáng)迫他們在沒有適當(dāng)防護(hù)措施的情況下發(fā)布這個東西,否則他們就會死亡。
你如何辯稱你們所做的是負(fù)責(zé)任而不是魯莽的呢?
GB:是的,我們一直在思考這些問題——認(rèn)真地思考。我不認(rèn)為我們總能做到完美。但我相信,自從我們開始考慮如何構(gòu)建造福全人類的人工智能時,有一件事情非常重要:我們應(yīng)該如何做到這一點?在秘密建造、獲取超強(qiáng)大工具、然后在啟動前評估其安全性的默認(rèn)計劃似乎令人恐懼和錯誤。我不知道如何執(zhí)行這個計劃,也許有人知道,但對我來說,另一個方法是我看到的唯一的其他路徑。這種方法是讓現(xiàn)實打在你臉上,給人們時間提出意見,在機(jī)器變得完美和超強(qiáng)大之前允許觀察機(jī)器的操作。我們已經(jīng)看到了 GPT-3 的情況,對吧?我們擔(dān)心人們會生成錯誤信息或試圖干擾選舉,但實際上,生成的第一件事情是「偉哥」垃圾郵件。(觀眾笑)
CA:偉哥的垃圾郵件卻是很糟糕,但還有比它更糟糕的事情。這里有一個思想實驗供你思考。假設(shè)你坐在一個房間里,桌子上有一個盒子。你相信盒子里有一些絕對美好的東西,可以給你的家人和其他人帶來美好的禮物。然而,小字里也有一百分之一的可能性,盒子里裝的是「潘多拉」,它可能會釋放出難以想象的惡魔。你會打開這個盒子嗎?
GB:絕對不。我認(rèn)為你不應(yīng)該那樣做。
讓我告訴你一個我之前沒有分享過的故事。我們剛開始開放人工智能時,我在波多黎各參加了一個人工智能會議。我坐在酒店房間里,看著美麗的海水和人們玩樂。有一瞬間,我想知道我更喜歡哪個:五年內(nèi)或五百年內(nèi)打開人工智能的潘多拉之盒。一方面,有些人可能更喜歡它五年后開啟。但是如果它在五百年后,人們會有更多時間來做正確的事情。你會選擇哪一個?在那一刻,我意識到我會選擇五百年。
當(dāng)時,我哥哥在軍隊中,比我們?nèi)魏我晃患夹g(shù)開發(fā)者更真實地冒著生命危險。因此,我非常相信謹(jǐn)慎地開發(fā)人工智能。但是,我認(rèn)為我們沒有準(zhǔn)確評估情況。在計算機(jī)歷史上,這種轉(zhuǎn)變是整個行業(yè),甚至是技術(shù)發(fā)展的人類范疇。如果我們不能把已有的技術(shù)整合起來,我們就會面臨一個過剩的局面。我們?nèi)栽谥圃旄斓挠嬎銠C(jī)和改進(jìn)算法,如果我們不整合它們,其他人就會。當(dāng)他們這樣做時,我們將擁有一種非常強(qiáng)大的技術(shù),沒有任何安全措施。
當(dāng)你考慮其他技術(shù)的發(fā)展,例如核武器,人們談?wù)撍侨祟惸茏龅膹牧愕揭坏淖兓?。但我認(rèn)為能力一直在平穩(wěn)地增長。我們開發(fā)的每一項技術(shù)的歷史都是漸進(jìn)的,我們不得不在每個發(fā)展階段進(jìn)行管理。
CA:所以,如果我理解正確,你想讓我們遵循的模型是,我們生下了一個非凡的孩子,可能具有能夠?qū)⑷祟悗У揭粋€全新層次的超能力。我們有集體責(zé)任為這個孩子提供指導(dǎo),并教導(dǎo)它做出明智的決定,以免它毀滅我們所有人。這是基本的想法嗎?
GB:我相信這是真的。同時也要認(rèn)識到這可能會改變。我們需要針對每一個步驟來處理。今天,至關(guān)重要的是我們變得熟悉這項技術(shù),確定如何提供反饋,并決定我們想從中得到什么。我希望這仍然是最佳的行動方案,但很積極我們正在進(jìn)行這個討論,否則這個討論就不會發(fā)生。