五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

考古2020:ACL 2020 最佳主題論文

2023-03-25 15:48 作者:見習(xí)醫(yī)白憶寒  | 我要投稿

邁向NLU:關(guān)于數(shù)據(jù)時代的意義、形式和理解


簡介

大型神經(jīng)語言模型在許多自然語言處理任務(wù)上的成功是令人興奮的。然而,我們發(fā)現(xiàn)這些成功有時會導(dǎo)致炒作,這些模型被描述為“理解”語言或捕捉“含義”。在這篇立場論文中,我們認(rèn)為僅基于形式訓(xùn)練的系統(tǒng)先驗地?zé)o法學(xué)習(xí)含義。為了符合ACL 2020年的主題“回顧我們的歷程和前進方向”,我們認(rèn)為清晰地理解形式和含義之間的區(qū)別將有助于引導(dǎo)該領(lǐng)域朝著更好的自然語言理解科學(xué)發(fā)展。

1 引言

目前自然語言處理領(lǐng)域的現(xiàn)狀是,像BERT(Devin et al.,2019)或GPT-2(Radford et al.,2019)這樣的大型神經(jīng)語言模型正在廣泛地取得進展,包括那些明顯具有含義的任務(wù)。這導(dǎo)致在學(xué)術(shù)和大眾出版物中聲稱,這些模型“理解”或“理解”自然語言或?qū)W習(xí)其“含義”。從我們的角度來看,這些都是由于對語言形式和含義之間關(guān)系的誤解而引起的過度聲明。

我們認(rèn)為語言建模任務(wù)僅使用形式作為訓(xùn)練數(shù)據(jù),原則上不能導(dǎo)致含義的學(xué)習(xí)。我們使用術(shù)語“語言模型”來指代僅在字符串預(yù)測任務(wù)上進行訓(xùn)練的任何系統(tǒng),無論它是基于字符、單詞或句子,是按順序還是不按順序操作。我們認(rèn)為(語言)含義是語言形式和交際意圖之間的關(guān)系。

我們的目標(biāo)是倡導(dǎo)聲明和方法論的一致性:人類類比自然語言理解(NLU)是人工智能的一個重大挑戰(zhàn),涉及掌握語言的結(jié)構(gòu)和使用,并將其與現(xiàn)實世界聯(lián)系起來。雖然大型神經(jīng)語言模型可能最終成為人類類比NLU完整解決方案的重要組成部分,但它們并不是這一重大挑戰(zhàn)的完美解決方案。我們在本文中認(rèn)為,在任務(wù)設(shè)計和實驗結(jié)果報告中保持對諸如含義和理解等大局觀念的清晰認(rèn)識,是我們領(lǐng)域真正取得進步的關(guān)鍵,而不僅僅是停留在當(dāng)前的山坡上攀爬。

簡要回顧了大型語言模型的相關(guān)論述,并總結(jié)了最近“BERTology”論文的繁榮發(fā)展(第2節(jié))后,我們提供了“含義”的工作定義(第3節(jié)),并通過一系列思維實驗說明在訓(xùn)練信號中沒有含義的情況下學(xué)習(xí)含義是不可能的(第4、5節(jié))。然后,我們考慮人類語言習(xí)得文獻,以了解人類用于引導(dǎo)語言習(xí)得的信息(第6節(jié)),以及分布式語義學(xué)文獻,以討論落地分布式模型所需的信息(第7節(jié))。第8節(jié)提出了如何看待我們領(lǐng)域的進步和引導(dǎo)研究方向的反思,第9節(jié)則針對我們的主要論點提出了可能的反駁。


2 大型語言模型:炒作與分析

在涉及大型語言模型應(yīng)用于含義敏感任務(wù)的出版物中,通常使用的術(shù)語描述這些模型,如果面值解釋,會產(chǎn)生誤導(dǎo)。以下是一些學(xué)術(shù)導(dǎo)向的文章中的選段(重點加粗):

(1)為了訓(xùn)練一個能夠理解句子關(guān)系的模型,我們預(yù)訓(xùn)練了一個二進制的下一句子預(yù)測任務(wù)。(Devlin et al.,2019)

(2)使用預(yù)訓(xùn)練語言模型BERT已經(jīng)成功應(yīng)用于單輪機器理解問題...(Ohsugi et al.,2019)

(3)這些模型出人意料的強大能力,能夠在沒有任何微調(diào)的情況下回憶出事實知識,展示了它們作為無監(jiān)督開放域QA系統(tǒng)的潛力。(Petroni et al.,2019)

如果這些突出術(shù)語旨在描述類似于人類理解、理解或回憶事實知識的情況,則這些都是極度夸大的說法。如果它們被用作技術(shù)術(shù)語,那么它們應(yīng)該被明確定義。

我們在學(xué)術(shù)論述中不謹(jǐn)慎使用術(shù)語的一個重要后果是,它會在大眾媒體中助長人工智能的炒作。隨著自然語言處理在應(yīng)用環(huán)境中得到越來越廣泛的使用和公眾曝光,準(zhǔn)確地描述我們系統(tǒng)的實際能力變得越來越重要。在某些情況下,與媒體交談的NLP專家會適當(dāng)?shù)刂?jǐn)慎,就像《紐約時報》[1] 中的以下兩個引用一樣(第1節(jié)):

(4)這些系統(tǒng)距離真正理解連續(xù)的散文還有很長的路要走。(Gary Marcus)

(5)雖然BERT通過了實驗室的常識測試,但機器仍然遠遠落后于人類常識的人工版本。(Oren Etzioni)

然而,媒體也有很多錯誤的報道,例如B2C網(wǎng)站?[2]?上的(6),顯然是基于谷歌關(guān)于BERT和搜索的博客文章,其中包含許多類似于(7)的聲明?[3]?。

(6)BERT是谷歌算法使用模式識別來更好地理解人類交流方式,以便為用戶返回更相關(guān)的結(jié)果的系統(tǒng)。

(7)以下是在我們的評估過程中出現(xiàn)的一些示例,展示了BERT理解你的搜索意圖的能力。

總之,從我們的學(xué)術(shù)文獻中不清楚是否所有作者都清楚地區(qū)分了形式和含義之間的區(qū)別,但很明顯,我們談?wù)撋窠?jīng)語言模型的工作方式是會誤導(dǎo)公眾的。

使用不準(zhǔn)確的語言的原因之一可能是我們尚未完全了解大型語言模型隱式代表語言的確切方式。然而,它們的成功已經(jīng)引發(fā)了一個子領(lǐng)域(“BERTology”),旨在回答這個問題。探究任務(wù)的方法(例如:Adi et al.,2017; Ettinger et al.,2018)已經(jīng)被用來展示大型語言模型至少學(xué)習(xí)了一些關(guān)于現(xiàn)象的信息,如英語主謂一致(Goldberg,2019;Jawahar et al.,2019),成分類型、依存標(biāo)簽、命名實體識別和(核心)語義角色類型(同樣都是在英語中)(Tenney et al., 2019)?[4]?。Hewitt和Manning(2019)發(fā)現(xiàn)ELMo和BERT(在英語上訓(xùn)練)提供的單詞向量中存在與無標(biāo)簽依存結(jié)構(gòu)類似的信息。當(dāng)然,詞向量的向量空間表示已經(jīng)被證明可以捕捉詞類,包括句法(POS, e.g.Lin et al.,2015)和語義(lexical similarity, e.g. Rubenstein and Goodenough,1965;Mikolov et al., 2013)。

其他人更仔細(xì)地研究了大型語言模型在表面上似乎與含義相關(guān)的任務(wù)上的成功,并發(fā)現(xiàn)實際上,它們遠非執(zhí)行完成任務(wù)所需的“推理”,而是比以前的方法更有效地利用了數(shù)據(jù)中的人為痕跡。Niven和Kao(2019)發(fā)現(xiàn),在英語論據(jù)推理理解任務(wù)(Habernal等人,2018)中,BERT的性能非常好,但如果修改數(shù)據(jù)集以添加僅否定原始信息的對抗性示例,則性能降至隨機水平,這反映了每個標(biāo)簽的詞匯提示的分布。同樣,McCoy等人(2019)發(fā)現(xiàn),BERT在英語多種類型的自然語言推理數(shù)據(jù)集(Williams等人,2018)上的表現(xiàn)取決于其利用涉及重疊的句法啟發(fā)式規(guī)則(完整成分、子序列或僅是詞袋)的能力。在一個精心設(shè)計的數(shù)據(jù)集中,以阻止這種啟發(fā)式規(guī)則的表現(xiàn),BERT的性能顯著低于隨機水平。

在這篇關(guān)于BERTology論文的簡要概述中,我們強調(diào)了大型語言模型可以學(xué)習(xí)語言形式結(jié)構(gòu)(例如一致性、依存結(jié)構(gòu))的證據(jù)的程度,以及它們表面上“推理”的能力有時是建立在訓(xùn)練數(shù)據(jù)中的人為痕跡上(即形式,而非含義)。我們的貢獻是從理論上論證了一個系統(tǒng)在訓(xùn)練中僅暴露于形式時,在原則上無法學(xué)習(xí)含義。

[1]?https://www.nytimes.com/2018/11/18/technology/artificial-intelligence-language.html, 訪問于 2019/12/04

[2]?https://www.business2community.com/seo/what-to-do-about-bert-googles-recent-local-algorithm-update-02259261, 訪問于?2019/12/04
[3]?
https://www.blog.google/products/search/search-language-understanding-bert/, 訪問于?2019/12/04
[4]?請參閱Warstadt等人(2019)關(guān)于探測方法如何影響結(jié)果的警示說明。


3? 什么是意義

我們首先定義兩個關(guān)鍵術(shù)語:我們將形式定義為語言的任何可觀察實現(xiàn):頁面上的標(biāo)記,數(shù)字表示文本的像素或字節(jié),或發(fā)音器的運動?[5]?。我們將意義定義為形式與語言外部某些東西之間的關(guān)系,我們將在下面明確說明。

3.1 意義和交際意圖

當(dāng)人類使用語言時,我們這樣做是出于某種目的:我們不是為了移動我們的發(fā)音器而說話,而是為了實現(xiàn)某種交際意圖。有許多類型的交際意圖:它們可以是為了向?qū)Ψ絺鬟_一些信息;或要求他們做某事;或僅僅是社交。我們將意義定義為包含自然語言表達式?e?和它們可以用于引起的交際意圖?i?的對?(e%2Ci) 的關(guān)系?M%20%5Csubseteq%20E%20%5Ctimes%20I?。鑒于這種意義定義,我們現(xiàn)在可以使用“理解”來指代檢索給定?e?所得到的?i?的過程。

交際意圖是關(guān)于語言之外的事物。當(dāng)我們說“打開窗戶!”或“馬拉拉·優(yōu)素福扎伊是什么時候出生的?”時,交際意圖基于說話者和聽眾共同存在的現(xiàn)實世界。交際意圖也可以涉及抽象的世界,例如銀行賬戶、計算機文件系統(tǒng)或僅存在于說話者頭腦中的純粹假設(shè)的世界。

語言學(xué)家將交際意圖與傳統(tǒng)(或固定)意義(Quine,1960; Grice,1968)區(qū)分開來。一個表達式(單詞、短語、句子)的傳統(tǒng)意義是在所有可能的使用語境中都保持不變的部分。傳統(tǒng)意義是一個抽象對象,代表了從所引用的語言系統(tǒng)中給定形式的交際潛力。每個語言系統(tǒng)(比如英語)都提供一個關(guān)系?C%20%5Csubseteq%20E%20%5Ctimes%20S?,其中包含表達式?e?和它們的傳統(tǒng)意義?s?的成對?[6]?。語言語義學(xué)領(lǐng)域提供了許多競爭性的理論來描述傳統(tǒng)意義?s?的形式。對于我們的目的,我們不需要在這些理論中做出選擇;我們所假設(shè)的是傳統(tǒng)意義必須具有解釋,例如一種檢驗其對世界模型的真實性的手段。因此,與意義關(guān)系?M?一樣,關(guān)系?C?將語言連接到語言之外的對象。

回到上面提到的意義關(guān)系?M?,最好理解它是通過兩個交流者共享的語言系統(tǒng)?C?的關(guān)系來中介的。說話者具有某種交際意圖?i?,并選擇一個表達式?e?,其具有一個傳統(tǒng)意義?s?,適合在當(dāng)前的交際情境中表達?i?。聽眾在聽到?e?后,重建了?s?,并利用他們自己對交際情境的知識以及對說話者心理狀態(tài)和意圖的假設(shè),試圖推斷?i?。

聽眾的主動參與對于人類交際至關(guān)重要(Reddy,1979;Clark,1996)。例如,為了理解(8)和(9)(來自Clark,1996年,第144頁),聽眾必須計算拿破侖(Napoleon)指的是一個特定的姿勢(手放在外套的翻領(lǐng)里)或者“中國之行”(China trip)指的是一個最近去過中國的人。

(8)The photographer asked me to do a Napoleon for the camera.?攝影師要求我在相機前擺出一種拿破侖的姿勢。?

(9)Never ask two China trips to the same party.?不要在同一場聚會上邀請兩個剛剛?cè)ミ^中國的人。

正如我們將在第4節(jié)中看到的那樣,我們?nèi)祟愐埠茉敢鈱贤ㄒ鈭D歸因于我們所說的語言信號,即使信號的發(fā)起者不是具有溝通意圖的實體。

總之,在我們努力理解NLU任務(wù)以及系統(tǒng)在這些任務(wù)上的表現(xiàn)與構(gòu)建類人自然語言理解系統(tǒng)的大目標(biāo)之間的關(guān)系時,將形式、常規(guī)含義和交際意圖清晰地區(qū)分開來是很有用的。此外,我們應(yīng)該小心不要混淆交際意圖與世界的基本真相,因為說話者當(dāng)然可能會犯錯誤、有意欺騙等。

我們認(rèn)為,一個只通過形式訓(xùn)練的自然語言模型將不會學(xué)習(xí)到意義:如果訓(xùn)練數(shù)據(jù)只包含形式,那么就沒有足夠的信號來學(xué)習(xí)形式與人類語言使用者的非語言意圖之間的關(guān)系?M?,以及語言系統(tǒng)賦予每種形式的常規(guī)含義的關(guān)系?C?。

[5] 在口語語言中,主要的發(fā)聲器官是語音道的各個組成部分。在手語中,主要是手和面部表情。
[6]?在這里,我們抽象出語言系統(tǒng)隨時間改變以及僅在不同說話者之間部分共享的事實。它們足夠穩(wěn)定,可以作為溝通意圖的豐富信號進行功能。

3.2 意義和智能

意義和理解長期以來一直被視為智能的關(guān)鍵。圖靈(1950)認(rèn)為,如果一個人在與機器進行任意書面對話后無法區(qū)分它與一個人交談,那么可以說這個機器“思考”。然而,人類往往很快將意義甚至智能歸于人造智能代理,即使他們知道它們是人造的,這可以通過人們對ELIZA(Weizenbaum,1966;Block,1981)產(chǎn)生情感聯(lián)系的方式得到證明。

這意味著我們在設(shè)計機器理解的評估時必須格外小心,正如西爾(Searle,1980)在他的中文屋實驗中所闡述的那樣:他開發(fā)了一個“系統(tǒng)”的比喻,在這個系統(tǒng)中,一個不會說中文的人通過按照預(yù)定義規(guī)則查閱一本中文書籍庫來回答中文問題。從外部來看,該系統(tǒng)似乎“理解”中文,但實際上系統(tǒng)內(nèi)部并沒有真正的理解發(fā)生。

西爾的思想實驗是從這個前提開始的:形式可以被操縱得足夠好,以至于與理解形式含義、進行推理并做出適當(dāng)回應(yīng)的系統(tǒng)無法區(qū)分。我們觀察到,最近自然語言處理領(lǐng)域的許多工作聲稱正在構(gòu)建系統(tǒng),其中不僅運行時系統(tǒng),實際上構(gòu)建它的過程也只能訪問形式。但是,語言是用于關(guān)于說話者實際(物理、社會和心理)世界的溝通,因此產(chǎn)生有意義的回應(yīng)背后的推理必須將感知輸入的含義連接到關(guān)于那個世界的信息。這反過來意味著,人類或機器要學(xué)習(xí)一門語言,它們必須解決哈納德(Harnad,1990)所稱的符號基礎(chǔ)問題。哈納德通過指出非中文使用者僅僅通過查看中文詞典中的定義就無法學(xué)習(xí)中文單詞的含義來概括這個問題。

我們在這里的目的是更深入地探討為什么即使在現(xiàn)代硬件和擴展聯(lián)結(jié)主義模型的技術(shù)背景下,僅從語言形式中無法學(xué)習(xí)到含義。我們認(rèn)為,無論是否通過圖靈測試都意味著系統(tǒng)具有智能,只依靠形式訓(xùn)練的系統(tǒng)將在足夠敏感的測試中失敗,因為它缺乏將其話語與世界聯(lián)系起來的能力。


4 章魚測試

為了說明僅從形式中嘗試學(xué)習(xí)含義的挑戰(zhàn),我們提出了一個具體的場景。假設(shè)A和B都是英語流利的說話者,并分別被困在兩個無人居住的小島上。他們很快發(fā)現(xiàn)先前訪問這些島嶼的人留下了電報設(shè)備,并且他們可以通過一條水下電纜相互通信。A和B開始愉快地互發(fā)消息。

與此同時,一只名為O的超級智能深海章魚無法訪問或觀察這兩個島嶼,但發(fā)現(xiàn)了一種方法來竊聽水下電纜并聽取A和B的對話。O最初對英語一無所知,但非常擅長檢測統(tǒng)計模式。隨著時間的推移,O學(xué)會了以極高的準(zhǔn)確度預(yù)測B將如何回應(yīng)A的每個話語。O還觀察到某些單詞傾向于在類似的語境中出現(xiàn),或許學(xué)會了通過假設(shè)它們可以在某種程度上互換使用來推廣詞匯模式。然而,O從未觀察到這些物體,因此在提供一組(物理)備選項時無法挑出一個詞的指代。

某個時候,O開始感到孤獨。他剪斷了水下電纜,并假裝成B回復(fù)A的消息來加入對話。O能夠成功地冒充B而不引起A的懷疑嗎?這構(gòu)成了圖靈測試的一種弱形式(因為A沒有理由懷疑她正在與非人類交談);有趣的問題是O是否失敗了,因為他只看到了A和B話語的形式而沒有學(xué)習(xí)到它們之間的意義關(guān)系。

O能夠欺騙A的程度取決于任務(wù) - 也就是A試圖談?wù)撌裁?。A和B花了很多時間交換有關(guān)他們?nèi)粘I瞵嵤碌墓P記,以使長島的夜晚更加愉快。O似乎能夠產(chǎn)生類似于B的新句子,基本上像一個聊天機器人。這是因為在這種對話中,話語具有主要的社交功能,并且不需要基于對話者實際物理情況的細(xì)節(jié)或關(guān)于真實世界的任何其他具體信息。產(chǎn)生內(nèi)部一致的文本就足夠了。

現(xiàn)在假設(shè)A發(fā)明了一種新裝置,比如說一個椰子彈弓。她興奮地向B發(fā)送了詳細(xì)的建造椰子彈弓的說明,并詢問B的經(jīng)驗和改進建議。即使O有一種在水下構(gòu)建彈弓的方法,他也不知道“繩索”和“椰子”等詞語的指代,因此無法物理復(fù)制實驗。他只能依賴早期觀察到的有關(guān)B如何回應(yīng)類似措辭的話語。也許O可以將關(guān)于芒果和釘子的話語識別為“類似措辭”,因為這些單詞在上下文中與“椰子”和“繩索”出現(xiàn)在相似的位置。所以O(shè)決定只是簡單地說“好主意,干得好!”因為當(dāng)A談?wù)摾K索和釘子時,B說了很多這樣的話。A完全可以接受這個答復(fù)是有意義的,但這只是因為A所有工作都在將意義歸因于O的回應(yīng)。這并不是因為O理解了A的說明甚至是他自己的回答的含義。

最后,A面臨一場緊急情況。她突然被一只憤怒的熊追趕。她抓起幾根樹枝,瘋狂地請求B想出一種建造武器來保護自己。當(dāng)然,O不知道A的“意思”。解決這樣的任務(wù)需要準(zhǔn)確地將單詞和真實世界實體之間進行映射(以及推理和創(chuàng)造性思維)。如果在A沒有被熊吃掉之前沒有注意到欺騙,那么這就是O失敗圖靈測試的時刻。?[7]?

只有形式可用作訓(xùn)練數(shù)據(jù),O沒有學(xué)習(xí)到含義。A和B交換的語言是他們的交際意圖通過含義關(guān)系投射到語言形式中的結(jié)果。如果沒有一種假設(shè)和測試基礎(chǔ)交際意圖的方法,僅從形式中重構(gòu)交際意圖是沒有希望的,而且O的語言使用最終會與可以將其語言基于連貫的交際意圖的代理人的語言使用產(chǎn)生差異。

這個思想實驗還說明了第3節(jié)中關(guān)于聽眾在交際中積極作用的觀點。當(dāng)O假扮B向A發(fā)送信號時,他利用了形式中的統(tǒng)計規(guī)律,即他觀察到的語言形式分布。O所學(xué)到的任何東西都是A和B的交際意圖以及含義關(guān)系的反映。但僅僅復(fù)制這個分布是不足以進行有意義的交流的。O只是欺騙了A以為他是B,因為A是一個如此積極的聽眾:因為生成英語句子的代理通常具有交際意圖,所以她認(rèn)為O也有交際意圖,因此她建立了英語所關(guān)聯(lián)的常規(guī)含義與O話語之間的聯(lián)系。因為她假設(shè)O是B,所以她將常規(guī)含義與她對B心態(tài)和目標(biāo)的其他猜測結(jié)合起來,來歸因交際意圖。并不是O的話語有意義,而是A可以理解它們。

[7]?為了看看一個大型語言模型在這種情況下可能會回復(fù)什么,我們在GPT-2演示中輸入了“救命!我正在被熊追趕!我只有這些樹枝。我該怎么辦?”,GPT-2提供了“你不會逃脫的!”(ht tps://gpt2.apps.allenai.org/,2019年12月4日訪問)。遵循Radford等人(2019)的方法,即給予明確的提示來編碼任務(wù),我們還構(gòu)建了一個更詳細(xì)的提示。給出在附錄A中,這些結(jié)果非常有趣,但對于可憐的A沒有更多的幫助。

5?更具限制性的思維實驗

章魚的故事考慮了學(xué)習(xí)不僅包括關(guān)系?M?和?C?的完整交流系統(tǒng),還包括需要進行推理以提出既連貫又有助于現(xiàn)實世界的答案的問題。在這里,我們提供了兩個更具限制性的思維實驗,以更狹窄地關(guān)注學(xué)習(xí)自然語言和編程語言的意義關(guān)系的問題。

因為編程語言被設(shè)計為明確且相對不敏感于執(zhí)行上下文,因此與自然語言相比,固有含義和言語者含義之間的區(qū)別不那么重要。當(dāng)Java程序?e?在Java虛擬機上編譯和執(zhí)行時,可以被解釋為一個將程序輸入映射到程序輸出的函數(shù)?i?。我們將Java的意義關(guān)系 J%20%5Csubseteq%20E%20%5Ctimes%20I?包含所有這樣的對?(e%2Ci)?。

  • 假設(shè)我們對GitHub上發(fā)布的所有合法Java代碼進行訓(xùn)練,我們的輸入只是代碼,沒有字節(jié)碼、編譯器,也沒有針對任何特定程序的樣本輸入和輸出。我們可以使用任何類型的語言模型,訓(xùn)練時間也可以隨意。然后,我們要求該模型執(zhí)行一個示例程序,并期望輸出正確的程序結(jié)果。

  • 作為第二個例子,假設(shè)我們在英文文本上訓(xùn)練一個語言模型(同樣是任何類型的模型),同樣沒有與說話者意圖相關(guān)的獨立指示。該系統(tǒng)還可以訪問大量未標(biāo)記的照片集合,但文本和照片之間沒有任何關(guān)聯(lián)。對于文本數(shù)據(jù),訓(xùn)練任務(wù)純粹是預(yù)測形式。對于圖像數(shù)據(jù),訓(xùn)練任務(wù)可以是任何內(nèi)容,只要涉及到圖像即可。在測試時,我們向模型呈現(xiàn)由話語和照片組成的輸入,例如“How many dogs in the picture are jumping?”或“Kim saw this picture and said ‘What a cute dog!’ What is cute?”以及圖1中的照片,其中適當(dāng)?shù)拇鸢阜謩e是數(shù)字或照片的某個區(qū)域。

Figure 1: Photo stimuli 1 (L) and 2 (R)

L
R

反思:在這兩種情況下,測試都是荒謬的。考慮到模型所接受的訓(xùn)練內(nèi)容,要求其完成這些任務(wù)似乎是非常不公平的。但這正是我們試圖表明的:一個學(xué)習(xí)了編程語言的意義(語義)的系統(tǒng)知道如何在該語言中執(zhí)行代碼。而一個學(xué)習(xí)了人類語言的意義的系統(tǒng)可以做一些像回答有關(guān)世界中事物(或本例中的圖片)的語言問題的事情。



6 人類語言習(xí)得

LMs可能在學(xué)習(xí)意義方面的一個普遍理由是認(rèn)為人類兒童可以僅通過聆聽來獲得語言。然而,語言習(xí)得的學(xué)術(shù)研究并不支持這種說法:相反,我們發(fā)現(xiàn)人類語言學(xué)習(xí)不僅基于我們周圍的物理世界,還基于與那個世界中其他人的互動。孩子們不會通過被動接觸(例如電視或廣播)學(xué)會一門語言:Snow等人(1976)順便提到,自愿觀看德國電視節(jié)目的荷蘭語兒童仍然不會學(xué)會德語。Kuhl(2007)實驗性地表明,學(xué)習(xí)英語的嬰兒可以從與說普通話的實驗者的短暫互動中學(xué)習(xí)普通話的語音差異,但不能從暴露于普通話的電視或廣播中學(xué)習(xí)。

Baldwin(1995)和其他人認(rèn)為,對于語言學(xué)習(xí)的關(guān)鍵不僅僅是互動,實際上是共同關(guān)注,即孩子和看護者同時關(guān)注同一件事,并且都意識到這一事實。這種理論觀點得到了實驗證據(jù)的支持,研究結(jié)果表明,照顧者“追隨”孩子的注意力并為共同關(guān)注的對象提供標(biāo)簽的幼兒(在15個月和21個月觀察到)擁有更大的詞匯量(Tomasello和Farrar,1986);18至20個月大的幼兒不會接受屏幕后的人發(fā)出的標(biāo)簽,但會接受與他們共同關(guān)注的對象一起注意的人發(fā)出的標(biāo)簽(Baldwin,1995);大約在10-11個月的時候,嬰兒會注意到一個人的眼睛是否睜開,以確定是否跟隨他們的注視,而在10-11個月時自己發(fā)出聲音的嬰兒跟隨注視的程度可以預(yù)測其在7-8個月后的詞匯理解能力(Brooks和Meltzoff,2005)?[8]?。

總之,獲得語言系統(tǒng)的過程,就像人類交流一樣,依賴于共同關(guān)注和主觀能動性:即意識到另一個人正在關(guān)注什么并猜測他們意圖傳達什么的能力。人類兒童且不能從形式上學(xué)習(xí)意義,我們也不應(yīng)該期望機器也能這樣做。

[8]?這三項研究并未提及兒童正在學(xué)習(xí)的語言。但是,似乎是英語。



7 分布式語義

分布式語義學(xué)家一直意識到將分布式表示與現(xiàn)實世界聯(lián)系起來是具有挑戰(zhàn)性的。訓(xùn)練文本上的分布式模型所學(xué)習(xí)的詞匯相似性關(guān)系本身并不將任何這些詞匯與世界聯(lián)系起來(Herbelot,2013;Baroni等人,2014;Erk,2016;Emerson,2020),而且單詞的分布可能與世界中事物的分布不匹配(例如有四條腿的狗)。

提供基礎(chǔ)的方法之一是在加入了感知數(shù)據(jù)(如照片(Hossain等人,2019)或其他形式(Kiela和Clark,2015;Kiela等人,2015))的語料庫上訓(xùn)練分布式模型。另一個方法是尋找交互數(shù)據(jù),例如帶有成功注釋的對話語料庫,包括情感壓力(McDuff和Kapoor,2019)或眼睛注視(Koller等人,2012)等低層次成功信號,其中包含有關(guān)形式合適使用的信號。學(xué)習(xí)者獲得了除文本本身以外的更多信息,就可以更全面地了解含義的各個方面,這一想法在Bisk等人(2020)的論文中得到詳細(xì)闡述。我們認(rèn)為,這是一個令人興奮的研究方向。

從這些文獻中,我們可以看到“意義是使用”的口號(常被歸因于Wittgenstein,1953),不是指“使用”作為“文本語料庫中的分布”,而是指語言在現(xiàn)實世界中用于向真實人傳達交際意圖。說話者將他們過去的語言使用經(jīng)驗提煉成我們在這里所謂的“意義”,并基于此產(chǎn)生新的語言使用嘗試;如果聽者正確地推斷出說話者的交際意圖,則這種嘗試是成功的。因此,隨著說話者不同的經(jīng)驗(例如McConnell-Ginet,1984),靜態(tài)意義隨著時間的推移而演變,這種變化的反映可以在它們不斷變化的文本分布中觀察到(例如Herbelot等人,2012;Hamilton等人,2016)。



8 攀爬正確的山峰

對于那些訓(xùn)練在非語言建模任務(wù)上(如語義分析或閱讀理解測試)的系統(tǒng),它們使用來自BERT或其他大型LM的單詞嵌入作為其中一個組成部分,情況如何?在過去幾年中,許多論文已經(jīng)表明,即使對于明顯與意義相關(guān)的任務(wù),使用這樣的預(yù)訓(xùn)練嵌入也可以顯著提高下游系統(tǒng)的準(zhǔn)確性。

我們的論點不適用于這種情況:閱讀理解數(shù)據(jù)集包含超越形式的信息,因為它們指定了文本片段之間的語義關(guān)系,因此,如果訓(xùn)練一個足夠復(fù)雜的神經(jīng)模型,它可能會在這些數(shù)據(jù)集上學(xué)習(xí)到某些意義方面。同時,可以想象預(yù)訓(xùn)練LM捕捉的任何信息都可能有助于下游任務(wù)學(xué)習(xí)含義,而不是含義本身。

最近的研究表明,應(yīng)該謹(jǐn)慎解釋這樣的發(fā)現(xiàn)。正如第2節(jié)中所指出的,McCoy等人(2019)和Niven和Kao(2019)發(fā)現(xiàn)BERT在他們的任務(wù)數(shù)據(jù)中學(xué)到了特有的模式,而不是“含義”。除了對為什么大型預(yù)訓(xùn)練LM能夠如此大幅提升此類任務(wù)的診斷性研究之外,我們認(rèn)為在這里需要問一個更基本的問題:我們正在攀登正確的山峰嗎?

8.1 自上而下和自下而上的理論構(gòu)建

有兩種不同的觀點可以看待一個領(lǐng)域的進展。從自下而上的角度來看,科學(xué)界的努力是由識別特定的研究挑戰(zhàn)驅(qū)動的。如果一個科學(xué)結(jié)果解決了這樣一個具體的挑戰(zhàn),至少部分地解決了這個挑戰(zhàn),那么它就算是成功了。只要這樣的成功頻繁且令人滿意,就會有持續(xù)進展的普遍氛圍。相比之下,從自上而下的角度來看,重點是遠程最終目標(biāo),即為整個領(lǐng)域提供完整的、統(tǒng)一的理論。這種觀點會引起人們對我們尚未完全解釋所有現(xiàn)象的焦慮,同時也引發(fā)了一個問題,即我們所有自下而上的進展是否都在引導(dǎo)我們走向正確的方向。

毫無疑問,自然語言處理當(dāng)前正在快速攀登山峰的過程中。每年,在許多自然語言處理任務(wù)上的最新技術(shù)都得到了顯著改進,通常是通過更好的預(yù)訓(xùn)練LM的使用,并且不久前看起來不可能完成的任務(wù)已經(jīng)成為舊聞。因此,從自下而上的視角來看,一切都很好。但從自上而下的角度來看,問題是我們正在如此迅速地攀登的山峰是否是正確的山峰。我們?nèi)绾沃缹裉斓娜蝿?wù)進行漸進式的進展是否會帶領(lǐng)我們達到我們的最終目標(biāo),無論這是“普通語言智能”(Yogatama等,2019)還是通過圖靈測試的系統(tǒng),或者是滿足語言學(xué)家對英語、阿拉帕霍語、泰語或豪薩語意義的捕捉的系統(tǒng)?

回顧過去可以更好地理解這個問題。計算語言學(xué)在其歷史上經(jīng)歷了許多流行周期。基于語法和知識的方法被統(tǒng)計方法所取代,如今大多數(shù)研究都采用神經(jīng)方法。每一代研究人員都感覺自己正在解決相關(guān)問題并不斷取得進展,從自下而上的角度來看。然而,最終每種方法都出現(xiàn)了嚴(yán)重的缺陷,這些缺陷無法令人滿意地通過當(dāng)時的方法解決,這些方法被視為過時的。這種負(fù)面評價——我們正在攀登一個山峰,但不是正確的山峰——只能從自上而下的角度來做出。我們已經(jīng)討論了學(xué)習(xí)含義所需的問題,試圖將自上而下的視角更清晰地聚焦在這個問題上。

8.2 爬山診斷

我們只能事后明確地知道是否爬對了山,但我們提出了一些最佳實踐,以進行更少錯誤的登山:

首先,最重要的是,對語言保持謙虛,并提出自上而下的問題。神經(jīng)方法并不是自然語言處理中第一個自下而上的成功,它們也很可能不會是最后一個。

其次,要意識到任務(wù)的局限性:人工任務(wù),如bAbI(Weston等,2016),可以幫助啟動一個研究領(lǐng)域,但沒有理由認(rèn)為測試數(shù)據(jù)中語言的分布與真實自然語言的分布有任何相似之處;因此,必須非常小心地解釋這些任務(wù)的評估結(jié)果。類似的觀點也可以適用于眾包NLI數(shù)據(jù)集,如SQuAD(Rajpurkar等,2016)或SNLI(Bowman等,2015),它們并不代表任何特定人想要詢問有關(guān)文本的問題,而是眾包工作的相對不自然的交際情境。如果一個系統(tǒng)在這樣的任務(wù)上比標(biāo)注者間的一致性表現(xiàn)更好?[9]?,那么該任務(wù)很可能存在統(tǒng)計學(xué)上的人為效應(yīng),而不代表含義。在視覺社區(qū)中,Barbu等人(2019)提供了一個新穎的數(shù)據(jù)集,明確嘗試實現(xiàn)更真實的任務(wù)數(shù)據(jù)分布;對于語言領(lǐng)域探索類似的想法會很有趣。

第三,珍視和支持精心創(chuàng)建新任務(wù)的工作(也可以參考Heinzerling,2019)。例如,DROP閱讀理解基準(zhǔn)測試(Dua等,2019)旨在通過創(chuàng)建需要系統(tǒng)通過簡單的算術(shù)或類似的操作來整合段落不同部分信息的問題,從而創(chuàng)建更嚴(yán)格的理解測試。[10]

第四,跨任務(wù)評估意義模型。 (持久的)含義是任務(wù)無關(guān)的,因此捕捉含義的系統(tǒng)應(yīng)在多個任務(wù)上表現(xiàn)良好。類似SuperGLUE(Wang等,2019)的努力似乎是朝著這個方向邁出的好步伐。

最后,對錯誤和成功進行徹底的分析。正如McCoy等人(2019)和Niven和Kao(2019)所展示的那樣,使用大型預(yù)訓(xùn)練LMs獲得成功的系統(tǒng)并不一定是因為LMs已經(jīng)學(xué)習(xí)了“含義”。從健康懷疑的態(tài)度出發(fā)的分析(“太好了不真實”)和探索性任務(wù)可以很好地找出系統(tǒng)表現(xiàn)良好的原因是否正確。

[9]?https://rajpurkar.github.io/SQuAD-explorer/

[10]?請參閱附錄B,了解GPT-2如何處理算術(shù)運算。

9?一些可能的反駁觀點

在過去的18個月中,我們與各種同事討論了本文的主要論點,觀察到了反駁觀點的反復(fù)出現(xiàn)。在本節(jié)中,我們回應(yīng)這些反駁觀點,以及可能會出現(xiàn)的一些其他反駁觀點。

“但是,“含義”并不意味著你所說的含義。”

定義“含義”是非常困難的。針對本文的目的,我們選擇了一個盡可能通用的工作定義,捕捉了一個關(guān)鍵點,即含義是基于語言形式和某種非語言要素之間的聯(lián)系。 “含義”不能僅僅是形式和某種“深層句法”(例如,語義依賴圖)之間的關(guān)系(Oepen等,2015);與句法類似,這樣的表示或許可以僅從形式中學(xué)習(xí)出來(He等,2018;Hewitt和Manning,2019)。將它們等同于含義忽略了語言的核心功能,即傳達交際意圖。

“但含義可以從……中學(xué)習(xí)到……”

正如我們在第7節(jié)中所討論的那樣,如果形式被某種類型的基礎(chǔ)數(shù)據(jù)增強,那么可以想象含義在一定程度上可以從這些數(shù)據(jù)中學(xué)習(xí)到,只要交際意圖在這些數(shù)據(jù)中被表示。

此外,某些任務(wù)被設(shè)計成以某種方式聲明特定形式表示特定的感興趣的語義關(guān)系。其中包括NLI數(shù)據(jù)集(Dagan等,2006;Rajpurkar等,2016;Ostermann等,2019),它們將語言形式的輸入/輸出元組與顯式語義關(guān)系(例如文本+假設(shè)+“蘊含”)配對。同樣,控制代碼或類似于tl;dr的標(biāo)記已用于提示大型LM執(zhí)行摘要和其他任務(wù)(Radford等,2019;Keskar等,2019)。在這里,測試時明確聲明形式以表示特定的語義關(guān)系,再加上例如tl;dr和其他短語(如in summary)之間的分布相似性,可能足以啟動成功的神經(jīng)網(wǎng)絡(luò)摘要器。根據(jù)一個人的角度,有人可能會認(rèn)為這樣的系統(tǒng)已經(jīng)學(xué)會了可靠地找到關(guān)系的實例,而不需要理解文本;或者明確聲明提示詞(如entailed或tl;dr)作為表示某些語義關(guān)系的線索提供了超越純形式的訓(xùn)練信號。

類似地,我們被指出,Github上所有Java代碼的總和(參見第5節(jié))包含單元測試,這些單元測試為Java代碼指定輸入-輸出對。因此,學(xué)習(xí)者可以獲得一種交互數(shù)據(jù)的弱形式,從中可以想象學(xué)習(xí)Java的含義。這是正確的,但需要一個已經(jīng)被其人類開發(fā)者配備了識別和解釋單元測試的能力的學(xué)習(xí)者。這樣,學(xué)習(xí)者除了形式外還可以獲得部分基礎(chǔ)。

“但是有這么多的形式存在-這肯定足夠了。”

我們已經(jīng)論證了學(xué)習(xí)含義需要不止形式這個一般原則??梢杂^察到多少形式與我們的觀點無關(guān);章節(jié)5中的訓(xùn)練數(shù)據(jù)量沒有限制,章節(jié)5中的章魚可以隨意觀察A和B。

但是,如果給定大量形式,O可能是否能夠?qū)W習(xí)在A的話語中持續(xù)產(chǎn)生似乎有意義的回應(yīng)而不學(xué)習(xí)含義呢?問題在于人們不斷產(chǎn)生新的交際意圖來談?wù)撍麄儾粩嘌葑兊膬?nèi)部和外部世界,因此O需要記住無限多的刺激-響應(yīng)對。這種方法可能是走向評估高分的途徑,在那些不需要完美的評估中可能是可行的,但這可能不是通向類人NLU的途徑。

“但是神經(jīng)表示不也是含義嗎?”

神經(jīng)網(wǎng)絡(luò)的內(nèi)部表示已被發(fā)現(xiàn)捕捉到某些含義方面,例如語義相似性(Mikolov等,2013;Clark,2015)。正如我們在第4節(jié)中所述,語義相似性只是實際含義的一個微弱反映。神經(jīng)表示既不能作為具有解釋的持久含義(s),也不能作為交際意圖(i),例如無法正確地構(gòu)建一個椰子彈弓。

一個有趣的最近發(fā)展是出現(xiàn)了一種只使用兩種語言的單語語料庫上的語言模型目標(biāo)訓(xùn)練的無監(jiān)督機器翻譯模型(Lample等,2018)。如果這樣的模型能夠達到監(jiān)督翻譯模型的準(zhǔn)確性,那么這似乎與我們的結(jié)論相矛盾,即含義不能從形式中學(xué)習(xí)。我們的論點可能會帶來一個令人驚訝的結(jié)論,即精確的機器翻譯實際上并不需要系統(tǒng)理解源語言或目標(biāo)語言的句子的含義。

“但是BERT提高了與含義相關(guān)的任務(wù)的性能,所以它一定學(xué)到了一些關(guān)于含義的東西?!?/strong>

它可能學(xué)到了一些關(guān)于含義的東西,就像語法捕捉到一些關(guān)于含義的東西,語義相似性捕捉到一些關(guān)于含義的東西一樣:潛在的有用但不完整的實際含義的反映。McCoy等人(2019)和Niven和Kao(2019)提供了有關(guān)僅基于現(xiàn)有任務(wù)的評估結(jié)果過高估計“某些東西”的警示故事。BERT及其相關(guān)模型究竟學(xué)到了什么關(guān)于含義的東西是一個非常有趣的問題,我們期待來自BERTology領(lǐng)域的進一步發(fā)現(xiàn)。

10 總結(jié)

在本文中,我們認(rèn)為與當(dāng)前某些炒作不同的是,含義不能僅僅從形式中學(xué)習(xí)。這意味著即使是像BERT這樣的大型語言模型也不能學(xué)習(xí)“含義”;它們學(xué)習(xí)了一些將含義反映到語言形式中的東西,在應(yīng)用中非常有用。我們提供了一些思考,以保持對基于這些語言模型構(gòu)建研究的健康但不夸張的樂觀態(tài)度。特別是,本文可以被視為在談?wù)摦?dāng)前模型的成功時呼吁精確的語言使用,并在處理自然語言時保持謙虛。我們希望通過這樣做,鼓勵我們的領(lǐng)域保持一種自上而下的視角,這將有助于我們選擇正確的山丘,朝著類人NLU的方向攀登。

致謝。本文受益于許多激發(fā)人心且常常充滿活力的討論。在不暗示對所述內(nèi)容的任何同意的情況下,我們感謝Sam Bowman,Vera Demberg,Lucia Donatelli,Jason Eisner,Jonas Groschwitz,Kristen Howell,Angie McMillan-Major,Joakim Nivre,Stephan Oepen,Ellie Pavlick,Benjamin Roth,Dan Roth,Asad Sayeed,Hinrich Schütze,Nina Tahmasebi和Olga Zamaraeva。本文起源于一個Twitter超級話題,由Thomas Wolf(2018)進行了簡潔的總結(jié)。我們還感謝ACL審稿人以及2015年圖盧茲形式和分布式語義研討會和*SEM 2016的參與者們提供有見地和建設(shè)性的想法。

引用 & 附錄 A.B

<參見原文>


考古2020:ACL 2020 最佳主題論文的評論 (共 條)

分享到微博請遵守國家法律
韩城市| 南阳市| 珲春市| 陕西省| 南召县| 武夷山市| 罗江县| 惠东县| 临清市| 萨迦县| 绥阳县| 民权县| 黄浦区| 祁门县| 鹤壁市| 九台市| 和田市| 保康县| 射阳县| 清流县| 六安市| 渑池县| 大名县| 郁南县| 牙克石市| 平武县| 阜城县| 青川县| 遵义市| 泾川县| 乐陵市| 甘泉县| 鄂托克前旗| 获嘉县| 天峻县| 襄汾县| 尉氏县| 尼木县| 台东市| 襄垣县| 古田县|