智源深度 | NLP 面臨的三大真實挑戰(zhàn)(含視頻)
自然語言處理一直被譽為人工智能皇冠上的明珠。
一方面,實現(xiàn)語言智能十分艱難。盡管機器人在電競、圍棋等方面頻頻超越人類,但目前的系統(tǒng)仍無法達到三、四歲孩童的語言和理解能力。
另一方面在于自然語言處理本身對實現(xiàn)智能的重要性。
清華大學教授、智源首席科學家孫茂松認為,自然語言處理是機器智能難以逾越的鴻溝,已經(jīng)成為限制人工智能取得更多突破的瓶頸之一。
近期,在智源研究院成立兩周年之際舉辦的“智源論壇2020”中,八位智源學者針對當前自然語言處理領域的發(fā)展提出思考和看法,從多學科的角度啟發(fā)新一代自然語言處理技術,為解決當前面臨的三大真實挑戰(zhàn),提出可借鑒觀點。
整理:智源實習生 周寅張皓
校對:賈偉、羅麗


自然語言處理方向:孫茂松、張家俊、何曉冬、萬小軍、劉知遠
機器學習方向:顏水成
認知神經(jīng)基礎方向:宋森
智能信息檢索與挖掘:趙鑫
整個研討分為兩部分,首先由清華大學孫茂松教授做引導報告《自然語言處理面臨的三大真實挑戰(zhàn)》,隨后八位學者圍繞多個問題進行探討。
1. NLP面臨的三大真實挑戰(zhàn)

清華大學孫茂松教授在引導報告《自然語言處理面臨的三大真實挑戰(zhàn)》中闡述了對于自然語言處理發(fā)展前景的看法。指出自然語言處理在歷史上有兩大范式——理性主義、經(jīng)驗主義,經(jīng)驗主義從九十年代到現(xiàn)在分為多個方向,2018年到現(xiàn)在,是大規(guī)模預訓練語言模型?!钡笠?guī)模預訓練模型并不能真正理解更有深度的問題,因此并不能一味追求大規(guī)模的趨勢,而是應該多軌共同發(fā)展。孫茂松教授提出了當前亟待攻破的挑戰(zhàn),分別是:
挑戰(zhàn)之一:形式化知識系統(tǒng)存在明顯構成缺失。例如現(xiàn)有的知識圖譜大而不強,雖然規(guī)模大,但是實體間關系淺,缺少關于動作的三元組、事件間的邏輯關系。稱之為知識圖譜“三缺其二”。
挑戰(zhàn)之二:深層結構化語義分析存在明顯性能不足。解決知識圖“三缺其二”問題依賴于對語言進行深層次語義分析。近年來對語義的分析取得了長足的進步,但是對深層結構化語義分析“欲行卻止”。
挑戰(zhàn)之三:跨模態(tài)語言理解存在明顯融通局限。目前對跨模態(tài)語言理解的研究方興未艾,是新的重要研究前沿,但是跨模態(tài)關系因缺乏深層結構化語義分析和世界知識導致推理能力較弱,存在“形合意迷”的問題。 ?
針對這三大挑戰(zhàn),孫茂松教授提出了與其對應的三個目標愿景:知識圖譜從“三缺其二”到“三分歸一”;深層結構化語義分析從“欲行卻止”到“且行且進”;跨模態(tài)語言理解從“形合意迷”到“形合意合”。以跨模態(tài)、大數(shù)據(jù)、富知識“三足”,通過經(jīng)驗主義加理性主義的研究方法,迎接挑戰(zhàn)。?
論壇的討論由此展開,每位嘉賓根據(jù)孫茂松教授提出的三個挑戰(zhàn)及其愿景來談自己的看法和觀點。
2. 論 |?富知識?

來自中科院的研究員張家俊強調(diào)了大數(shù)據(jù)、富知識以及多模態(tài)對于實現(xiàn)自然語言處理的終極目的重要性。
張家俊長期從事數(shù)據(jù)和知識的結合以及以文本為核心的多模態(tài)信息處理研究,對于數(shù)據(jù)和知識之間的關系,張家俊闡述了兩個觀點。
第一,現(xiàn)有的知識圖譜仍然比較簡陋。從某一個領域突破,構建一個大而全的知識圖譜是一個比較可行的方案。
第二,我們需要探索新的方法表示知識。以機器翻譯的三個方向發(fā)展來看,一開始是基于規(guī)則或者基于知識的模型,后來發(fā)展到統(tǒng)計方法,統(tǒng)計方法出現(xiàn)之后,知識開始結合在統(tǒng)計翻譯模型里。但到深度學習或者神經(jīng)機器翻譯時代之后,知識的離散符號表示和連續(xù)向量表示無法結合。大規(guī)模的知識是從大規(guī)模的數(shù)據(jù)中而來,而深度神經(jīng)網(wǎng)絡善于從數(shù)據(jù)中學習,不善于融入結構化知識,那么我們需要探索新的方法,將常理知識轉換為高頻出現(xiàn)的數(shù)據(jù),從而讓深度神經(jīng)網(wǎng)絡模型更好地學習結構化的常理知識,提升系統(tǒng)性能。
近期,關于詞典知識在神經(jīng)機器翻譯中的應用研究中,張家俊發(fā)現(xiàn),這一方法確實可以提高性能,其工作目前仍在推進中。

北京大學萬小軍教授發(fā)表了對知識和數(shù)據(jù)這兩方面的看法。他認為知識對自然語言理解非常有幫助??梢詮奈淖肿陨韺W習來看。小時候?qū)W習時,只看一堆文章,沒有任何注釋,也沒有老師教我們體系,但也能學到一些東西,能自己估摸出這個詞是什么意思,能夠推理出來,但是還是比較慢,如果有一個人指導,有一個書把知識體系寫出來之后,再看這個文章后能夠幫助理解更加透徹和更快進步。
但是現(xiàn)在的知識圖譜中的知識很淺,大數(shù)據(jù)驅(qū)動的方法學到的知識也是淺層的,這種“大力出奇跡”的方法更多的是記憶而不是智能,希望未來能將語言學的知識融入模型中得到更好的性能。

中國人民大學長聘副教授趙鑫非??春弥R和數(shù)據(jù)的融合這個方向,但是目前從文獻中沒有看到對知識的一個確切的定義,而計算機本身需要對其輸入進行形式化表示,如果沒有形式化的定義就很難去界定什么是知識。在NLP領域更多是通過關系抽取去構建目前最常用的三元組的知識,但是這種表示的知識是非常淺層有限的。另外一點是,對于大規(guī)模的預訓練語言模型,是否能夠看作知識庫?比如GPT-3這種預訓練模型,它的確可以給出一些不錯的預測,但是也有可能出錯,比如回答“中國的首都是北京”,也許模型可以回答,但是這是否是知識,仍待探究。
3. 論 |?多模態(tài)?

來自京東的何曉東博士認為有效利用多模態(tài)信息是走向通用人工智能的非常重要的方向。因為人的信息肯定是從多個模態(tài)來的,很多信息光讀文本很難判斷。
舉個簡單例子,光看文本不能區(qū)別出顏色的意義,紅色、綠色對文本來說是個符號。所以從這個角度來說,多模態(tài)肯定是 AI 走向通用智能的重要方向。但另一方面,利用多模態(tài)信息也非常困難。比如“看圖說話”這件事情以前一直做不了,是因為圖片本身的模型算法和語言算法完全不一樣,到了深度學習提出概念做Embedding以后,才看到一些有意思的新希望。
近年有研究將不同模態(tài)的數(shù)據(jù)表示投影到統(tǒng)一的連續(xù)空間,在這個空間中做轉換運算,將原始的輸入轉換為抽象的表達,從這些抽象的表達中生成文本或圖像。在這類研究中,如何學習一個通用的共有的語義空間,使得不同模態(tài)的信號能進行比較或者進行計算轉換,以及在不同模態(tài)之間如何做映射,都是值得研究的問題,也是最近逐漸興起的研究方向。
這個方向有些意義和用途,比如最近很多做人工智能內(nèi)容生成的算法模型開始實用化,京東用類似的模型,給定商品規(guī)格、商品圖片,就可以生成一段關于描述這個商品的廣告詞,這是一個很簡單的應用。
反過來也一樣,例如畫一幅畫,描述畫一只鳥,是藍色的背、紅色肚皮,模型就可以創(chuàng)作出來,可以做更多創(chuàng)作性應用。另外何曉東博士指出,孫茂松教授提出的三個挑戰(zhàn)對應的愿景是很好的技術路線,是否能定義一個評價標準,或者是一個具體的任務,來作為向這些愿景前進的量化評判方法。例如知識圖譜從“三缺其二”到“三分歸一”中,對于三元組的知識現(xiàn)有的評價任務是QA,而“三缺其二”中的“其二”可能需要更具現(xiàn)實意義的大規(guī)模任務來判定,這個任務是什么。其他兩個愿景也是如此,應該利用什么任務進行評判。?

顏水成博士從三個維度論證了多模態(tài)研究的重要性。
首先,觀察自己女兒的學習過程,顏博士發(fā)現(xiàn)女兒明顯通過圖片、文字,聲音等多模態(tài)形式的輸入積累,知識才慢慢增長。與此同時,認識的文字,物品越來越多。因此,多模態(tài)相互作用,才能學得更好。既然人的學習是多模態(tài)共同的結果,機器學習應該也是一樣的道理。
第二點,從人腦的一些研究表明,當人閉上眼睛只聽聲音時,視覺中樞神經(jīng)元也會被激活;也就是說人腦中多模態(tài)在某些程度已經(jīng)共享了一些東西了。
第三,用圖表示的形式處理文本、圖像或音頻都有一些不錯的效果,圖網(wǎng)絡的形式跟人腦神經(jīng)的連接形式是非常類似的,圖無序的節(jié)點用某種機制去做一個操作之后產(chǎn)生下一層,這種機制在圖像、語音和語義領域似乎是共享的,說明文本、圖像或音頻數(shù)據(jù)中的知識有些是可以共享的,這可能是一個值得探索的問題。?

清華大學宋森研究員從腦科學的角度給出了關于多模態(tài)的解釋。
NLP的腦科學研究中,通過深度神經(jīng)網(wǎng)絡中的節(jié)點參數(shù)與人腦神經(jīng)元做對應的研究發(fā)現(xiàn),語言不是人腦思考過程中最終的媒介。對于解碼語言與理解語言的信息,大腦中是對應于不同層次的,理解信息是在更高的層次。
因此,比如像BERT這樣的模型可以對應我們語言感知的層,它能夠模擬我們解碼語言的層次,但并不能理解。更高一點的層次在研究中發(fā)現(xiàn)是具有多模態(tài)特征的。
第二點是結合人腦對于記憶的操控,在NLP領域?qū)π畔⑦M行處理時引入時間維度。在大腦中的時間是用嵌套的震蕩的模式來實現(xiàn)的,也有比較長的,也有比較短的。引入時間可以考慮到人的思維特點。
第三點是設計多模態(tài)的任務時能否結合大腦神經(jīng)元的工作方式去考慮。另外他贊同孫茂松教授關于知識層面表示的觀點,在人腦中確實關于表征動詞和名詞的震蕩很不一樣,甚至是在不同的區(qū)域。?

清華大學副教授劉知遠認為大規(guī)模預訓練模型還是存在很大的缺陷,例如生成的語言沒有邏輯性,前后沒有照應關系;預訓練參數(shù)空間學到的是淺層的語義表示,而沒有學到深層的語義知識;另外語言模型無法學到知識的層次性,不能抽象出高層的語義。因此模型不知道自己哪些知識是不知道的,這是預訓練語言模型亟待解決的問題。
4. 論 | 自由討論
自由討論環(huán)節(jié),學者們針對先前的問題,諸如學科交叉、知識表達等,進行了更為深入的探討。
顏水成博士表示,無論是用類似神經(jīng)網(wǎng)絡的形式建立知識體系,還是像先賢們那樣說用一個形式化的系統(tǒng),用一個符號化的系統(tǒng)把這些知識表現(xiàn)出來,無論怎么樣都需要一種能力,把人類對世界認知的方式顯式地在模型內(nèi)部或外部表示出來。
另外,顏水成拋出了三個問題。
第一,關于NLP知識的表示,例如三元組,是否跟人的大腦中知識的表示有關系?
第二,有很多人是文盲不識字,但是一樣可以做推理,仍然具備語言能力,這個在腦科學中如何解釋?
第三,不同語言在大腦中是否有不同分區(qū)?
場下學者指出,不同語言的分區(qū)是不一樣的,例如英語和漢語在大腦中是不一樣的。
何曉東博士提問,如何能將知識、記憶、推理統(tǒng)一起來?之后,學者們的討論聚焦在知識本身的定義問題。例如其與語言的關系,不同與語言是否對應不同的知識、知識與記憶的區(qū)別、意識的分層。在場的學者紛紛發(fā)表看法,并從多學科的視角進行討論。
由于時間有限,各位學者意猶未盡。孫茂松教授建議智源研究院組織一個封閉的短期學術交流,找一個封閉小島,將各個學科(包括計算機、腦科學、心理學等等)的研究人員組織到一起討論三五天,將各個學科基本的理論和前沿的研究講清楚,以便各位學者能全面快速了解交叉學科,從而幫助本學科的研究。

延伸閱讀:?孫茂松教授在引導報告《自然語言處理面臨的三大真實挑戰(zhàn)》中分享的詳細內(nèi)容如下:?

孫茂松:自然語言處理面對三大真實挑戰(zhàn)。自然語言處理被稱作“人工智能皇冠上的明珠”。許多知名學者都有很多論述,比如圖靈獎得主Yann LeCun說“深度學習的下一個前沿課題是自然語言理解”等。 ? ? ? ?

我個人認為,以自然語言為語義的理解是機器難以逾越的鴻溝。語言這關如果機器搞明白以后,機器就真的成精了,那個時候人類就真有危險了;但現(xiàn)在還不是,這就進一步彰顯自然語言處理的困難,它已經(jīng)成為制約人工智能取得更多突破的主要瓶頸之一。這是我的基本判斷。

自然語言處理在歷史上有兩大范式——理性主義、經(jīng)驗主義。經(jīng)驗主義從九十年代一直到現(xiàn)在又分了幾波;從2018年到現(xiàn)在,是大規(guī)模預訓練語言模型 BERT 到GPT-3 這一路。今天很多都在談GPT-3,可見這個事對我們的震動。

我理解它是三個極大——極大規(guī)模模型、極大規(guī)模數(shù)據(jù)、極大規(guī)模計算。光大還不夠,得加個極,給人好像有“量變引起質(zhì)變”的感覺,一是它的性能超乎想象,二是它有些科學現(xiàn)象比較奇怪,跟我們一般機器學習的道理不太一樣,所以它有“量變引起質(zhì)變”的趨勢。

我們感覺GPT-3有這種趨勢,但是“質(zhì)”的問題卻始終解決不太好,特別是深度的問題,比如 QA中,問它一些基本常識沒問題,但是如果你刁難它問“烤箱和鉛筆哪個更重”,因為它沒有知識,它就說“鉛筆比烤箱重”。所以現(xiàn)在GPT-3有沒有到“質(zhì)變”,還不好說。在機器翻譯上,也趕不上常規(guī)的辦法;像故事理解等這種涉及到深度理解的也不行。所以某些任務可以,某些任務還是不行。

未來自然語言研究范式走向會是什么呢?我們打個問號,它是不是就沿著三個“極大”往下走?我們認為可能不是。?
從人的角度、機器的角度兩方面綜合考慮,我們認為新范式應該是經(jīng)驗主義和理性主義的融合,我們叫“大數(shù)據(jù)”和“富知識”雙輪驅(qū)動,現(xiàn)在大數(shù)據(jù)非常充分,但知識這塊用的很不充分,我們認為要把知識加強。這個說法可能是我們這個方向未來幾年要重點推進的一個方向,我們會沿著這個路子去做。?
這里面面臨三個挑戰(zhàn):

語義理解挑戰(zhàn)一:形式化知識系統(tǒng)存在明顯構成缺失。現(xiàn)在都講知識圖譜規(guī)模多大,包括DBpedia、freebase等,幾十億個三元組,但是我認為這些知識大而不強。舉個例子,你去看wikipedia的“關羽”,它只有一些最簡單的關于關羽屬性描寫,關羽是個人,關羽是個將軍,關羽是蜀國的,關羽他兒子是誰、孩子是誰、生在哪、死在哪,大概就這些知識,所有關于關羽的“過五關斬六將”、“三英戰(zhàn)呂布”等等所有事情通通沒有。?
IMB研究者指出Watson DeepQA中問答問題只有不到 2% 可以從DBpedia、Freebase等知識庫中直接匹配到,間接就說明了我們這個觀察,所以這里面缺什么呢?缺關于動詞、關于動作的三元組,就是關羽在哪嶄了華雄,這個沒有主謂賓,主語是“嶄”,謂語是“關公”,賓語是“華雄”,你得把這個說出來。因為我們沒有從句子分析三元組主謂賓的能力,所以這件事情做不成,所以這是系統(tǒng)的缺失,關系事實描述幾乎是沒有的,這是嚴重的缺失。
另外,event和event的邏輯關系,比如“關羽丟了荊州”和“關羽攻打繁城”是什么關系,關羽攻打繁城是丟了荊州的原因,這塊現(xiàn)在是沒有的。?
所以現(xiàn)在的知識庫“三分天下”,“缺了兩分”,只是關于靜態(tài)描述比較清楚,關于事件的描述幾乎沒有,關于事件與事件之間的關系幾乎沒有,所以叫“三缺其二”,這是個大的問題。這種知識從哪來呢?從簡單事實來。我說的那“兩分天下”必須從文本中找,尤其從正文中找、從web上找,道理上這些東西都有,我們現(xiàn)在沒有本事把它找來。

語義理解挑戰(zhàn)二:深層結構化語義分析存在明顯性能不足。三分天下把“兩分”拽過來,應該把兩個句子間的關系找過來,這是最大的瓶頸。這些年來語義分析取得了長足的進步,像CoNLL2019英語語義分析評測F值達到86%。我也試過一些中文的、英文的,語義分析很難,但是這些年已經(jīng)有很好的進步。但也有很多挑戰(zhàn),像面向新聞好一些,但是面向wikipedia分析挺難的,因為后者各種領域文本都有,還有非規(guī)范文本,分析精度會大幅度下降。這里建立多元知識圖譜又是個瓶頸,這個問題不解決對文本就沒法進行分析。同時,如果有了知識庫,對文本分析也會提供幫助,這兩個存在“雞生蛋,蛋生雞”的問題。

挑戰(zhàn)三:跨模態(tài)語言理解存在明顯融通局限。這不是語言本身的問題,是自然語言往外再走一走,跨模態(tài)、跨媒體的問題。人的認知是多模態(tài)的。單個模態(tài)的理解,對智能來說是簡單的任務,但是用視覺去理解比較復雜的場景,如果沒有文本的輔助就會非常吃力,做不到開放領域,只能在稍微寬的領域內(nèi)有效。所以這里面有一個跨媒體、跨模態(tài)融合的問題。
我認為現(xiàn)在的系統(tǒng)用的詞叫“形合意迷”,文本和圖像基本上是兩筆糊涂帳;兩筆糊涂賬的形式合起來了,意思卻抓不住,對了就對了,不對也就拉倒,大概是這樣的狀況。但這是個挑戰(zhàn),自然語言處理能力上去了,知識也上去了,按說肯定會對圖像視頻的理解有幫助。現(xiàn)在文本的QA可以做到93%,人類是89.5%;視覺問答還只能做到76%,如果需要文本結合,就只有33.8%,一下就下來了,這是個明顯的短板。

我認為我們存在以上三大挑戰(zhàn)。我們新格局的設想是三個融合,大數(shù)據(jù)、富知識、跨模態(tài)互相支持、互相促進。
最后總結下這三大挑戰(zhàn),希望通過幾年的努力向這個方向去走:

一是知識圖譜從現(xiàn)在的“三缺其二”到“三分歸一”。
跟三國演義似的,三個東西先齊了,質(zhì)量怎樣先不說,我們先往這個方向去努力。比如文本百分之百分析不行,能不能從里面抽30%的事實三元組放進來,30%進來會引起什么變化?這叫“三分歸一”,包括事理,這樣構造一個新的知識圖譜,知識圖譜內(nèi)涵就會發(fā)生某種變化。?
二是深層次結構化語義分析要從“欲行卻止”做到“且行且進”。走走看看,走一步進一步,總比不走好。?
三是跨模態(tài)語言理解從“形合意迷”到“形合意合”。
