李彥宏:文心一言是過(guò)去多年努力的延續(xù) 推出是因市場(chǎng)有需求

雷遞網(wǎng) 樂(lè)天 3月16日
百度今日在北京總部邀請(qǐng)測(cè)試圍繞新一代大語(yǔ)言模型、生成式AI產(chǎn)品文心一言。
百度創(chuàng)始人、董事長(zhǎng)兼首席執(zhí)行官李彥宏出席及百度首席技術(shù)官王海峰出席,并展示了文心一言在文學(xué)創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)理推算、中文理解、多模態(tài)生成五個(gè)使用場(chǎng)景中的綜合能力。
李彥宏在現(xiàn)場(chǎng)表示,百度十幾年前就開(kāi)始投入AI研究,2019年就推出了文心大語(yǔ)言模型,今天的文心一言是過(guò)去多年努力的延續(xù)。
“文心一言對(duì)標(biāo)ChatGPT、甚至是對(duì)標(biāo)CGT-4,門(mén)檻是很高的,全球大廠(chǎng)還沒(méi)有一個(gè)做出來(lái)的,百度是第一個(gè)。”
李彥宏稱(chēng),之所以今天推出,是因?yàn)槭袌?chǎng)有需求。
以下是百度CEO李彥宏演講實(shí)錄:

最近一段時(shí)間,很多朋友問(wèn)我,“為什么是今天,你們真的ready了嗎”。其實(shí)從某種意義上說(shuō)我們已經(jīng)為此準(zhǔn)備了多年,我們十幾年前就開(kāi)始投入AI研究,2019年就推出了文心大語(yǔ)言模型,今天的文心一言是過(guò)去多年努力的延續(xù)。
但也不能說(shuō)我們完全ready了,文心一言對(duì)標(biāo)ChatGPT、甚至是對(duì)標(biāo)CGT-4,門(mén)檻是很高的,全球大廠(chǎng)還沒(méi)有一個(gè)做出來(lái)的,百度是第一個(gè)。我自己測(cè)試感覺(jué)還是有很多不完美的地方。
那為什么是今天?因?yàn)槭袌?chǎng)有需求。
百度的很多產(chǎn)品,從搜索到智能云,再到自動(dòng)駕駛,到小度,大家都有需要,更重要的是我們的客戶(hù)需要,合作伙伴需要,從我們承認(rèn)文心一言的存在到現(xiàn)在,短短一個(gè)月的時(shí)間,就有超過(guò)650家合作伙伴宣布加入文心一言生態(tài),大家都希望能早一點(diǎn)用上最新最先進(jìn)的大語(yǔ)言模型。
當(dāng)然,一旦有了真實(shí)的人類(lèi)反饋,文心一言的進(jìn)步速度會(huì)非???,我們都希望它快點(diǎn)成長(zhǎng),早日為用戶(hù)和客戶(hù)創(chuàng)造價(jià)值。
百度希望和大家一起,推動(dòng)人工智能技術(shù)進(jìn)步,讓所有人都能使用最先進(jìn)的生產(chǎn)力工具,讓所有人都能從中受益。
十月懷胎,一朝分娩?,F(xiàn)在,我就帶大家來(lái)看看,百度新一代大語(yǔ)言模型、生成式AI 產(chǎn)品文心一言。
下面,我會(huì)演示五個(gè)場(chǎng)景的Dem,包括文學(xué)創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)理推算、中文理解、多模態(tài)生成。
首先來(lái)體驗(yàn)一下文學(xué)創(chuàng)作?!度w》是非常知名的科幻小說(shuō),我們就以這個(gè)開(kāi)頭。
?Dem1:
《三體》的作者是哪里人?
可以總結(jié)一下《三體》的核心內(nèi)容嗎?如果要續(xù)寫(xiě)的話(huà),可以從哪些角度出發(fā)?
如何從哲學(xué)的角度續(xù)寫(xiě)?
電視劇《三體》演員都有誰(shuí)?
于和偉和張魯一有哪些共同點(diǎn)
于和偉和張魯一誰(shuí)更高?

剛才的演示中,“總結(jié)三體的核心內(nèi)容”,體現(xiàn)的是文心一言的總結(jié)、分析能力。
續(xù)寫(xiě)《三體》,體現(xiàn)的是內(nèi)容創(chuàng)作生成能力。
《三體》的作者是誰(shuí)?他是哪里人?電視劇三體演員都有誰(shuí)?文心一言回答是正確的。大家可能知道,生成式AI這類(lèi)產(chǎn)品,在回答事實(shí)性問(wèn)題時(shí),有時(shí)候會(huì)出錯(cuò)。
文心一言延續(xù)了百度知識(shí)增強(qiáng)的大模型理念,大幅度提升了事實(shí)性問(wèn)題的準(zhǔn)確率。
于和偉和張魯一有哪些共同點(diǎn)、于和偉和張魯一誰(shuí)更高?這類(lèi)問(wèn)題背后,則體現(xiàn)的是文心一言的推理能力。比如,它得先知道兩人的準(zhǔn)確身高,才能得出正確答案。
我們?cè)賮?lái)試試文心一言在商業(yè)文案創(chuàng)作方向的能力。以常見(jiàn)的公司起名字、寫(xiě)slgan、寫(xiě)新聞稿為例。
?Dem2
如果要成立一個(gè)用大模型服務(wù)中小企業(yè)數(shù)字化升級(jí)的科技服務(wù)公司,可以起個(gè)什么公司名?
數(shù)智云圖這個(gè)名稱(chēng)不錯(cuò),給我起一個(gè)公司的服務(wù)Slgan,表達(dá)共贏的概念。
幫我生成一篇公司成立的新聞稿,數(shù)智云圖以共贏的服務(wù)理念用大模型服務(wù)中小企業(yè)數(shù)字化升級(jí)。字?jǐn)?shù)600字。
剛才的演示,展現(xiàn)了文心一言連續(xù)三次內(nèi)容創(chuàng)作生成。
AI要寫(xiě)好一篇稿子,除了需要準(zhǔn)確理解我們的意圖,還要有清晰的表達(dá)能力。
這背后有一個(gè)基礎(chǔ),就是龐大的數(shù)據(jù)規(guī)模。人類(lèi)常說(shuō)“讀萬(wàn)卷書(shū)”,而AI可以說(shuō)是 “讀書(shū)破千億卷”。文心一言大模型的訓(xùn)練數(shù)據(jù)就包括,萬(wàn)億級(jí)網(wǎng)頁(yè)數(shù)據(jù),數(shù)十億的搜索數(shù)據(jù)和圖片數(shù)據(jù),百億級(jí)的語(yǔ)音日均調(diào)用數(shù)據(jù),以及5500億事實(shí)的知識(shí)圖譜等,這讓百度在中文語(yǔ)言的處理上,能夠處于獨(dú)一無(wú)二的位置。
有研究表明,數(shù)據(jù)規(guī)模足夠大,參數(shù)達(dá)到千億級(jí),大模型就可能發(fā)生“智能涌現(xiàn)”,即使在沒(méi)有專(zhuān)門(mén)訓(xùn)練過(guò)的領(lǐng)域,也能涌現(xiàn)出知識(shí)理解和邏輯推理能力。
我們接下來(lái)看文心一言對(duì)數(shù)理邏輯推算任務(wù)做的怎么樣。雞兔同籠是鍛煉人類(lèi)邏輯思維的經(jīng)典題,這個(gè)對(duì)生成式AI同樣有挑戰(zhàn)。
?Dem3
下面我們來(lái)玩一個(gè)雞兔同籠的游戲。1只雞有2只腳1個(gè)頭,1只兔子有4只腳1個(gè)頭。那么,如果有一個(gè)籠子里有9個(gè)頭,40只腳,應(yīng)該有多少只雞,多少只兔子?
下面我們來(lái)玩一個(gè)雞兔同籠的游戲。1只雞有2只腳1個(gè)頭,1只兔子有4只腳1個(gè)頭。那么,如果有一個(gè)籠子里有9個(gè)頭,30只腳,應(yīng)該有多少只雞,多少只兔子?
對(duì)于第一道題,文心一言經(jīng)過(guò)演算,認(rèn)為可能是題出錯(cuò)了。
對(duì)于第二道,文心一言不但給出了正確結(jié)果,還詳細(xì)給出解題步驟。
可以看出,文心一言能理解題意,并有正確的解題思路,進(jìn)而像學(xué)生做題一樣,按正確的步驟,一步步算出正確答案。
文心一言已具備了一定的思維能力,能夠?qū)W會(huì)數(shù)學(xué)推演及邏輯推理這類(lèi)相對(duì)復(fù)雜任務(wù)。當(dāng)然,現(xiàn)階段準(zhǔn)確率還不是100%,我們還需要給它更多的時(shí)間來(lái)學(xué)習(xí)和成長(zhǎng)。
前面三個(gè)例子,我們演示了大語(yǔ)言模型比較常見(jiàn)的優(yōu)勢(shì)和能力。
下面我們演示一下文心一言的中文理解能力。
?Dem4
“洛陽(yáng)紙貴”是什么意思?
當(dāng)時(shí)洛陽(yáng)的紙到底有多貴?
這個(gè)成語(yǔ)在現(xiàn)在的經(jīng)濟(jì)學(xué)原理里,對(duì)應(yīng)的理論是什么?
用洛陽(yáng)紙貴四個(gè)字寫(xiě)一首藏頭詩(shī)。
“洛陽(yáng)紙貴”,“藏頭詩(shī)”,這很考驗(yàn)AI對(duì)中文和中國(guó)文化的理解。
作為扎根于中國(guó)市場(chǎng)的大語(yǔ)言模型,文心一言具備中文領(lǐng)域最先進(jìn)的自然語(yǔ)言處理能力。這個(gè)例子就比較清楚的展示了我們?cè)谥形纳系膬?yōu)勢(shì)。
相對(duì)應(yīng)的,一言目前對(duì)英文語(yǔ)種、代碼場(chǎng)景的訓(xùn)練還不夠多,表現(xiàn)還不夠好,接下來(lái)我們還要加緊訓(xùn)練,不斷完善這些能力。
接下來(lái),我再演示一個(gè)多模態(tài)生成方向的Dem。
?Dem5
請(qǐng)為2023世界智能交通大會(huì)創(chuàng)作一張海報(bào)。
你認(rèn)為智能交通最適合哪個(gè)城市發(fā)展?
請(qǐng)用四川話(huà)將以上內(nèi)容講出來(lái)。
請(qǐng)將以上內(nèi)容生成視頻。
剛才這一段演示,文心一言生成了文本、圖片、音頻和視頻,展示了多模態(tài)生成能力。目前的版本,已經(jīng)能夠生成文字、圖片和語(yǔ)音。生成視頻因?yàn)槌杀颈容^高,還沒(méi)有對(duì)所有用戶(hù)開(kāi)放,未來(lái)我們會(huì)逐步接入。但是熟悉百家號(hào)創(chuàng)作的朋友,應(yīng)該都體驗(yàn)過(guò)這個(gè)功能了,每天有幾萬(wàn)篇文章通過(guò)這個(gè)能力轉(zhuǎn)成視頻內(nèi)容在百度分發(fā)。
多模態(tài)是生成式AI一個(gè)明確的發(fā)展趨勢(shì)。
未來(lái),隨著百度多模態(tài)統(tǒng)一大模型的能力增強(qiáng),文心一言的多模態(tài)生成能力,也會(huì)不斷提升。
上面這些演示案例,在新聞發(fā)布會(huì)后,大家也可以親自去測(cè)試體驗(yàn)。
從文心一言的表現(xiàn)看,某種程度上它具有了對(duì)人類(lèi)意圖的理解能力,回答的準(zhǔn)確性、邏輯性、流暢性,都逐漸接近人類(lèi)水平。
但整體而言,這類(lèi)大語(yǔ)言模型還遠(yuǎn)未到發(fā)展完善的階段,它們有時(shí)候會(huì)有很驚艷的表現(xiàn),但不少場(chǎng)景下,細(xì)究起來(lái)還有明顯的bug,進(jìn)步空間很大。未來(lái)這段時(shí)間它一定會(huì)飛速發(fā)展,日新月異。
通過(guò)定向微調(diào),可以在百度內(nèi)外部各類(lèi)產(chǎn)品上逐步展示出驚人的親和力,讓每一個(gè)產(chǎn)品離自己的用戶(hù)和客戶(hù)更近。
文心一言這樣的大語(yǔ)言模型,會(huì)成為每個(gè)人必不可少的生產(chǎn)力工具。
不過(guò),無(wú)論是哪家公司,都不可能靠突擊幾個(gè)月就能做出這樣的大語(yǔ)言模型。深度學(xué)習(xí)、自然語(yǔ)言處理,需要多年的堅(jiān)持和積累,沒(méi)法速成。
人類(lèi)進(jìn)入人工智能時(shí)代,IT技術(shù)的技術(shù)棧發(fā)生了根本性變化。過(guò)去基本分為三層:芯片層,操作系統(tǒng)層和應(yīng)用層?,F(xiàn)在可以分為四層:芯片層、框架層、模型層和應(yīng)用層。
今天,百度是全球?yàn)閿?shù)不多、在這四層進(jìn)行全棧布局的人工智能公司,從高端芯片昆侖芯,到飛槳深度學(xué)習(xí)框架,再到文心預(yù)訓(xùn)練大模型,到搜索、智能云、自動(dòng)駕駛、小度等應(yīng)用,各個(gè)層面都有領(lǐng)先業(yè)界的自研技術(shù)。
文心一言位于模型層。2019 年,百度推出了文心大模型ERNIE 1.0。目前,ERNIE 3.0每天接受數(shù)十億次用戶(hù)的搜索請(qǐng)求。這讓文心一言能夠基于一個(gè)龐大的、高效的數(shù)據(jù)池,快速地學(xué)習(xí)和改進(jìn)。
大模型訓(xùn)練堪稱(chēng)暴力美學(xué),需要有大算力、大數(shù)據(jù)和大模型,每一次訓(xùn)練任務(wù)都耗資巨大。全棧布局的優(yōu)勢(shì)在于,可以在技術(shù)棧的四層架構(gòu)中,實(shí)現(xiàn)端到端優(yōu)化,大幅提升效率。尤其是,框架層和模型層之間,有很強(qiáng)的協(xié)同作用,可以幫助構(gòu)建更高效的模型,并顯著降低成本。事實(shí)上,超大規(guī)模模型的訓(xùn)練和推理,給深度學(xué)習(xí)框架帶來(lái)了很大考驗(yàn)。比如,為了支持千億參數(shù)模型的高效分布式訓(xùn)練,百度飛槳專(zhuān)門(mén)研發(fā)了 4D 混合并行技術(shù)。
另外,芯片、框架、大模型、和終端應(yīng)用場(chǎng)景,可以形成一個(gè)高效的反饋閉環(huán),幫助大模型不斷去調(diào)優(yōu)迭代,越做越好。更好的大模型,會(huì)讓用戶(hù)體驗(yàn)不斷升級(jí)。
我還想強(qiáng)調(diào)一點(diǎn),在全球范圍內(nèi),在四層架構(gòu)的每一層都有領(lǐng)先產(chǎn)品的公司幾乎沒(méi)有,百度的優(yōu)勢(shì)非常獨(dú)特,相信大家會(huì)在后續(xù)文心的迭代速度上有明顯感受。
自2月份百度官宣“文心一言”以來(lái),已有超過(guò)650家企業(yè)宣布接入文心一言生態(tài),感謝每一位伙伴的支持。
這也意味著,很多的企業(yè)已經(jīng)理解到,文心一言和生成式AI,代表了一個(gè)新的技術(shù)范式,是一個(gè)每家企業(yè)都不可以錯(cuò)過(guò)的巨大的機(jī)會(huì)。AI市場(chǎng)即將迎來(lái)爆發(fā)性的需求增長(zhǎng),其商業(yè)價(jià)值的釋放將是前所未有的、指數(shù)級(jí)的。
我們對(duì)文心一言的定位,是一個(gè)通用的賦能平臺(tái),金融、能源、媒體、政務(wù)等千行百業(yè),都可以基于這個(gè)平臺(tái)來(lái)實(shí)現(xiàn)智能化變革,實(shí)現(xiàn)效率提升,創(chuàng)造巨大的商業(yè)價(jià)值。
文心一言不僅僅會(huì)影響搜索或者互聯(lián)網(wǎng)公司,而是會(huì)影響到每一家公司,由于它超強(qiáng)的自然語(yǔ)言理解和表達(dá)能力,它讓任何公司都有機(jī)會(huì)離自己的客戶(hù)更近,有機(jī)會(huì)通過(guò)這些能力去創(chuàng)建最好的客戶(hù)體驗(yàn),從而比其他人更能抓住客戶(hù),獲得更強(qiáng)的競(jìng)爭(zhēng)優(yōu)勢(shì)。
文心一言對(duì)個(gè)人的改變也會(huì)是巨大的,有機(jī)構(gòu)預(yù)測(cè),到2030年,人工智能可以將每一個(gè)知識(shí)工作者的生產(chǎn)力提高4倍以上。很多人的工作性質(zhì)會(huì)發(fā)生不可逆轉(zhuǎn)的改變。
我認(rèn)為生成式AI,將催生新產(chǎn)品、新業(yè)態(tài),會(huì)有很多創(chuàng)業(yè)和投資機(jī)會(huì)。
對(duì)于大部分創(chuàng)業(yè)者和企業(yè)來(lái)說(shuō),真正的機(jī)會(huì)并不是從頭開(kāi)始做ChatGPT和文心一言這樣的基礎(chǔ)大模型,這很不現(xiàn)實(shí),也不經(jīng)濟(jì)。
對(duì)于大部分創(chuàng)業(yè)者和企業(yè)來(lái)說(shuō),真正的機(jī)會(huì)是,基于通用大語(yǔ)言模型,搶先開(kāi)發(fā)重要的應(yīng)用服務(wù)。就像移動(dòng)互聯(lián)網(wǎng)時(shí)代,最成功的商業(yè)產(chǎn)品不見(jiàn)得是安卓和IS,而是基于安卓和IS開(kāi)發(fā)的微信、淘寶、抖音等各種超級(jí)應(yīng)用。
我認(rèn)為大模型時(shí)代將產(chǎn)生三大產(chǎn)業(yè)機(jī)會(huì):
第一類(lèi)是新型云計(jì)算公司,其主流商業(yè)模式從IaaS變?yōu)镸aaS。文心一言,將根本性地改變?cè)朴?jì)算行業(yè)的游戲規(guī)則。之前企業(yè)選擇云廠(chǎng)商更多看算力、存儲(chǔ)等基礎(chǔ)云服務(wù)。未來(lái),更多會(huì)看框架好不好、模型好不好,以及模型、框架、芯片、應(yīng)用這四層之間的協(xié)同。
文心一言將通過(guò)百度智能云對(duì)外提供服務(wù),幫助企業(yè)構(gòu)建自己的模型和應(yīng)用,農(nóng)業(yè)、工業(yè)、金融、教育、醫(yī)療、交通、能源等重點(diǎn)領(lǐng)域,都會(huì)因此效率大幅提升,并在每一個(gè)行業(yè)快速形成新的產(chǎn)業(yè)空間,助力數(shù)字中國(guó)的實(shí)現(xiàn)。百度智能云將于近期舉辦新聞發(fā)布會(huì)。主題圍繞文心一言的云服務(wù)和應(yīng)用產(chǎn)品,我們既有公有云服務(wù)和也可以做私有化部署,請(qǐng)大家期待。
第二類(lèi)是進(jìn)行行業(yè)模型精調(diào)的公司,這是通用大模型和企業(yè)之間的中間層,他們具有行業(yè)Knwhw,調(diào)用通用大模型能力,為行業(yè)客戶(hù)提供解決方案。我們的文心大模型,已經(jīng)在電力、金融、媒體等領(lǐng)域,發(fā)布了10多個(gè)行業(yè)大模型。在各行各業(yè)都有機(jī)會(huì)。非常歡迎大家來(lái)跟我們合作。
第三類(lèi)是基于大模型底座進(jìn)行應(yīng)用開(kāi)發(fā)的公司,即應(yīng)用服務(wù)提供商。今天,基于文本生成、圖像生成、音頻生成、視頻生成、數(shù)字人、3D等場(chǎng)景,已經(jīng)涌現(xiàn)出很多創(chuàng)業(yè)明星公司,他們可能就是未來(lái)的新巨頭。這里面的機(jī)會(huì)非常多,可以說(shuō)每家企業(yè)在現(xiàn)在這個(gè)階段都有機(jī)會(huì)。
我們相信,人工智能會(huì)徹底改變我們今天的每一個(gè)行業(yè)。AI的長(zhǎng)期價(jià)值,對(duì)各行各業(yè)的顛覆性改變,才剛剛開(kāi)始。未來(lái),將會(huì)有更多的殺手級(jí)應(yīng)用、現(xiàn)象級(jí)產(chǎn)品出現(xiàn),將會(huì)有更多的里程碑事件發(fā)生。
之后,文心一言將建立起真實(shí)用戶(hù)反饋、開(kāi)發(fā)者調(diào)用和模型迭代之間的飛輪,效果會(huì)迅速提升,給你“士別三日,當(dāng)刮目相看”的驚喜。
最后我想說(shuō),文心一言不是中美科技對(duì)抗的工具,而是一代代百度技術(shù)人員追逐科技改變世界的夢(mèng)想的產(chǎn)物,是我們服務(wù)億萬(wàn)用戶(hù),賦能千行百業(yè)的全新的平臺(tái),是創(chuàng)新驅(qū)動(dòng)發(fā)展的最佳證明。
———————————————
雷遞由媒體人雷建平創(chuàng)辦,若轉(zhuǎn)載請(qǐng)寫(xiě)明來(lái)源。