中國電信千億參數(shù)大模型:幻覺率降低40% 今年底逐步開源

作者/ IT時報記者 郝俊慧
編輯/ 錢立富 孫妍
ChatGPT掀起的這輪AI狂歡,正演變?yōu)橐淮涡碌募夹g(shù)革命,誰都不愿意在這場決定未來的變革中,成為旁觀者。
不久前,已經(jīng)“卷”出天際的通用大模型賽道再添一名重磅級新成員——中國電信星辰大模型,它擁有千億級參數(shù),并首次提出緩解多輪幻覺的解決方案,“幻覺率”降低了40%?!爸袊娦乓浴W(wǎng)絡(luò)+云計算+AI+應(yīng)用’的模式,為社會數(shù)字化轉(zhuǎn)型提供服務(wù)。”中國電信總經(jīng)理邵廣祿在不久前召開的2023數(shù)字科技生態(tài)大會上如是表示。
當(dāng)AI成為社會經(jīng)濟發(fā)展的新動能,已經(jīng)走過三年云改數(shù)轉(zhuǎn)的中國電信毫不遲疑,躬身相迎,對于AI的“星辰”與“大海”,這艘巨輪已然啟航。
01 星辰:幻覺率降低40%
幻覺,伴隨AI“涌現(xiàn)”而來的副產(chǎn)品,當(dāng)ChatGPT“煞有其事”地描述“孫悟空如何倒拔垂楊柳”時,對于開發(fā)者而言,降低“幻覺率”便成為大模型能否真正落地商用的核心問題。不少大模型廠商告訴《IT時報》記者,客戶對于“幻覺”容忍率很低,尤其是在金融、政務(wù)行業(yè)最先落地的智能客服,甚至有客戶提出了“零幻覺”要求。
也正因如此,此次中國電信提出的“星辰將幻覺率降低了40%”格外引人注意。
“幻覺是什么?他像不像你問一個人微積分,他不知道,然后開始胡說八道?其實,大模型像人一樣,他并沒有真正理解這個問題,如果他理解了并回答正確,我們自然而然認為它出現(xiàn)了知識的涌現(xiàn)?!痹谡劶皩τ诨糜X的思考時,中電信人工智能科技有限公司總經(jīng)理何忠江認為,采用增加參數(shù)量、革新算法技術(shù)、強化知識圖譜等多重方式,可以逐漸降低幻覺率。

中電信人工智能科技有限公司副總經(jīng)理劉翼向《IT時報》記者詳細介紹了星辰降低幻覺的方式:首先,運用關(guān)鍵信息注意力增強技術(shù),對關(guān)鍵信息進行關(guān)注和強調(diào),提升模型的理解能力,提高答案回復(fù)的一致性;其次,采用模型知識記憶方案和關(guān)聯(lián)信息的強化訓(xùn)練方案,強化模型對上下文信息的記憶能力,提高關(guān)聯(lián)知識的理解能力,使模型上下文回復(fù)的一致性得到增強。
此外,通過知識圖譜的強化技術(shù),確保訓(xùn)練數(shù)據(jù)集知識的事實準(zhǔn)確性。并且,知識圖譜的提示能力被用來輔助模型提升知識問答能力,從而大幅減少幻覺現(xiàn)象的發(fā)生。最后,該模型還具備知識溯源的能力。采用多種溯源方式,關(guān)聯(lián)問題的參考出處,使生成的答案更加可靠。
更重要的是,在降低幻覺的同時,通過技術(shù)創(chuàng)新,星辰降低了對算力的需求,完成千億規(guī)模的模型訓(xùn)練,只用了以往五成的算力服務(wù)器。
據(jù)了解,下個月星辰會將7b、13b參數(shù)級大模型全量開放,明年4月千億級參數(shù)大模型開放,同步開放更多數(shù)據(jù)和底座工具。
02 數(shù)據(jù):日增數(shù)據(jù)超1.2PB
星辰與ChatGPT相差整整一歲。
這一年間,全球人工智能浪潮一波高過一波。據(jù)不完全統(tǒng)計,截至今年10月,國內(nèi)開發(fā)的大模型已有238個。姍姍來遲的星辰,或許將為這場大模型之爭的上半場畫上休止符,畢竟能在算力、算法、數(shù)據(jù)上同時具備強大實力的入場者,不多了,尤其是數(shù)據(jù)。
一個基本的共識是:高質(zhì)量的訓(xùn)練數(shù)據(jù)比算法更重要,而硬幣的另一面是,合法合規(guī)地使用數(shù)據(jù),確保數(shù)據(jù)安全性也成為大模型能持續(xù)進化的重要條件。
作為數(shù)字中國的建設(shè)者,中國電信是國內(nèi)重要的數(shù)據(jù)生產(chǎn)工廠之一。據(jù)了解,在結(jié)構(gòu)化數(shù)據(jù)方面,中國電信擁有的數(shù)據(jù)超過600PB,每天新增數(shù)據(jù)超過1.2PB,同時與政務(wù)、金融、互聯(lián)網(wǎng)、研究機構(gòu)等40多家生態(tài)伙伴打通了150多個數(shù)據(jù)接口;在非結(jié)構(gòu)化數(shù)據(jù)方面,中國電信擁有超500TB文本數(shù)據(jù)、12億張圖文數(shù)據(jù),且第五張網(wǎng)——視聯(lián)網(wǎng),日增2PB視頻數(shù)據(jù)。
龐大的數(shù)據(jù)集為星辰的快速成熟奠定了基礎(chǔ)。劉翼透露,為了保障問答數(shù)據(jù)的高質(zhì)量,中國電信組建了一支由幾百名專業(yè)人員組成的數(shù)據(jù)飛輪團隊,對訓(xùn)練數(shù)據(jù)進行嚴(yán)格的人工清洗,除了過濾涉黃、涉暴、涉恐、涉賭等數(shù)據(jù)外,還加入了意識形態(tài)數(shù)據(jù)過濾機制,從答案的規(guī)范性、安全性、準(zhǔn)確率、完整性、邏輯性等多維度確保數(shù)據(jù)高質(zhì)量。

不過,在大模型的建設(shè)和使用過程中,僅有單一維度的數(shù)據(jù)并不能滿足大模型的“胃口”,多樣性、廣泛覆蓋的數(shù)據(jù),可以增強模型的泛化能力。這意味著模型在面對新的、未曾見過的數(shù)據(jù)時能夠更好地進行預(yù)測和推理,而且有助于減少模型中的偏見和不公平,因此,打造數(shù)據(jù)要素資源流通體系對于大模型廠商尤為重要。
據(jù)中國電信集團數(shù)據(jù)發(fā)展中心副主任張鑫介紹,中國電信正從三個方面加快數(shù)據(jù)生態(tài)的建設(shè):首先,建立數(shù)據(jù)智能開發(fā)者聯(lián)盟,面向金融風(fēng)控、精準(zhǔn)廣告、數(shù)字康養(yǎng)等應(yīng)用領(lǐng)域,吸引更多開發(fā)者開發(fā)加工各領(lǐng)域高質(zhì)量數(shù)據(jù)集,從而創(chuàng)新應(yīng)用場景;其次,打造數(shù)據(jù)要素產(chǎn)業(yè)生態(tài),中國電信數(shù)據(jù)發(fā)展中心聯(lián)手海南省大數(shù)據(jù)管理局、中國信通院云大所、上海人工智能實驗室、清華大學(xué)技術(shù)創(chuàng)新研究中心、上海數(shù)據(jù)交易所等12個合作單位和企業(yè)發(fā)起數(shù)據(jù)要素生態(tài)聯(lián)盟,為數(shù)據(jù)價值釋放提供場景、政策、合規(guī)保障;三是構(gòu)建大模型語料生態(tài)體系,和上海人工智能實驗室、人民網(wǎng)等機構(gòu)一起,推進建設(shè)優(yōu)質(zhì)的中文數(shù)據(jù)集,促進大模型閉環(huán)發(fā)展。
03 大海:AI融產(chǎn)數(shù)“早使用早受益”
如果說星辰是基石,數(shù)據(jù)是流動的血液,那被AI賦能的智能化社會就是面向未來的“大?!?。
“對AI大模型,大家逐漸形成共識,早使用早受益?!痹?023數(shù)字科技生態(tài)大會演講中,邵廣祿表示,大模型可能是迄今為止最為復(fù)雜的系統(tǒng)性軟硬件工程,將大模型技術(shù)賦能到千行百業(yè),形成新質(zhì)生產(chǎn)力更是任重道遠,需要共同探索,共同發(fā)展。
基于星辰,中國電信“大手筆”發(fā)布了面向政務(wù)、應(yīng)急、文旅、交通、金融等場景的 12 個行業(yè)大模型,并且將這些大模型預(yù)制在“星辰MaaS生態(tài)服務(wù)平臺”上。
“預(yù)制在 MaaS 平臺上的行業(yè)大模型就像應(yīng)屆畢業(yè)生一樣,有一定的行業(yè)理解能力,但不一定完全適合業(yè)務(wù)場景?!敝袊娦耪罂蛻羰聵I(yè)部群副總經(jīng)理馮煒告訴《IT時報》記者,用戶可以通過三種方式使用星辰 MaaS,第一種是客戶直接調(diào)用標(biāo)準(zhǔn)的行業(yè)/場景大模型API能力,結(jié)合 Agent、Prompt工程和自建知識庫完成智能業(yè)務(wù)搭建;第二種是有研發(fā)能力的客戶結(jié)合平臺上的大模型、工具集和數(shù)據(jù)集能力,進行微調(diào)、Prompt 工程等完成專屬模型的訓(xùn)練;第三種是選取電信的自營或者是第三方服務(wù)合作伙伴,由大模型專家結(jié)合 MaaS 平臺能力和客戶應(yīng)用場景,進行定制化大模型產(chǎn)品的訓(xùn)練,“星辰MaaS 可以支持從數(shù)據(jù)標(biāo)注到微調(diào)到部署的全面能力,讓這個‘應(yīng)屆畢業(yè)生’很快成為一個具備豐富經(jīng)驗的‘助手’?!?/p>
盡管相較其他互聯(lián)網(wǎng)廠商,中國電信的通用大模型和MaaS“姍姍來遲”,但當(dāng)大模型賦能千行百業(yè)時,多年深厚的產(chǎn)數(shù)積淀,讓這家新入場者擁有友商很難復(fù)制的優(yōu)勢。
“很多客戶對大模型的需求共性通常有三點:一是數(shù)據(jù)安全,二是滿足個性化需求,三是服務(wù)及時,”一位大模型產(chǎn)業(yè)鏈人士告訴《IT時報》記者,對于企業(yè)而言,通用大模型不可能滿足所有需求,未來一定是每家企業(yè)都有自己的大模型,但未必所有的大模型公司都有同樣的服務(wù)能力。
“中國電信分布在全國的大模型團隊,可以將大模型產(chǎn)業(yè)化難度大幅度下降,另外還可以解決客戶在數(shù)據(jù)出域前提下本地化微調(diào)、推理和部署的難題?!眲⒁砀嬖V記者,目前中國電信大模型已在“深圳市政數(shù)局民生訴求大模型項目”“黑龍江醫(yī)保大模型項目”“ 廣東‘粵省心’項目”等項目中落地應(yīng)用。
根據(jù)規(guī)劃,中國電信研發(fā)人員到“十四五”末要達6萬人,在員工中占比15%,同時培養(yǎng)大約2萬名具有創(chuàng)新能力的卓越工程師,加速創(chuàng)新成果的落地推廣。
排版/ 季嘉穎
圖片/ 中國電信
來源/《IT時報》公眾號vittimes