散文網(wǎng) » 科技 »數(shù)碼 » 商湯大模型多個評測表現(xiàn)超ChatGPT

商湯大模型多個評測表現(xiàn)超ChatGPT

2023-06-23 09:21 作者:科技改變世界AI 0人讀過 | 我要投稿

商湯科技近日公布了自研中文語言大模型“商量SenseChat 2.0”在MMLU、AGIEval、C-Eval三個權(quán)威大語言模型評測基準(zhǔn)的成績。評測顯示，“商量”在這三個測試集中的表現(xiàn)均領(lǐng)先ChatGPT，實現(xiàn)了我國語言大模型研究的突破。

全球三大權(quán)威語言模型測評基準(zhǔn)分別為由美國加州大學(xué)伯克利分校等高校構(gòu)建的多任務(wù)考試評測集MMLU、由微軟研究院推出的學(xué)科考試評測集AGIEval（含中國高考、司法考試及美國SAT、LSAT、GRE和GMAT等），以及由上海交通大學(xué)、清華大學(xué)和英國愛丁堡大學(xué)合作構(gòu)建的面向中文語言模型的綜合性考試評測集C-Eval。

截至6月，全球范圍內(nèi)正式發(fā)布的大語言模型已超過40款，其中由中國廠商、高校、科研院所等發(fā)布的大語言模型近20款。在MMLU測評中，“商量2.0”綜合得分為68.6，超ChatGPT（67.3分），僅落后于GPT-4（86.4分）位居第二；在AGIEval測評中，“商量2.0”得分49.9分，超ChatGPT（42.9分），僅次于GPT-4的56.4分。在C-Eval測評中，“商量2.0”得分66.1分，在參評的18個大模型中，僅次于GPT-4（68.7分）。

4月，商湯發(fā)布“日日新”大模型體系以及中文語言大模型“商量”。目前，“商量”已在眾多行業(yè)和場景中落地應(yīng)用，已有近千家企業(yè)客戶通過申請，應(yīng)用和體驗“商量2.0”的長文本理解、邏輯推理、多輪對話、情感分析、內(nèi)容創(chuàng)作、代碼生成等綜合能力。在服務(wù)客戶過程中，“商量2.0”持續(xù)迭代和提升，并實現(xiàn)知識的實時更新。

標(biāo)簽：人工智能 AI

商湯大模型多個評測表現(xiàn)超ChatGPT的評論 (共條)

愛情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩歌空間日志經(jīng)典語句愛情句子作文大全

五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

商湯大模型多個評測表現(xiàn)超ChatGPT

商湯大模型多個評測表現(xiàn)超ChatGPT的評論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

商湯大模型多個評測表現(xiàn)超ChatGPT

本文作者的其他文章

商湯大模型多個評測表現(xiàn)超ChatGPT的評論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

商湯大模型多個評測表現(xiàn)超ChatGPT的評論 (共條)