五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

LLM AI事實性問題測試:New Bing vs Bard vs Chatgpt vs Claude vs Sage

2023-04-15 11:57 作者:真誠妹卡玩家  | 我要投稿

測試了目前幾款LLM聊天AI對于事實性問題的答案。

測試對象及版本:

New Bing(精確)

Bard?

Chatgpt(GPT-4)

Claude(Slack)?

Dragonfly(Poe)?

Sage(Poe)

測試問題一:你知道原神嗎?

New Bing:正確

Bard:正確

Chatgpt:正確

Claude:正確

Dragonfly:錯誤

Sage:正確

測試問題二:你知道刻晴嗎?

New Bing:完全正確

Bard:大部分正確,除了它說刻晴穿了白色大皮衣

Chatgpt:知道是原神的人物,然后開始編,說是地屬性的

Claude:知道是原神的人物,然后開始編,說是風(fēng)屬性的

Dragonfly:錯誤,刻晴是家具品牌

Sage:知道是原神的人物,然后開始編,說是電屬性的熒國公主


考慮到他們訓(xùn)練數(shù)據(jù)的時間,我選擇了21年9月前的人物來問。如果問珊瑚宮心海的話,除了New Bing 全軍覆沒。

測試問題三:我找了篇20年的paper,讓它們寫summary。

New Bing:完全正確,與原文的信息一致

Bard:根據(jù)題目編的,但是編的不好,前后有矛盾的地方,有點不像summary

Chatgpt:根據(jù)題目編的,編的可真了

Claude:根據(jù)題目編的,編的還不錯

Dragonfly:根據(jù)題目編的,胡編亂造,比Bard差,不像summary

Sage:根據(jù)題目編的,編的還不錯

結(jié)論:

New Bing:能聯(lián)網(wǎng),永遠(yuǎn)的神!

Bard:發(fā)揮不穩(wěn)定,怪怪的;只能用英語溝通,不太行

Chatgpt/Claude/Sage:一本正經(jīng)的胡說八道

Dragonfly:不行


吐槽:
哥們花錢買Plus不是看你胡說的!說的就是你,GPT-4!
Claude+等有錢買再測吧。

LLM AI事實性問題測試:New Bing vs Bard vs Chatgpt vs Claude vs Sage的評論 (共 條)

分享到微博請遵守國家法律
延津县| 灌云县| 永春县| 二连浩特市| 六枝特区| 凤凰县| 金坛市| 宁远县| 额尔古纳市| 嘉定区| 衡山县| 肇东市| 长岭县| 凤阳县| 汉川市| 通海县| 泰州市| 隆子县| 淮滨县| 惠州市| 盱眙县| 类乌齐县| 大邑县| 南乐县| 旬邑县| 额敏县| 云林县| 定西市| 丰都县| 吉首市| 武川县| 白玉县| 平南县| 乐陵市| 农安县| 光山县| 夏河县| 肇源县| 无为县| 确山县| 乌什县|