五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊

小記一下在wenda上使用量化的通義千問(qwen-7b-chat)

2023-08-12 01:09 作者:傳說中的L哥  | 我要投稿

前幾天阿里發(fā)布了他們的開源大語言模型通義千問(qwen),根據(jù)介紹,這個(gè)模型不僅在多項(xiàng)評分中排名靠前,而且支持長對話、對api使用能力也有較大進(jìn)步。而聞達(dá)作為一個(gè)LLM調(diào)用平臺,就十分適合qwen。

wenda其實(shí)可以直接運(yùn)行未量化的通義千問qwen-7b模型,只是速度實(shí)在感人。每秒只能生成0.2字,難稱可用。

究其原因,通過電腦性能監(jiān)測發(fā)現(xiàn),運(yùn)行的時(shí)候,不僅調(diào)用了外接的顯卡(跑LLM的主力,12g顯存)還同時(shí)調(diào)用的內(nèi)置顯卡(1650,湊數(shù)的,我是筆記本外接顯卡)同時(shí)cpu也有負(fù)荷。推測是自動(dòng)進(jìn)行了多卡推理,但是巨大的性能差異和雷電3的小水管嚴(yán)重拖慢了速度。于是進(jìn)行int8(只有10g多的顯存占用)量化運(yùn)行

首先說一下,這里面的坑還挺多的,但是也沒那么多。簡簡單單就能搞定。

首先量化,我懶,找的別人在h站上量化好的,感謝發(fā)布者的工作。鏈接:https://huggingface.co/AironHeart/Qwen-7B-Chat-8bit

然后,一定仔細(xì)看qwen-7b的readme,你遇到的全部問題里面都記錄了,給個(gè)好評。然后記得遇到缺啥就安裝啥,除了bitsandbytes。

首先在環(huán)境中安裝必要組件



這只是能保證可用,想能用(18g顯存以下的),就得量化。

readme中參考


完成int8的配置

之后不出意外,會(huì)提示缺少bitsandbytes,這時(shí)候一定要注意版本,Windows需要特定版本才能運(yùn)行。

我用的這個(gè):

安裝完成后就可用正常運(yùn)行了。這個(gè)就是成功的標(biāo)志


另外發(fā)現(xiàn)一個(gè)有意思的現(xiàn)象,運(yùn)行qwen時(shí)候,顯卡功耗非常低,180w tdp只能跑到24w,速度每秒2字??错?xiàng)目反饋,有人是提到運(yùn)行速度慢的問題,目前qwen項(xiàng)目人員也在找問題所在。希望可以找到提高速度的方法。(超長對話顯存會(huì)來到11g多,長對話時(shí)還是要注意)


qwen-7b感覺比glm2-6b聰明點(diǎn),但是我問的問題不多,實(shí)際上差別不大,還需要進(jìn)一步測試


(順帶一提,問通義千問網(wǎng)頁版的時(shí)候的回答錯(cuò)的離譜)

我遇到的坑:readme中是max_memory = max_memory忘改,直接pip install bitsandbytes-windows,其他的記不清了


小記一下在wenda上使用量化的通義千問(qwen-7b-chat)的評論 (共 條)

分享到微博請遵守國家法律
仙游县| 石泉县| 湘潭县| 梁山县| 纳雍县| 平武县| 孟村| 温泉县| 博爱县| 司法| 平凉市| 瓦房店市| 泗阳县| 富源县| 长岭县| 德格县| 石楼县| 徐汇区| 东乡县| 兖州市| 新竹县| 许昌市| 郯城县| 五大连池市| 大埔区| 日土县| 桦川县| 淅川县| 沭阳县| 娄底市| 荣昌县| 孙吴县| 政和县| 兴和县| 玛多县| 淄博市| 八宿县| 柞水县| 舟曲县| 搜索| 曲周县|