五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

一行代碼加速28倍大模型推理速度

2023-12-07 11:51 作者:ReadPaper論文閱讀  | 我要投稿

Hugging?Face?的?Optimum-NVIDIA?為大型語(yǔ)言模型(LLM)提供了一個(gè)簡(jiǎn)單而高效的優(yōu)化方案。通過(guò)僅修改一行代碼:

原代碼:from?transformers.pipelines?import?pipeline

修改后的代碼:from?optimum.nvidia.pipelines?import?pipeline


它能顯著加速?NVIDIA?平臺(tái)上的?LLM?推理過(guò)程,達(dá)到最高28倍的速度提升,以及每秒處理1200個(gè)Token。這一優(yōu)化主要得益于對(duì)?NVIDIA?Ada?Lovelace?和?Hopper?架構(gòu)支持的新float8格式和NVIDIA?TensorRT-LLM軟件的高級(jí)編譯能力。Optimum-NVIDIA?還提供了簡(jiǎn)單的API,使得在一個(gè)GPU上運(yùn)行更大的模型成為可能,同時(shí)保持高速度和準(zhǔn)確性。此外,它還優(yōu)化了首Token延遲(First?Token?Latency)和吞吐量(Throughput),顯著提高了模型的響應(yīng)速度和批處理能力。目前,Optimum-NVIDIA?支持?LLaMAForCausalLM?架構(gòu)和相關(guān)任務(wù),并計(jì)劃擴(kuò)展到其他文本生成模型和任務(wù)。


blog:https://huggingface.co/blog/optimum-nvidia


使用方法:

性能指標(biāo):首Token延遲和吞吐量

性能評(píng)估方面,Optimum-NVIDIA?關(guān)注首Token延遲(First?Token?Latency)和吞吐量(Throughput)。首Token延遲是衡量從輸入提示到開(kāi)始接收輸出的時(shí)間,而吞吐量則是衡量模型生成Token的速度,特別適用于批量生成。Optimum-NVIDIA?在這兩個(gè)指標(biāo)上都顯示出顯著的提升。


支持和未來(lái)計(jì)劃

目前,Optimum-NVIDIA?支持?LLaMAForCausalLM?架構(gòu)和任務(wù),計(jì)劃將支持?jǐn)U展到其他文本生成模型和任務(wù)。Hugging?Face?還計(jì)劃引入諸如飛行批處理(In-Flight?Batching)等前沿優(yōu)化技術(shù),以進(jìn)一步提高吞吐量,以及?INT4?量化以在單個(gè)?GPU?上運(yùn)行更大的模型。


觀點(diǎn)

學(xué)術(shù)上,其實(shí)底層技術(shù)的革新還有很多機(jī)會(huì),特別是運(yùn)算加速這些。不過(guò)不能落入純工程的地步了,導(dǎo)致沒(méi)有創(chuàng)新點(diǎn)。

商業(yè)上,當(dāng)然是省錢(qián)福音了。不過(guò)這也意味著基于英偉達(dá)的顯卡的優(yōu)化越來(lái)越多,導(dǎo)致顯卡品牌的不可替代性越來(lái)越強(qiáng)。


特邀作者:日本早稻田大學(xué)計(jì)算機(jī)系博士生? 王軍杰

一行代碼加速28倍大模型推理速度的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
诸城市| 隆德县| 射洪县| 云安县| 庆云县| 密云县| 朝阳市| 讷河市| 天气| 彝良县| 米易县| 大余县| 内乡县| 阿荣旗| 丰台区| 吴堡县| 娱乐| 广元市| 太仆寺旗| 密山市| 汉中市| 普定县| 肇庆市| 英德市| 永新县| 凤冈县| 海安县| 宣汉县| 漳浦县| 辉县市| 苏尼特右旗| 稻城县| 乌鲁木齐市| 祁东县| 海城市| 巧家县| 察哈| 新宁县| 宣武区| 承德市| 青龙|