五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

R語(yǔ)言中敏感性和特異性、召回率和精確度作為選型標(biāo)準(zhǔn)的華夫圖案例

2021-03-14 18:37 作者:拓端tecdat  | 我要投稿

原文鏈接:http://tecdat.cn/?p=11159

?精度和查全率源自信息檢索,但也用于機(jī)器學(xué)習(xí)設(shè)置中。但是,在某些情況下,使用精度和查全率可能會(huì)出現(xiàn)問(wèn)題。在這篇文章中,我將討論召回率和精確度的缺點(diǎn),并說(shuō)明為什么敏感性和特異性通常更有用。

定義

對(duì)于類(lèi)別0和1的二進(jìn)制分類(lèi)問(wèn)題,所得混淆矩陣具有以下結(jié)構(gòu):

預(yù)測(cè)/參考1?01?TPFP0FNTN

其中TP表示真陽(yáng)性的數(shù)量(模型正確預(yù)測(cè)陽(yáng)性類(lèi)別),F(xiàn)P表示假陽(yáng)性的數(shù)量(模型錯(cuò)誤預(yù)測(cè)陽(yáng)性類(lèi)別),F(xiàn)N表示假陰性的數(shù)量(模型錯(cuò)誤預(yù)測(cè)陰性類(lèi)別),TN表示真實(shí)否定數(shù)(模型正確預(yù)測(cè)否定類(lèi)別)。敏感性(召回率),精確度(陽(yáng)性預(yù)測(cè)值,PPV)和特異性(真陰性率,TNV)的定義如下:

?靈敏度確定正確預(yù)測(cè)來(lái)自陽(yáng)性分類(lèi)的觀察結(jié)果的速率,而精度則表明正確預(yù)測(cè)預(yù)測(cè)的正確率。另一方面,特異性是基于假陽(yáng)性的數(shù)量,它表示正確預(yù)測(cè)來(lái)自陰性類(lèi)別的觀察結(jié)果的速率。

敏感性和特異性的優(yōu)勢(shì)

基于敏感性和特異性的模型評(píng)估適用于大多數(shù)數(shù)據(jù)集,因?yàn)檫@些措施會(huì)考慮混淆矩陣中的所有條目。敏感性處理真假陽(yáng)性和假陰性,而特異性處理假陽(yáng)性和假陰性。這意味著當(dāng)同時(shí)考慮真陽(yáng)性和陰性時(shí),敏感性和特異性的結(jié)合是一項(xiàng)整體措施。

敏感性和特異性可以用一個(gè)單一的量來(lái)概括,即平衡的準(zhǔn)確度,其定義為兩種方法的平均值:

平衡精度在[0,1] [0,1]范圍內(nèi),其中0和1的值分別表示最壞的分類(lèi)器和最好的分類(lèi)器。

召回率和精確度的缺點(diǎn)

使用召回率和精度評(píng)估模型不會(huì)使用混淆矩陣的所有單元?;貞浱幚淼氖钦鎸?shí)的肯定和錯(cuò)誤的否定,而精度處理的是真實(shí)的肯定和錯(cuò)誤的肯定。因此,使用這對(duì)績(jī)效衡量指標(biāo),就不會(huì)考慮真正的負(fù)面影響。因此,精度和召回率僅應(yīng)在否定類(lèi)別的正確識(shí)別不起作用的情況下使用。 可以將精度定義為

?

精度和召回率通常歸納為一個(gè)單一的數(shù)量,即F1得分 :

?

F1在[0,1] [0,1]范圍內(nèi),對(duì)于分類(lèi)器,將最大化精度和召回率,將為1。由于F1分?jǐn)?shù)基于 平均值,因此對(duì)于精度和查全率的不同值非常敏感。假設(shè)分類(lèi)器的靈敏度為90%,精度為30%。那么常規(guī)平均值將是

,但是 平均值(F1得分)將是

。

例子

在這里,我提供兩個(gè)示例。第一個(gè)示例研究了將精度用作性能指標(biāo)時(shí)可能出現(xiàn)的問(wèn)題。?

使用精度時(shí)會(huì)出什么問(wèn)題?

當(dāng)很少有觀察結(jié)果屬于肯定類(lèi)別時(shí),精度是一個(gè)特別糟糕的衡量標(biāo)準(zhǔn)。讓我們假設(shè)一個(gè)臨床數(shù)據(jù)集,其中90%90%的人患病(陽(yáng)性),只有10%10%的人健康(陰性)。讓我們假設(shè)我們已經(jīng)開(kāi)發(fā)了兩種測(cè)試來(lái)對(duì)患者是疾病還是健康進(jìn)行分類(lèi)。兩種測(cè)試的準(zhǔn)確度均為80%,但會(huì)產(chǎn)生不同類(lèi)型的錯(cuò)誤。

  1. # to use waffle, you need

  2. # ? o FontAwesome


  3. iron(

  4. waffle(c("Diseased" = 90, "Healthy" = 10), rows = 5, use_glyph = "child",

  5. glyph_size = 5, title = "Reference", colors = ref.colors),

  6. waffle(c("Diseased (TP)" = 80, "Healthy (FN)" = 10, "Diseased (FP)" = 10),

  7. rows = 5, use_glyph = "child",

  8. glyph_size = 5, title = "Clinical Test 1", colors = c(true.colors[1], false.colors[2], false.colors[1]))

  9. )

?

?第一次測(cè)試的混淆矩陣

預(yù)測(cè)/參考有病健康有病TP = 80FP = 10健康FN = 10TN = 0

二次測(cè)試的混淆矩陣

預(yù)測(cè)/參考有病健康有病TP = 70FP = 0健康FN = 20TN = 10

兩種測(cè)試的比較

讓我們比較兩個(gè)測(cè)試的性能:

測(cè)量測(cè)試1測(cè)試2靈敏度(召回)88.9%77.7%特異性0%100%精確88.9%100%

考慮到敏感性和特異性,我們不會(huì)選擇第一個(gè)測(cè)試,因?yàn)樗钠胶鉁?zhǔn)確度僅為

,而第二個(gè)測(cè)試的平衡準(zhǔn)確度僅為

?。

但是,使用精度和召回率,第一個(gè)測(cè)試的F1得分為

,而第二個(gè)測(cè)試的得分更低,為

。因此,盡管特異性為0%,但我們發(fā)現(xiàn)第一個(gè)測(cè)試優(yōu)于第二個(gè)測(cè)試。因此,當(dāng)使用該測(cè)試時(shí),??所有健康患者將被分類(lèi)為患病。這將是一個(gè)大問(wèn)題,因?yàn)樗羞@些患者都會(huì)由于誤診而遭受?chē)?yán)重的心理壓力和昂貴的治療。如果我們改用特異性,我們將選擇第二種模型,該模型不會(huì)以競(jìng)爭(zhēng)敏感性產(chǎn)生任何假陽(yáng)性。

?

讓我們考慮一個(gè)信息檢索示例,以說(shuō)明精度何時(shí)是有用的標(biāo)準(zhǔn)。假設(shè)我們要比較兩種具有80%的準(zhǔn)確性的文檔檢索算法。


  1. iron(

  2. waffle(c("Relevant" = 30, "Irrelevant" = 70), rows = 5, use_glyph = "file",

  3. glyph_size = 5, title = "Reference", colors = ref.colors),

  4. waffle(c("Relevant (TP)" = 25, "Irrelevant (FN)" = 5, "Relevant (FP)" = 15, "Irrelevant (TN)" = 55),

  5. rows = 5, use_glyph = "file",

  6. glyph_size = 5, title = "Retrieval Algorithm 1", colors = c(true.colors[1], false.colors[2], false.colors[1], true.colors[2]))

  7. )

?

?第一種算法的混淆矩陣

預(yù)測(cè)/參考相關(guān)?不相關(guān)?相關(guān)?TP = 25FP = 15不相關(guān)?FN = 5TN = 55

第二種算法的混淆矩陣

預(yù)測(cè)/參考相關(guān)?不相關(guān)?相關(guān)?TP = 20FP = 10不相關(guān)?FN = 10TN = 60

兩種算法的比較

讓我們根據(jù)混淆矩陣計(jì)算兩種算法的性能:

測(cè)量算法1算法2靈敏度(召回)83.3%66.7%特異性78.6%85.7%精確62.5%66.7%平衡精度80.95%76.2%F1分?jǐn)?shù)71.4%66.7%

在此示例中,平衡的精度和F1分?jǐn)?shù)都將導(dǎo)致首選第一種算法而不是第二種算法。請(qǐng)注意,報(bào)告的平衡精度絕對(duì)高于F1分?jǐn)?shù)。這是因?yàn)橛捎趤?lái)自否定類(lèi)的大量丟棄觀察,這兩種算法的特異性都很高。由于F1分?jǐn)?shù)不考慮真陰性的比率,因此精確度和召回度比敏感性和特異性更適合此任務(wù)。

摘要

在這篇文章中,我們看到應(yīng)該仔細(xì)選擇績(jī)效指標(biāo)。盡管敏感性和特異性通常表現(xiàn)良好,但精確度和召回率僅應(yīng)在真正的陰性率不起作用的情況下使用。

?


R語(yǔ)言中敏感性和特異性、召回率和精確度作為選型標(biāo)準(zhǔn)的華夫圖案例的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
宁都县| 健康| 荣昌县| 潍坊市| 从江县| 海南省| 茶陵县| 鄂托克前旗| 沧源| 永康市| 怀安县| 施秉县| 台山市| 象山县| 从化市| 乌恰县| 宁化县| 保山市| 叶城县| 修水县| 闵行区| 宁夏| 莱芜市| 隆尧县| 盈江县| 合作市| 福州市| 嘉定区| 德阳市| 台南市| 崇明县| 石楼县| 容城县| 大关县| 珠海市| 佛山市| 合阳县| 甘泉县| 华容县| 商丘市| 雷山县|