R語言通過伽瑪與對數(shù)正態(tài)分布假設(shè)下的廣義線性模型對大額索賠進(jìn)行評估預(yù)測
?原文鏈接:http://tecdat.cn/?p=13944

?
?
我們已經(jīng)很自然地認(rèn)為,不僅可以用一些協(xié)變量來解釋單個(gè)索賠的頻率,而且可以用單個(gè)成本來解釋。
?
當(dāng)然,在考慮到
一些協(xié)變量的情況下,應(yīng)該考慮使用適當(dāng)?shù)淖鍖Τ杀镜姆植歼M(jìn)行建模。以下
是我們將使用的數(shù)據(jù)集,
通常用來模擬成本的族是Gamma分布或逆高斯分布或?qū)?shù)正態(tài)分布(它不在指數(shù)族中,但是可以假設(shè)成本的對數(shù)可以用高斯分布建模)。在這里僅考慮一個(gè)協(xié)變量,例如汽車的壽命,以及兩個(gè)不同的模型:一個(gè)Gamma模型和一個(gè)對數(shù)正態(tài)模型。
> age=0:20
> reggamma.sp <- glm(cout~agevehi,family=Gamma(link="log"),
+ data=couts)
> Pgamma <- predict(reggamma.sp,newdata=data.frame(agevehi=age),type="response")
對于Gamma回歸,這是一個(gè)簡單的GLM,因此并不困難。對于對數(shù)正態(tài)分布,應(yīng)該記住對數(shù)正態(tài)分布的期望值不是基礎(chǔ)高斯分布的指數(shù)。應(yīng)該進(jìn)行更正,以便在這里獲得平均費(fèi)用的無偏估算,
我們可以在一張圖上繪制這兩個(gè)預(yù)測,
> plot(age,Pgamma,xlab="",ylab="",col="red",type="b",pch=4)
> lines(age,Pln,col="blue",type="b")

?
也可以使用樣條曲線,因?yàn)槟挲g沒有可能以可乘的方式出現(xiàn)在這里

?
在這里,兩個(gè)模型非常接近。但是,Gamma模型對大額索賠可能非常敏感。另一方面,通過對數(shù)正態(tài)模型的對數(shù)轉(zhuǎn)換,可以看出該模型對大額索賠不太敏感。實(shí)際上,如果我使用完整的數(shù)據(jù)集,則回歸如下:

?
即,具有對數(shù)正態(tài)分布的平均成本隨著汽車的使用年限而降低,而隨著Gamma模型的增長而增加。
> couts[which.max(couts$cout),]
cout exposition zone puis agevehi ageconduct
7842 ?4024601 ? ? ? 0.22 ? ?B ? ? ? ? 9 ? ? ? ? ?13 ? ? ? ? ? ?19
marque carbur densi region
7842 ? ? ?2 ? ? ? ? E ? ? ?93 ? ? 24
?
一名年輕司機(jī)帶著一輛13歲的汽車索賠400萬美元。這是Gamma回歸的異常值,顯然會影響估計(jì)值(如果只有第二個(gè),則第二大)。由于大額索賠對平均成本的估算有明顯影響,因此自然的想法可能是刪除那些大額索賠。或者也許將它們視為與正常索賠不同:正常索賠可以通過一些協(xié)變量來解釋,但也許這些大索賠不僅應(yīng)在其自己的類別內(nèi),而且應(yīng)在投資組合中的所有被保險(xiǎn)人內(nèi)共享。為了使這個(gè)想法正式化,我們可以寫
藍(lán)色部分與正常大小的聲明相關(guān)聯(lián),而大號部分對應(yīng)于紅色部分。然后,有可能進(jìn)行三種回歸:一個(gè)針對正常大小的索賠,一個(gè)針對大的索賠,以及一項(xiàng)針對具有大索賠的指標(biāo)(假設(shè)發(fā)生索賠)。大筆索款超過10,000美元
> s= 10000
> couts$normal=(couts$cout<=s)
> mean(couts$normal)
[1] 0.9818087
在我們的數(shù)據(jù)集中占2%的索賠。我們可以進(jìn)行3組回歸,并根據(jù)汽車的壽命進(jìn)行平滑回歸。第一個(gè)模擬大額索賠個(gè)人成本的模型,
> ypB=predict(regB,newdata=data.frame(agevehicule=age),type="response")
> ypB2=mean(couts$cout[indice])
第二個(gè)模型正常索賠個(gè)人成本,
> ypA=predict(regA,newdata=data.frame(agevehicule=age),type="response")
> ypA2=mean(couts$cout[indice])
最后,考慮到發(fā)生了索賠,提出了第三種索賠的可能性
> ypC=predict(regC,newdata=data.frame(agevehicule=age),type="response")
> ypC2=predict(regC2,newdata=data.frame(agevehicule=age),type="response")
在下圖上,我們繪制了
在這里,將Gamma回歸(包括樣條曲線)作為平均成本,而邏輯回歸(也包括樣條曲線)被視為對概率進(jìn)行建模。

?
應(yīng)進(jìn)行調(diào)整以獲得足夠的溢價(jià)水平。即
?
更進(jìn)一步,可能還可以假設(shè),不僅索賠的大小(假設(shè)索賠額很大)不是任何協(xié)變量的函數(shù),而且擁有極大索賠的可能性?也不是。

?
從第一部分開始,我們已經(jīng)看到了所考慮的分布對預(yù)測有影響,在第二部分中,我們已經(jīng)看到了大額索賠的定義(以及如何處理它們)也有影響。很明顯,精算師在進(jìn)行利率評估時(shí)具有一定的杠桿作用。
?