五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

數(shù)據(jù)處理之插值添補(bǔ)缺失值

2023-05-03 10:32 作者:tevop2000  | 我要投稿

????缺失值插補(bǔ)一般使用在建模過(guò)程當(dāng)中,由于很多模型無(wú)法處理NaN,我們?nèi)绻粚?duì)一些字段進(jìn)行插補(bǔ),很可能要?jiǎng)h除過(guò)多數(shù)據(jù);所以我們采用插補(bǔ)的方式盡可能的保留數(shù)據(jù)集的信息,而缺點(diǎn)就是帶入了“人造數(shù)據(jù)”。

????插補(bǔ)的關(guān)鍵在于:盡量在不破壞數(shù)據(jù)原始分布的情況下保留信息。所以,插補(bǔ)是當(dāng)數(shù)據(jù)量不足的時(shí)候采用的,如果是數(shù)據(jù)量充足,刪除缺失值即可;插補(bǔ)中我們要少帶入人造信息,所以當(dāng)數(shù)據(jù)近似正態(tài)分布的時(shí)候一般選擇平均值Mean。

我們介紹幾類(lèi)常見(jiàn)的處理差補(bǔ)法的方法:

1.?固定值

2.?均值

3.?眾數(shù)

4.?中位數(shù)

1.?固定值

用固定值,比如80來(lái)填充體育的的NaN值。


知識(shí)點(diǎn):

pandas中fillna()方法,能夠使用指定的方法填充N(xiāo)A/NaN值。

1.函數(shù)詳解

函數(shù)形式:fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, **kwargs)

參數(shù):

value:用于填充的空值的值。

method: {‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}, default None。定義了填充空值的方法, pad / ffill表示用前面行/列的值,填充當(dāng)前行/列的空值, backfill / bfill表示用后面行/列的值,填充當(dāng)前行/列的空值。

axis:軸。0或’index’,表示按行刪除;1或’columns’,表示按列刪除。

inplace:是否原地替換。布爾值,默認(rèn)為False。如果為T(mén)rue,則在原DataFrame上進(jìn)行操作,返回值為None。

limit:int, default None。如果method被指定,對(duì)于連續(xù)的空值,這段連續(xù)區(qū)域,最多填充前 limit 個(gè)空值(如果存在多段連續(xù)區(qū)域,每段最多填充前 limit 個(gè)空值)。如果method未被指定, 在該axis下,最多填充前 limit 個(gè)空值(不論空值連續(xù)區(qū)間是否間斷)

downcast:dict, default is None,字典中的項(xiàng)為,為類(lèi)型向下轉(zhuǎn)換規(guī)則?;蛘邽樽址癷nfer”,此時(shí)會(huì)在合適的等價(jià)類(lèi)型之間進(jìn)行向下轉(zhuǎn)換,比如float64 to int64 if possible。


2.?均值

用均值來(lái)填充體育的的NaN值。

知識(shí)點(diǎn):

mean(): 返回?cái)?shù)據(jù)的均值。使用DataFrame數(shù)據(jù)調(diào)用mean()函數(shù),返回結(jié)果為DataFrame中每一列的平均值,mean()不能計(jì)算字符串或object的平均值,所以會(huì)自動(dòng)將不能計(jì)算的列省略。

3. 眾數(shù)

????用眾數(shù)插補(bǔ)缺失值。

?

知識(shí)點(diǎn):

眾數(shù)(Mode)是指在統(tǒng)計(jì)分布上具有明顯集中趨勢(shì)點(diǎn)的數(shù)值,代表數(shù)據(jù)的一般水平。 也是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)值,有時(shí)眾數(shù)在一組數(shù)中有好幾個(gè)。

4.?中位數(shù)


用中位數(shù)插補(bǔ)缺失值。

知識(shí)點(diǎn):

中位數(shù)(Median)又稱(chēng)中值,統(tǒng)計(jì)學(xué)中的專(zhuān)有名詞,是按順序排列的一組數(shù)據(jù)中居于中間位置的數(shù),代表一個(gè)樣本、種群或概率分布中的一個(gè)數(shù)值,其可將數(shù)值集合劃分為相等的上下兩部分。對(duì)于有限的數(shù)集,可以通過(guò)把所有觀察值高低排序后找出正中間的一個(gè)作為中位數(shù)。如果觀察值有偶數(shù)個(gè),通常取最中間的兩個(gè)數(shù)值的平均數(shù)作為中位數(shù)。

?



數(shù)據(jù)處理之插值添補(bǔ)缺失值的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
昌平区| 康定县| 且末县| 双流县| 广平县| 高邑县| 保亭| 淮北市| 锡林郭勒盟| 鹤岗市| 山阳县| 新河县| 仙游县| 浙江省| 清苑县| 浦东新区| 长治县| 寻乌县| 昭苏县| 乌兰察布市| 英超| 龙口市| 乌苏市| 高安市| 牟定县| 洛浦县| 长白| 平安县| 涞源县| 民勤县| 富蕴县| 浦北县| 鄯善县| 海淀区| 江华| 太白县| 武山县| 通州市| 都匀市| 蒙山县| 会理县|