五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會員登陸 & 注冊

《利用Python進行數(shù)據(jù)分析·第2版》第7章 數(shù)據(jù)清洗和準(zhǔn)備

2018-05-05 00:14 作者:絕不原創(chuàng)的飛龍  | 我要投稿

在數(shù)據(jù)分析和建模的過程中,相當(dāng)多的時間要用在數(shù)據(jù)準(zhǔn)備上:加載、清理、轉(zhuǎn)換以及重塑。這些工作會占到分析師時間的80%或更多。有時,存儲在文件和數(shù)據(jù)庫中的數(shù)據(jù)的格式不適合某個特定的任務(wù)。許多研究者都選擇使用通用編程語言(如Python、Perl、R或Java)或UNIX文本處理工具(如sed或awk)對數(shù)據(jù)格式進行專門處理。幸運的是,pandas和內(nèi)置的Python標(biāo)準(zhǔn)庫提供了一組高級的、靈活的、快速的工具,可以讓你輕松地將數(shù)據(jù)規(guī)變?yōu)橄胍母袷健?/p>

如果你發(fā)現(xiàn)了一種本書或pandas庫中沒有的數(shù)據(jù)操作方式,請盡管在郵件列表或GitHub網(wǎng)站上提出。實際上,pandas的許多設(shè)計和實現(xiàn)都是由真實應(yīng)用的需求所驅(qū)動的。

在本章中,我會討論處理缺失數(shù)據(jù)、重復(fù)數(shù)據(jù)、字符串操作和其它分析數(shù)據(jù)轉(zhuǎn)換的工具。下一章,我會關(guān)注于用多種方法合并、重塑數(shù)據(jù)集。

7.1 處理缺失數(shù)據(jù)

在許多數(shù)據(jù)分析工作中,缺失數(shù)據(jù)是經(jīng)常發(fā)生的。pandas的目標(biāo)之一就是盡量輕松地處理缺失數(shù)據(jù)。例如,pandas對象的所有描述性統(tǒng)計默認(rèn)都不包括缺失數(shù)據(jù)。

缺失數(shù)據(jù)在pandas中呈現(xiàn)的方式有些不完美,但對于大多數(shù)用戶可以保證功能正常。對于數(shù)值數(shù)據(jù),pandas使用浮點值NaN(Not a Number)表示缺失數(shù)據(jù)。我們稱其為哨兵值,可以方便的檢測出來:

In [10]: string_data = pd.Series(['aardvark', 'artichoke', np.nan, 'avocado']) 

In [11]: string_data 

Out[11]:

0     aardvark

1    artichoke

2          NaN

3      avocado 

dtype: object 

In [12]: string_data.isnull() 

Out[12]: 

0    False

1    False

2     True

3    False

dtype: bool

在pandas中,我們采用了R語言中的慣用法,即將缺失值表示為NA,它表示不可用not available。在統(tǒng)計應(yīng)用中,NA數(shù)據(jù)可能是不存在的數(shù)據(jù)或者雖然存在,但是沒有觀察到(例如,數(shù)據(jù)采集中發(fā)生了問題)。當(dāng)進行數(shù)據(jù)清洗以進行分析時,最好直接對缺失數(shù)據(jù)進行分析,以判斷數(shù)據(jù)采集的問題或缺失數(shù)據(jù)可能導(dǎo)致的偏差。

閱讀全文:http://t.cn/Ru3CV5a


《利用Python進行數(shù)據(jù)分析·第2版》第7章 數(shù)據(jù)清洗和準(zhǔn)備的評論 (共 條)

分享到微博請遵守國家法律
彭阳县| 杭锦旗| 郯城县| 临安市| 收藏| 淮南市| 墨玉县| 鱼台县| 阜康市| 中方县| 吐鲁番市| 定远县| 鸡东县| 佛教| 凤冈县| 沂南县| 新乡县| 剑川县| 凤山市| 朔州市| 乐都县| 大名县| 泰和县| 包头市| 湘西| 临潭县| 庐江县| 兴国县| 黄石市| 普兰县| 黔南| 都昌县| 安平县| 大姚县| 阿图什市| 喀喇沁旗| 昌乐县| 信阳市| 富平县| 潜山县| 宁陵县|