新書上市 | 史上最系統(tǒng)全面的預(yù)處理教程來(lái)了!
“3 天了,我還在做數(shù)據(jù)預(yù)處理?!?/p>
“第 1 步就卡住了,數(shù)據(jù)預(yù)處理也太難了吧!”
“媽呀,弄了我?guī)讉€(gè)月的問(wèn)題,原因竟然是我預(yù)處理數(shù)據(jù)的時(shí)候方法不好?!?/p>
“腦子空空如也,此時(shí)此刻,為啥沒(méi)有人告訴我,原來(lái)我可以死在數(shù)據(jù)預(yù)處理上。”
……
網(wǎng)上隨手搜一下,就會(huì)發(fā)現(xiàn)對(duì)數(shù)據(jù)預(yù)處理的抱怨比比皆是。圍繞數(shù)據(jù)預(yù)處理的關(guān)鍵詞有兩個(gè)——“重要”“難”。很多數(shù)據(jù)分析相關(guān)的圖書和文章這樣介紹預(yù)處理:
預(yù)處理的工作量占數(shù)據(jù)分析任務(wù)的 80%
預(yù)處理是數(shù)據(jù)分析中必不可少的工程
預(yù)處理之所以重要,是因?yàn)樗鼤?huì)對(duì)后續(xù)的數(shù)據(jù)分析質(zhì)量、模型預(yù)測(cè)精度產(chǎn)生極大影響。我們?cè)趯?shí)際項(xiàng)目中拿到的數(shù)據(jù)往往是雜亂無(wú)章的(數(shù)據(jù)缺失、數(shù)據(jù)不一致、數(shù)據(jù)重復(fù)等),要想應(yīng)用恰當(dāng)?shù)姆治龇椒ǖ玫嚼硐虢Y(jié)果,就必須通過(guò)一些方法提高數(shù)據(jù)質(zhì)量,而這就是預(yù)處理的工作。
預(yù)處理如此重要,市面上相關(guān)圖書卻少之又少,原因在于預(yù)處理是一項(xiàng)難以總結(jié)的技術(shù),其知識(shí)不夠體系。這就導(dǎo)致我們只能得到一些碎片式的信息,無(wú)法系統(tǒng)了解。專業(yè)資料之匱乏,可能也是下面這本《數(shù)據(jù)預(yù)處理從入門到實(shí)戰(zhàn):基于SQL、R、Python》原版一上市就迅速進(jìn)入日亞計(jì)算機(jī)類圖書銷量排行榜 No.1,并在 3 個(gè)月內(nèi)重印 4 次的原因之一。


1 本書掌握大數(shù)據(jù)、人工智能時(shí)代需要的數(shù)據(jù)預(yù)處理技術(shù)
KDD CUP 2015 亞軍得主多行業(yè)實(shí)戰(zhàn)經(jīng)驗(yàn)總結(jié)
如果你對(duì)數(shù)據(jù)預(yù)處理感興趣,或者正在受其困擾,不妨讀一讀這本書。
本書結(jié)構(gòu)

本書特色
1. 54 道例題,涵蓋常見(jiàn)數(shù)據(jù)預(yù)處理技術(shù)
這本書采用問(wèn)題驅(qū)動(dòng)式結(jié)構(gòu),先拋出常見(jiàn)預(yù)處理任務(wù),引導(dǎo)讀者思考如何實(shí)現(xiàn)。像這樣帶著問(wèn)題學(xué)習(xí),可以大大提高學(xué)習(xí)效果,讓理解更深入。

2. 3 種語(yǔ)言實(shí)現(xiàn)對(duì)比,把握每種語(yǔ)言的特長(zhǎng)
書中分別用 SQL、R、Python 對(duì)比解決相同的案例問(wèn)題,可以了解各語(yǔ)言在處理各種預(yù)處理問(wèn)題時(shí)有哪些優(yōu)缺點(diǎn),從而根據(jù)情況選擇合適的語(yǔ)言,提升預(yù)處理效率。



3. 同時(shí)給出一般代碼與理想代碼,優(yōu)化處理的關(guān)鍵一目了然
對(duì)于每道例題,都同時(shí)給出用 SQL、R、Python 這 3 種語(yǔ)言所寫的一般代碼與理想代碼,并對(duì)代碼中的關(guān)鍵點(diǎn)進(jìn)行說(shuō)明。讀者不僅可以邊閱讀邊思考如何修改一般代碼,還可以通過(guò)與理想代碼的對(duì)比明白如何優(yōu)化代碼。

4. 通過(guò) 3 個(gè)綜合實(shí)戰(zhàn)案例,體驗(yàn)真實(shí)的預(yù)處理過(guò)程


讀者對(duì)象
適合新手?jǐn)?shù)據(jù)科學(xué)家和對(duì)數(shù)據(jù)分析、數(shù)據(jù)挖掘感興趣的讀者閱讀。
初學(xué)者可以先瀏覽目錄,選擇感興趣的章節(jié)仔細(xì)閱讀,以在自己的業(yè)務(wù)中靈活應(yīng)用;有一定經(jīng)驗(yàn)的讀者通過(guò)閱讀本書,可以查漏補(bǔ)缺,進(jìn)一步提高預(yù)處理效率。
任何工作都有輝煌的瞬間,例如足球運(yùn)動(dòng)員進(jìn)球的瞬間,廚師大火收汁后菜肴出鍋的瞬間,專家顧問(wèn)做報(bào)告的瞬間。而對(duì)于數(shù)據(jù)科學(xué)家,最輝煌的大概就是有了奇妙的發(fā)現(xiàn)或創(chuàng)建出高精度模型的那個(gè)瞬間。輝煌的瞬間是否會(huì)到來(lái),與前一階段準(zhǔn)備工作的好壞密切相關(guān)。不同于那一刻輝煌的瞬間,準(zhǔn)備的過(guò)程往往平淡無(wú)奇且漫長(zhǎng),但成敗也正是在這一階段決定的。如果你的目標(biāo)是成為一流的數(shù)據(jù)科學(xué)家,那就跟隨這本書,把平淡無(wú)奇的預(yù)處理做到極致吧!