實(shí)現(xiàn)LDA主題模型分析網(wǎng)購滿意度數(shù)據(jù)|附代碼數(shù)據(jù)
全文下載鏈接:http://tecdat.cn/?p=2175
最近我們被客戶要求撰寫關(guān)于LDA主題模型的研究報(bào)告,包括一些圖形和統(tǒng)計(jì)輸出。
研究人員對各大電商平臺(tái)海量用戶的評價(jià)數(shù)據(jù)進(jìn)行分析,得出智能門鎖剁手攻略
語義透鏡
顧客滿意度和關(guān)注點(diǎn)
我們對于評價(jià)數(shù)據(jù)進(jìn)行LDA建模,就是從語料庫中挖掘出不同主題并進(jìn)行分析,換言之,LDA提供了一種較為方便地量化研究主題的機(jī)器學(xué)習(xí)方法。
我們使用最大似然估計(jì)進(jìn)行最優(yōu)化主題個(gè)數(shù)的選取。當(dāng)主題個(gè)數(shù)定為20的時(shí)候,似然估計(jì)數(shù)最大,即留言板數(shù)據(jù)分為20個(gè)主題的可能性比較大。將模型生成的20個(gè)主題中的高頻詞取出。
圖表1

?
根據(jù)各個(gè)主題的高頻關(guān)鍵詞,大概可以將顧客關(guān)注點(diǎn)分成5個(gè)部分:商家品牌、價(jià)格質(zhì)量、客服師傅、使用便捷性和包裝物流。從上圖,我們發(fā)現(xiàn)用戶關(guān)注的點(diǎn)主要集中在客服對商品問題的耐心解答,師傅對門鎖安裝的指導(dǎo)以及包裝和物流上。
我們也發(fā)現(xiàn)不少顧客的評論反映出智能門鎖的便捷性(e.g.不用帶鑰匙)和先進(jìn)(e.g.指紋識(shí)別度高)。同時(shí)我們沒有發(fā)現(xiàn)安全性相關(guān)的高頻詞匯。
顧客抱怨
質(zhì)量、客服服務(wù)和物流
接下來,我們對不同價(jià)格和主題的顧客抱怨率進(jìn)行比較。
圖表2

?
從價(jià)格方面我們發(fā)現(xiàn)價(jià)格低于2000的智能門鎖購買量最多,同時(shí)抱怨率也較高,根據(jù)關(guān)注點(diǎn)來看,顧客抱怨點(diǎn)主要集中在商品質(zhì)量和客服的耐心程度。購買量位于第二的價(jià)格是高于4000的區(qū)間,整體抱怨率最低。購買量位于第三的是2000-3000區(qū)間,該區(qū)間顧客抱怨點(diǎn)主要集中在商家品牌與物流。最后是3000-4000區(qū)間,該區(qū)間顧客抱怨點(diǎn)主要集中在價(jià)格質(zhì)量與物流。同時(shí)反映出顧客對智能門鎖價(jià)格有較高心理預(yù)期,主要抱怨點(diǎn)在質(zhì)量、客服服務(wù)和物流上。
自營非自營
價(jià)格和滿意度
圖表3

?
從左圖可以看出自營和非自營商品在顧客滿意度上相差不大,非自營商品的滿意度要略高于自營商品。同時(shí)可以看到大于4000區(qū)間的顧客滿意度最高,且都是非自營商品。
從右圖中,我們可以看到滿意度關(guān)于價(jià)格的回歸預(yù)測結(jié)果。圖中紅線表示的是自營商品,在3000以下的區(qū)間,價(jià)格越高,滿意度反而下降,高于3000的區(qū)間中,價(jià)格越高,滿意度越高。在非自營商品中,3000以下的價(jià)格區(qū)間中,價(jià)格和滿意度關(guān)系不明顯,高于3000的價(jià)格區(qū)間中,價(jià)格越高,滿意度越高。
從前文中,我們發(fā)現(xiàn)價(jià)格低于3000的商品抱怨率最低的點(diǎn)在于便捷和使用高效,因此給人的感覺性價(jià)高,滿意度較高,而價(jià)格接近3000時(shí),顧客對客服、物流、質(zhì)量等預(yù)期更高,因此容易成為抱怨的重災(zāi)區(qū)。當(dāng)價(jià)格接近和高于4000時(shí),商品的品牌、質(zhì)量往往又得到保證,因此滿意度又上升。

點(diǎn)擊文末?“閱讀原文”
獲取全文完整代碼和數(shù)據(jù)資料。
本文選自《智能門鎖“剁手”數(shù)據(jù)攻略》。

點(diǎn)擊標(biāo)題查閱往期內(nèi)容
R語言中的LDA模型:對文本數(shù)據(jù)進(jìn)行主題模型topic modeling分析
自然語言處理NLP:主題LDA、情感分析疫情下的新聞文本數(shù)據(jù)
【視頻】文本挖掘:主題模型(LDA)及R語言實(shí)現(xiàn)分析游記數(shù)據(jù)
NLP自然語言處理—主題模型LDA案例:挖掘人民網(wǎng)留言板文本數(shù)據(jù)
Python主題建模LDA模型、t-SNE 降維聚類、詞云可視化文本挖掘新聞組數(shù)據(jù)集
自然語言處理NLP:主題LDA、情感分析疫情下的新聞文本數(shù)據(jù)
R語言對NASA元數(shù)據(jù)進(jìn)行文本挖掘的主題建模分析
R語言文本挖掘、情感分析和可視化哈利波特小說文本數(shù)據(jù)
Python、R對小說進(jìn)行文本挖掘和層次聚類可視化分析案例
用于NLP的Python:使用Keras進(jìn)行深度學(xué)習(xí)文本生成
長短期記憶網(wǎng)絡(luò)LSTM在時(shí)間序列預(yù)測和文本分類中的應(yīng)用
用Rapidminer做文本挖掘的應(yīng)用:情感分析
R語言文本挖掘tf-idf,主題建模,情感分析,n-gram建模研究
R語言對推特twitter數(shù)據(jù)進(jìn)行文本情感分析
Python使用神經(jīng)網(wǎng)絡(luò)進(jìn)行簡單文本分類
用于NLP的Python:使用Keras的多標(biāo)簽文本LSTM神經(jīng)網(wǎng)絡(luò)分類
R語言文本挖掘使用tf-idf分析NASA元數(shù)據(jù)的關(guān)鍵字
R語言NLP案例:LDA主題文本挖掘優(yōu)惠券推薦網(wǎng)站數(shù)據(jù)
Python使用神經(jīng)網(wǎng)絡(luò)進(jìn)行簡單文本分類
R語言自然語言處理(NLP):情感分析新聞文本數(shù)據(jù)
Python、R對小說進(jìn)行文本挖掘和層次聚類可視化分析案例
R語言對推特twitter數(shù)據(jù)進(jìn)行文本情感分析
R語言中的LDA模型:對文本數(shù)據(jù)進(jìn)行主題模型topic modeling分析
R語言文本主題模型之潛在語義分析(LDA:Latent Dirichlet Allocation)R語言對NASA元數(shù)據(jù)進(jìn)行文本挖掘的主題建模分析
R語言文本挖掘、情感分析和可視化哈利波特小說文本數(shù)據(jù)
Python、R對小說進(jìn)行文本挖掘和層次聚類可視化分析案例
用于NLP的Python:使用Keras進(jìn)行深度學(xué)習(xí)文本生成
長短期記憶網(wǎng)絡(luò)LSTM在時(shí)間序列預(yù)測和文本分類中的應(yīng)用
用Rapidminer做文本挖掘的應(yīng)用:情感分析
R語言文本挖掘tf-idf,主題建模,情感分析,n-gram建模研究
R語言對推特twitter數(shù)據(jù)進(jìn)行文本情感分析
Python使用神經(jīng)網(wǎng)絡(luò)進(jìn)行簡單文本分類
用于NLP的Python:使用Keras的多標(biāo)簽文本LSTM神經(jīng)網(wǎng)絡(luò)分類
R語言文本挖掘使用tf-idf分析NASA元數(shù)據(jù)的關(guān)鍵字
R語言NLP案例:LDA主題文本挖掘優(yōu)惠券推薦網(wǎng)站數(shù)據(jù)
Python使用神經(jīng)網(wǎng)絡(luò)進(jìn)行簡單文本分類
R語言自然語言處理(NLP):情感分析新聞文本數(shù)據(jù)
Python、R對小說進(jìn)行文本挖掘和層次聚類可視化分析案例
R語言對推特twitter數(shù)據(jù)進(jìn)行文本情感分析
R語言中的LDA模型:對文本數(shù)據(jù)進(jìn)行主題模型topic modeling分析
R語言文本主題模型之潛在語義分析(LDA:Latent Dirichlet Allocation)