酒店評論情感分析,親媽級教程

酒店評論情感分析,采集與分詞篇
開篇吐槽一下下。
類似攜程這種生活類網站,還有電商類網站,不是駐守被爬的城墻內就是在反爬的道路上行走。不斷的更新加密,批量化的采集不斷破解并升級程式,并在網絡之上布施教程,小白們熬夜拼命的學習。
做一個流水線般的案例示意
采集工具:八爪魚
采集平臺:攜程
采集酒店:浙江飯店
我電腦沒有開位置權限,打開瀏覽器進入攜程直接選擇的杭州,本想著找一個評分以及人氣不錯的酒店。因為酒店的人氣與評分不錯的情況下,意味著除了攜程網站之外的互聯網世界檢索相關詞的概率會高上許多,并且杭州是一個旅游城市,少不了在類似搜一搜這些平臺檢索一些攻略教程,從而獲取一些微不足道的曝光與被動搜索,我這里很多文章來源流量95%來自于被動檢索,這涉及SEO以及用戶需求與本文主題無關。

錯誤:剛開始直接找到杭州浙江飯店直接復制鏈接至八爪魚采集工具
在打開網頁-登錄-點擊評論元素-網頁識別-頁面翻頁至尾部會自動跳轉到杭州酒店列表,所以步驟不可取。
然后我去酒店翻了一下視頻教程
可以從第一張圖片看到
輸入網址-網頁識別-取消識別-登錄
這里要注意一下啊,登錄之后要看右邊的采集流程圖,再次添加一個打開網頁并且把之前復制的網址重新輸入一遍,在采集流程下高級選項選擇載入Cookies并應用。
網頁窗口鼠標拖動進度條,翻頁按鈕點擊一下下,設置翻頁按鈕。
最后點擊第一條酒店評論空白處,全選后保存-采集-采集數據就可以啦!
下面這張圖是正在采集。


采集杭州浙江飯店攜程酒店評論完成并導出表格文件中

復制了一份酒店評論到文本文檔格式,保存編碼為ANSI,不然ROST Content Mining System不支持。

打開ROST軟件就是上圖界面,功能性分析有一個分詞,找到酒店評論文本格式路徑打開。

這是用ROST分詞,分好詞的酒店文本

依舊是功能性分析,分詞下面有一個詞頻統計,點擊并通過路徑打開已經分詞的酒店評論文本。

這就是結果,并無什么關系對吧!
因為,我們沒有設置分詞,用ROST軟件自帶是不行的,我們需要自行設置。

看上面圖-ROST軟件工具-自定義文件-分詞自定義圖表

這個文檔需要重新設置修改,完成后保存,在下次分詞之前,依舊是ROST軟件,工具菜單欄-自定義文件-重載自定義圖表才可以生效的喲!
篇幅有限寫不完,也沒有太多時間。
最近有太多私+,我這邊不+友的請知悉,有事留言。
???