五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

我用 20 行代碼告訴你,文科生也該學(xué)點(diǎn)編程

2019-06-21 20:20 作者:清談老濕  | 我要投稿

最近在學(xué)?Python?編程的過程中,發(fā)現(xiàn)一個(gè)有意思的第三方模塊?jieba,用它可以自動(dòng)給文章中的漢字進(jìn)行分詞,并統(tǒng)計(jì)出它們出現(xiàn)的次數(shù)。于是,按照教程輸入相關(guān)代碼,然后讓程序運(yùn)行起來,對(duì)指定的文本進(jìn)行詞頻統(tǒng)計(jì),從而發(fā)現(xiàn)了一些以前不曾知道的秘密。

下圖是對(duì)從網(wǎng)上下載的《二十五史》(下圖①處)統(tǒng)計(jì)前 200 個(gè)高頻詞(下圖②處)的運(yùn)行結(jié)果:

由于該文本有 3000?多萬字,因而在?Jupyter Notebook?中運(yùn)行上面只有 20?行的代碼,也用了 3 分多鐘(上圖紅框內(nèi))。對(duì)運(yùn)行結(jié)果再進(jìn)行人工篩選,去掉一些沒有意義的詞語,最后總結(jié)并繪出《二十五史》(點(diǎn)擊文末”閱讀原文“了解詳情)中的 30?個(gè)高頻詞如下:

從中不難看出,中國(guó)人自己寫的歷史,就是一部帝王將相”搶椅子“的權(quán)力游戲,幾千年來從未改變。

用同樣的代碼和方法再統(tǒng)計(jì)《全唐詩(shī)》和《全宋詞》合并后的文本,前30?個(gè)高頻詞如下:

何處“竟然遙遙領(lǐng)先,成為唐詩(shī)、宋詞中使用最多的詞語,難道這就是中國(guó)古人心中最大的問題嗎?

從整體上看,詩(shī)書和史書中的高頻詞幾乎沒有交集??梢?,這是兩個(gè)完全不同的世界:一個(gè)是殘酷的現(xiàn)實(shí),一個(gè)是惆悵的想像??吹酱颂幍呐笥?,不知你作何感想?如果你也是個(gè)文科生,那像我一樣,趕緊學(xué)點(diǎn)編程技能吧,它對(duì)你的學(xué)習(xí)和工作都大有裨益!

用程序統(tǒng)計(jì)詞頻不光能發(fā)現(xiàn)別人文章背后的秘密,也能了解自己的興趣愛好。比如,我硬盤里收藏了數(shù)千本電子書,它們有什么特點(diǎn)呢?

將所有書名保存到一個(gè)文本文件(與上面的文本一樣,都要使用 UTF-8?編碼,如下圖箭頭所示):

然后再用前面的程序代碼進(jìn)行詞頻統(tǒng)計(jì),結(jié)果前 9 個(gè)高頻詞如下:

雖然書不一定都讀了,但這些高頻詞起碼反映了自己的讀書方向。

最后,再分享一下《四書五經(jīng)》中的12個(gè)高頻名詞:

在這個(gè)大數(shù)據(jù)時(shí)代,不會(huì)處理大數(shù)據(jù),談何競(jìng)爭(zhēng)力?

我用 20 行代碼告訴你,文科生也該學(xué)點(diǎn)編程的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
汪清县| 宿迁市| 台安县| 达日县| 怀化市| 读书| 广汉市| 深州市| 安福县| 佛山市| 集贤县| 闸北区| 阿尔山市| 漠河县| 博乐市| 大同县| 玛纳斯县| 武平县| 五家渠市| 吉安县| 韩城市| 大方县| 东兰县| 获嘉县| 桂平市| 昌邑市| 玉屏| 兴仁县| 胶州市| 彝良县| 九台市| 密山市| 乐山市| 鄂托克旗| 手游| 稷山县| 绿春县| 黄梅县| 南投县| 滁州市| 祁门县|