散文網(wǎng) » 科技 »學(xué)習(xí) » 我是如何開(kāi)始能寫python爬蟲(chóng)的？給入門python小白一條清晰的學(xué)習(xí)路線

我是如何開(kāi)始能寫python爬蟲(chóng)的？給入門python小白一條清晰的學(xué)習(xí)路線

2022-12-07 13:49 作者:愛(ài)生活愛(ài)爬蟲(chóng) 0人讀過(guò) | 我要投稿

重要的事說(shuō)三遍：不要從看書(shū)開(kāi)始，不要從看書(shū)開(kāi)始，不要從看書(shū)開(kāi)始！~~
爬蟲(chóng)這么有意思的東西，看書(shū)多沒(méi)有樂(lè)趣，從網(wǎng)上找個(gè)視頻，直接跟著寫，然后再根據(jù)視頻，按照自己的想法寫個(gè)爬蟲(chóng)，爬取自己想要的東西，多么有意思。
這里我推薦進(jìn)群獲取python爬蟲(chóng)教程，按照里面爬蟲(chóng)的教程寫幾個(gè)程序，會(huì)對(duì)爬蟲(chóng)有新的認(rèn)識(shí)。

寫一下我自己從零開(kāi)始寫python爬蟲(chóng)的心得吧！
我剛開(kāi)始對(duì)爬蟲(chóng)不是很了解，又沒(méi)有任何的計(jì)算機(jī)、編程基礎(chǔ)，確實(shí)有點(diǎn)懵逼。從哪里開(kāi)始，哪些是最開(kāi)始應(yīng)該學(xué)的，哪些應(yīng)該等到有一定基礎(chǔ)之后再學(xué)，也沒(méi)個(gè)清晰的概念。
因?yàn)槭?Python 爬蟲(chóng)嘛，Python 就是必備的咯，那先從 Python 開(kāi)始吧。于是看了一些教程和書(shū)籍，了解基本的數(shù)據(jù)結(jié)構(gòu)，然后是列表、字典、元組，各種函數(shù)和控制語(yǔ)句（條件語(yǔ)句、循環(huán)語(yǔ)句）。
學(xué)習(xí)一門學(xué)科的時(shí)候是要清楚它的知識(shí)框架才能清晰的學(xué)習(xí)、有系統(tǒng)的學(xué)習(xí)，下面來(lái)列一列python網(wǎng)絡(luò)爬蟲(chóng)的知識(shí)框架來(lái)幫助大家能夠有效的學(xué)習(xí)和掌握，避免不必要的坑。
學(xué)了一段時(shí)間，才發(fā)現(xiàn)自己還沒(méi)接觸到真正的爬蟲(chóng)呢，而且純理論學(xué)習(xí)很快就忘了，回去復(fù)習(xí)又太浪費(fèi)時(shí)間，簡(jiǎn)直不要太絕望。把 Python 的基礎(chǔ)知識(shí)過(guò)了一遍之后，我竟然還沒(méi)裝一個(gè)可以敲代碼的IDE，想想就哭笑不得。
零基礎(chǔ)學(xué)習(xí)爬蟲(chóng)，坑確實(shí)比較多，總結(jié)如下：
1.環(huán)境配置，各種安裝包、環(huán)境變量，對(duì)小白太不友好；
2.缺少合理的學(xué)習(xí)路徑，上來(lái) Python、HTML 各種學(xué)，極其容易放棄；
3.Python有很多包、框架可以選擇，但小白不知道哪個(gè)更友好；
4.遇到問(wèn)題甚至不知道如何描述，更不用說(shuō)去尋找解決辦法；
5.網(wǎng)上的資料非常零散，而且對(duì)小白不友好，很多看起來(lái)云里霧里；
6.有些東西看似懂了，但結(jié)果自己寫代碼還是很困難；
……………………
所以跟我一樣，很多人爬坑最大的體會(huì)是：盡量不要系統(tǒng)地去啃一些東西，找一個(gè)實(shí)際的項(xiàng)目（從豆瓣這種簡(jiǎn)單的入手），直接開(kāi)始就好。
因?yàn)榕老x(chóng)這種技術(shù)，既不需要你系統(tǒng)地精通一門語(yǔ)言，也不需要多么高深的數(shù)據(jù)庫(kù)技術(shù)，從實(shí)際的項(xiàng)目中去學(xué)習(xí)這些零散的知識(shí)點(diǎn)，你能保證每次學(xué)到的都是最需要的那部分。
當(dāng)然麻煩的是，在具體的問(wèn)題中，如何找到具體需要的那部分學(xué)習(xí)資源、如何篩選和甄別，遇到困難時(shí)如何有效解決，是很多初學(xué)者面臨的大問(wèn)題。
不過(guò)不用擔(dān)心，我這有一套免費(fèi)的python爬蟲(chóng)教程，為你提供一條清晰、無(wú)痛的學(xué)習(xí)路徑，包含最實(shí)用的學(xué)習(xí)資源以及龐大的主流爬蟲(chóng)案例庫(kù)。即便是零基礎(chǔ)，經(jīng)過(guò)短時(shí)間的學(xué)習(xí)，也能很好地掌握爬蟲(chóng)這個(gè)技能，獲取你想得到的數(shù)據(jù)。

python網(wǎng)絡(luò)爬蟲(chóng)總的來(lái)說(shuō)有五個(gè)大的方面：

前端知識(shí)——基礎(chǔ)爬蟲(chóng)——框架爬蟲(chóng)——分布式爬蟲(chóng)——突破反爬蟲(chóng)
1.前端知識(shí)：
“網(wǎng)絡(luò)爬蟲(chóng)”很明顯對(duì)象是網(wǎng)絡(luò)，也就是網(wǎng)頁(yè)。說(shuō)到網(wǎng)頁(yè)，這里就涉及到了前端的知識(shí)了，不過(guò)大家也不要慌，只要懂點(diǎn)必要的HTML5框架、網(wǎng)頁(yè)的http請(qǐng)求、還有JavaScript、css3的知識(shí)就可以了，以這樣的水平也是可以學(xué)會(huì)爬蟲(chóng)的啦。當(dāng)然，如果要非常精通python網(wǎng)絡(luò)爬蟲(chóng)的話，深入學(xué)習(xí)前端知識(shí)是必要的。
2.基礎(chǔ)爬蟲(chóng)：
（1）基礎(chǔ)庫(kù)：urllib模塊/requests第三方模塊
首先爬蟲(chóng)就是要從網(wǎng)頁(yè)上把我們需要的信息抓取下來(lái)的，那么我們就要學(xué)習(xí)urllib/requests模塊，這兩種模塊是負(fù)責(zé)爬取網(wǎng)頁(yè)的。這里大家覺(jué)得哪一種用的習(xí)慣就用哪一種，選擇一種精通就好了。我推薦讀者使用使用requests模塊，因?yàn)檫@一種簡(jiǎn)便很多，容易操作、容易理解，所以requests被稱為“人性化模塊”。
（2）多進(jìn)程、多線程、協(xié)程和分布式進(jìn)程：
為什么要學(xué)著四個(gè)知識(shí)呢？假如你要爬取200萬(wàn)條的數(shù)據(jù)，使用一般的單進(jìn)程或者單線程的話，你爬取下載這些數(shù)據(jù)，也許要一個(gè)星期或是更久。試問(wèn)這是你想要看到的結(jié)果嗎？顯然單進(jìn)程和單線程不要滿足我們追求的高效率，太浪費(fèi)時(shí)間了。只要設(shè)置好多進(jìn)程和多線程，爬取數(shù)據(jù)的速度可以提高10倍甚至更高的效率。
（3）網(wǎng)頁(yè)解析提取庫(kù)：xpath/BeautifulSoup4/正則表達(dá)式
通過(guò)前面的（1）和（2）爬取下來(lái)的是網(wǎng)頁(yè)源代碼，這里有很多并不是我們想要的信息，所以需要將沒(méi)用的信息過(guò)濾掉，留下對(duì)我們有價(jià)值的信息。這里有三種解析器，三種在不同的場(chǎng)景各有特色也各有不足，總的來(lái)說(shuō)，學(xué)會(huì)這三種靈活運(yùn)用會(huì)很方便的。推薦理解能力不是很強(qiáng)的朋友或是剛?cè)腴T爬蟲(chóng)的朋友，學(xué)習(xí)BeautifulSoup4是很容易掌握并能夠快速應(yīng)用實(shí)戰(zhàn)的，功能也非常強(qiáng)大。
（4）反屏蔽：請(qǐng)求頭/代理服務(wù)器/cookie
在爬取網(wǎng)頁(yè)的時(shí)候有時(shí)會(huì)失敗，因?yàn)閯e人網(wǎng)站設(shè)置了反爬蟲(chóng)措施了，這個(gè)時(shí)候就需要我們?nèi)窝b自己的行為，讓對(duì)方網(wǎng)站察覺(jué)不到我們就是爬蟲(chóng)方。請(qǐng)求頭設(shè)置，主要是模擬成瀏覽器的行為；IP被屏蔽了，就需要使用代理服務(wù)器來(lái)破解；而cookie是模擬成登錄的行為進(jìn)入網(wǎng)站。
（5）異常：超時(shí)處理/異常處理，這里不做介紹了，自己去了解一下。
（6）數(shù)據(jù)儲(chǔ)存庫(kù)：文件系統(tǒng)儲(chǔ)存/MySQL/MongoDB
數(shù)據(jù)的儲(chǔ)存大概就這三種方式了，文件系統(tǒng)儲(chǔ)存是運(yùn)用了python文件操作來(lái)執(zhí)行的；而MySQL要使用到數(shù)據(jù)庫(kù)創(chuàng)建表格來(lái)儲(chǔ)存數(shù)據(jù)；MongoDB在爬蟲(chóng)里是非常好的儲(chǔ)存方式，分布式爬蟲(chóng)就是運(yùn)用了MongoDB來(lái)儲(chǔ)存的。各有特色，看自己需要哪種，在靈活運(yùn)用。
（7）動(dòng)態(tài)網(wǎng)頁(yè)抓?。篈jax/PhantomJS/Selenium這三個(gè)知識(shí)點(diǎn)
（8）抓包：APP抓包/API爬蟲(chóng)
（9）模擬登陸的爬蟲(chóng)
3.框架爬蟲(chóng)：
主流且熱門的 scrapy 框架/人性化的 pyspider 框架
框架不止這兩種，但是很多時(shí)候就只用到了這些框架，所以把這兩種掌握熟悉了就可以了。
4.分布式爬蟲(chóng)：
python 操作 Redis 基礎(chǔ)命令和 scrapy-Redis
5.突破反爬蟲(chóng)：
useragent 池/禁用 cookies /設(shè)置下載延時(shí)和自動(dòng)限速/代理 IP 池/ tor 代理/分布式下載器
上面是 python 爬蟲(chóng)的具體學(xué)習(xí)路線，希望這篇文章能讓讀者高效的學(xué)好python網(wǎng)絡(luò)爬蟲(chóng)

對(duì)于零基礎(chǔ)如何開(kāi)始能寫爬蟲(chóng)，以下幾點(diǎn)希望你看了能解答你的困惑。
01 并沒(méi)想象的那么容易
為自己本身對(duì)python了解的也不是很多，于是馬上著手開(kāi)始學(xué)習(xí)python，但是在沒(méi)人指導(dǎo)的情況下確實(shí)很迷茫（mb）。
通過(guò)網(wǎng)上查的一些資料，以及參考別人的學(xué)習(xí)過(guò)程，于是看了一些書(shū)籍，了解數(shù)據(jù)結(jié)構(gòu)，然后是列、表、字典、函數(shù)、控制語(yǔ)句等（常用的條件語(yǔ)句、循環(huán)語(yǔ)句）。
學(xué)了一段時(shí)間后，回過(guò)頭來(lái)看，其實(shí)自己并沒(méi)接觸到真正的爬蟲(chóng)，而且學(xué)習(xí)純理論的東西長(zhǎng)時(shí)間不用就會(huì)忘記，只能回頭繼續(xù)復(fù)習(xí)，確實(shí)很浪費(fèi)時(shí)間。
02 直接上手階段
之前在csdn逛gai的時(shí)候看到別的大牛分享的技術(shù)貼，清晰的思路一看就懂，這才是我應(yīng)該學(xué)習(xí)的爬蟲(chóng)。于是決定自己先搭建一個(gè)環(huán)境試試，看看能玩成什么樣子。
因?yàn)榕鲁鲥e(cuò)，裝了比較保險(xiǎn)的 Anaconda，用自帶的 Jupyter Notebook 作為IDE來(lái)寫代碼?？吹胶芏嗳苏f(shuō)因?yàn)榕渲铆h(huán)境出各種BUG，簡(jiǎn)直慶幸。很多時(shí)候打敗你的，并不是事情本身，說(shuō)的就是爬蟲(chóng)配置環(huán)境這事兒。
遇到的另一個(gè)問(wèn)題是，Python 的爬蟲(chóng)可以用很多包或者框架來(lái)實(shí)現(xiàn)，應(yīng)該選哪一種呢？我的原則就是是簡(jiǎn)單好用，寫的代碼少，對(duì)于一個(gè)小白來(lái)說(shuō)，性能、效率什么的，統(tǒng)統(tǒng)被我 pass 了。于是開(kāi)始接觸 urllib、美麗湯（BeautifulSoup），因?yàn)槁?tīng)別人說(shuō)很簡(jiǎn)單。
我上手的第一個(gè)案例是爬取豆瓣的電影，照著一些爬取豆瓣電影的入門級(jí)例子開(kāi)始看，從這些例子里面，了解了一點(diǎn)點(diǎn)爬蟲(chóng)的基本原理：下載頁(yè)面、解析頁(yè)面、定位并抽取數(shù)據(jù)。
代碼就不展示了，最終通過(guò)別人的思路和自己查找美麗湯的用法，完成了豆瓣電影的基本信息爬取。
03 走上正軌
有了第一步的實(shí)踐，就需要繼續(xù)往下學(xué)習(xí)、嘗試，比如爬取多個(gè)元素、翻頁(yè)、處理多種情況等涉及的語(yǔ)句控制，又比如提取內(nèi)容時(shí)涉及到的字符串、列表、字典的處理，還遠(yuǎn)遠(yuǎn)不夠。
再回去補(bǔ)充 Python 的基礎(chǔ)知識(shí)，就很有針對(duì)性，而且能馬上能用于解決問(wèn)題，也就理解得更深刻。
BeautifulSoup 還算不錯(cuò)，但需要花一些時(shí)間去了解一些網(wǎng)頁(yè)的基本知識(shí)，否則一些元素的定位和選取還是會(huì)頭疼。
后來(lái)認(rèn)識(shí)到 xpath 之后相見(jiàn)恨晚，這才是入門必備利器啊，直接Chrome復(fù)制就可以了，指哪打哪。即便是要自己寫 xpath，以w3school上幾頁(yè)的 xpath 教程，一個(gè)小時(shí)也可以搞定了。requests 貌似也比 urllib 更好用，但摸索總歸是試錯(cuò)的過(guò)程，試錯(cuò)成本就是時(shí)間。
04 反爬是道坎兒
在爬取一些網(wǎng)站的時(shí)候，可能是涉及到了敏感信息，發(fā)現(xiàn)很多內(nèi)容根本無(wú)法爬取，而且IP經(jīng)常被封禁。簡(jiǎn)單的可以通過(guò) time.sleep 控制爬取頻率的方法解決，限制比較嚴(yán)格或者需要保證爬取速度，就要用代理IP來(lái)解決。
后來(lái)也試了一下 Selenium，這個(gè)就真的是按照真實(shí)的用戶瀏覽行為（點(diǎn)擊、搜索、翻頁(yè)）來(lái)實(shí)現(xiàn)爬蟲(chóng)，所以對(duì)于那些反爬蟲(chóng)特別厲害的網(wǎng)站，又沒(méi)有辦法解決。但是Selenium 確實(shí)非常好用易上手，雖然速度稍微慢點(diǎn)。
05 初嘗Scrapy 框架
使用 requests+xpath 和抓包大法確實(shí)可以解決很多網(wǎng)站信息的爬取，但是對(duì)于信息量比較大或者需要分模塊爬取的話，就會(huì)顯得寸步難行。
后來(lái)應(yīng)用到了強(qiáng)大的 Scrapy 框架，它不僅能便捷地構(gòu)建 Request，還有強(qiáng)大的 Selector 能夠方便地解析 Response，然而最讓人驚喜的還是它超高的性能，可以將爬蟲(chóng)工程化、模塊化。
學(xué)會(huì) Scrapy，自己去嘗試搭建了簡(jiǎn)單的爬蟲(chóng)框架，在做大規(guī)模數(shù)據(jù)爬取的時(shí)候能夠結(jié)構(gòu)化、工程化地思考大規(guī)模的爬取問(wèn)題，這使我可以從爬蟲(chóng)工程的維度去思考問(wèn)題。
再后來(lái)開(kāi)始逐漸接觸到分布式爬蟲(chóng)，這個(gè)東西聽(tīng)著挺唬人，但其實(shí)就是利用多線程的原理讓多個(gè)爬蟲(chóng)同時(shí)工作，能夠?qū)崿F(xiàn)更高的效率。
總結(jié)一下我學(xué)習(xí)python爬蟲(chóng)過(guò)程所走過(guò)的一些坑
1、缺少合理的學(xué)習(xí)路徑，上來(lái) Python、HTML 各種學(xué)，極其容易放棄；
2、網(wǎng)上的資料非常零散，而且對(duì)小白不友好，很多看起來(lái)云里霧里；
3、沒(méi)有專業(yè)的人知道，會(huì)走很多的彎路，自己都不知道要往哪里學(xué)。
所以很多爬蟲(chóng)工程師，都會(huì)有跟我一樣的體會(huì)：爬蟲(chóng)這玩意兒不需要多精湛的代碼技術(shù)，也不需要多深的數(shù)據(jù)庫(kù)知識(shí)，只要有合理的學(xué)習(xí)路徑以及實(shí)操項(xiàng)目，都能學(xué)好。

想學(xué)Python爬蟲(chóng)的朋友樓下打個(gè)學(xué)習(xí)，分享系統(tǒng)學(xué)習(xí)路線和實(shí)操案例，快速學(xué)好python爬蟲(chóng)。

標(biāo)簽：

我是如何開(kāi)始能寫python爬蟲(chóng)的？給入門python小白一條清晰的學(xué)習(xí)路線的評(píng)論 (共條)

愛(ài)情散文傷感散文哲理散文優(yōu)美生活隨筆親情唯美句子傷感的句子現(xiàn)代詩(shī)歌空間日志經(jīng)典語(yǔ)句愛(ài)情句子作文大全

五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

我是如何開(kāi)始能寫python爬蟲(chóng)的？給入門python小白一條清晰的學(xué)習(xí)路線

我是如何開(kāi)始能寫python爬蟲(chóng)的？給入門python小白一條清晰的學(xué)習(xí)路線的評(píng)論 (共條)

你可能也喜歡這些文章

最新發(fā)布的文章

五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

我是如何開(kāi)始能寫python爬蟲(chóng)的？給入門python小白一條清晰的學(xué)習(xí)路線

本文作者的其他文章

我是如何開(kāi)始能寫python爬蟲(chóng)的？給入門python小白一條清晰的學(xué)習(xí)路線的評(píng)論 (共 條)

你可能也喜歡這些文章

最新發(fā)布的文章

我是如何開(kāi)始能寫python爬蟲(chóng)的？給入門python小白一條清晰的學(xué)習(xí)路線

我是如何開(kāi)始能寫python爬蟲(chóng)的？給入門python小白一條清晰的學(xué)習(xí)路線的評(píng)論 (共條)