程序員有時(shí)候很難和外行人講明白自己的工作是什么,甚至有些時(shí)候,跟同行的人講清楚“你是干什么的”也很困難。比如我自己,就對(duì)Daivd在搞的語義網(wǎng)一頭霧水。所以我打算寫一篇博客,講一下“爬蟲工程師”的工作內(nèi)容是什么,需要掌握哪些技能,難點(diǎn)和好玩的地方等等,講到哪里算哪里吧。
一、爬蟲工程師是干嘛的?
1.主要工作內(nèi)容?
互聯(lián)網(wǎng)是由一個(gè)一個(gè)的超鏈接組成的,從一個(gè)網(wǎng)頁的鏈接可以跳到另一個(gè)網(wǎng)頁,在新的網(wǎng)頁里,又有很多鏈接。理論上講,從任何一個(gè)網(wǎng)頁開始,不斷點(diǎn)開鏈接、鏈接的網(wǎng)頁的鏈接,就可以走遍整個(gè)互聯(lián)網(wǎng)!這個(gè)過程是不是像蜘蛛沿著網(wǎng)一樣爬?這也是“爬蟲”名字的由來。
作為爬蟲工程師,就是要寫出一些能夠沿著網(wǎng)爬的”蜘蛛“程序,保存下來獲得的信息。一般來說,需要爬出來的信息都是結(jié)構(gòu)化的,如果不是結(jié)構(gòu)化的,那么也就沒什么意義了(百分之八十的數(shù)據(jù)是非結(jié)構(gòu)化的)。爬蟲的規(guī)模可達(dá)可小,小到可以爬取豆瓣的top 250電影,定時(shí)爬取一個(gè)星期的天氣預(yù)報(bào)等。大到可以爬取整個(gè)互聯(lián)網(wǎng)的網(wǎng)頁(例如google)。下面這些,我認(rèn)為都可以叫做爬蟲:
爬知乎的作者和回答
爬百度網(wǎng)盤的資源,存到數(shù)據(jù)庫中(當(dāng)然,只是保存資源的鏈接和標(biāo)題),然后制作一個(gè)網(wǎng)盤的搜索引擎
同上,種子網(wǎng)站的搜索引擎也是這樣的
到這里,我們知道爬蟲的任務(wù)是獲取數(shù)據(jù)。現(xiàn)在比較流行大數(shù)據(jù),從互聯(lián)網(wǎng)方面講,數(shù)據(jù)可以分成兩種,一種是用戶產(chǎn)生的(UGC),第二種就是通過一些手段獲得的,通常就是爬蟲。爬蟲又不僅僅局限于從網(wǎng)頁中獲得數(shù)據(jù),也可以從app抓包等。簡(jiǎn)而言之,就是聚合數(shù)據(jù)并讓他們結(jié)構(gòu)化。那么,哪些工作需要爬蟲呢?
2.爬蟲能做什么?
典型的數(shù)據(jù)聚合類的網(wǎng)站都需要爬蟲。比如Google搜索引擎。Google能在幾毫秒之內(nèi)提供給你包含某些關(guān)鍵字的頁面,肯定不是實(shí)時(shí)給你去找網(wǎng)頁的,而是提前抓好,保存在他們自己的數(shù)據(jù)庫里(那他們的數(shù)據(jù)庫得多大呀)。所以種子搜索引擎,網(wǎng)盤搜索引擎,Resillio key引擎等都是用爬蟲實(shí)現(xiàn)抓好數(shù)據(jù)放在數(shù)據(jù)庫里的。
另外有一些提供信息對(duì)比的網(wǎng)站,比如比價(jià)類的網(wǎng)站,就是通過爬蟲抓取不同購物網(wǎng)站商品的價(jià)格,然后將各個(gè)購物網(wǎng)站的價(jià)格展示在網(wǎng)站上。購物網(wǎng)站的價(jià)格時(shí)時(shí)都在變,但是比價(jià)網(wǎng)站抓到的數(shù)據(jù)不會(huì)刪除,所以可以提供價(jià)格走勢(shì),這是購物網(wǎng)站不會(huì)提供的信息。
除此之外,個(gè)人還可以用爬蟲做一些好玩的事情。比如我們想看大量的圖片,可以寫一個(gè)爬蟲批量下載下來,不必一個(gè)一個(gè)點(diǎn)擊保存,還要忍受網(wǎng)站的廣告了;比如我們想備份自己的資料,例如保存下來我們?cè)诙拱臧l(fā)布過的所有的廣播,可以使用爬蟲將自己發(fā)布的內(nèi)容全部抓下來,這樣即使一些網(wǎng)站沒有提供備份服務(wù),我們也可以自己豐衣足食。
二、爬蟲工程師需要掌握哪些技能?
我見過這樣的說法:“爬蟲是低級(jí)、重復(fù)性很多的工作,沒有發(fā)展前途”。這是誤解。首先,對(duì)于程序員來說基本上不存在重復(fù)性的工作,任何重復(fù)勞動(dòng)都可以通過程序自動(dòng)解決。例如博主之前要抓十幾個(gè)相似度很高但是html結(jié)構(gòu)不太一樣的網(wǎng)站,我就寫了一個(gè)簡(jiǎn)單的代碼生成器,從爬蟲代碼到單元測(cè)試代碼都可以自動(dòng)生成,只要對(duì)應(yīng)html結(jié)構(gòu)稍微修改一下就行了。所以我認(rèn)為,重復(fù)性的勞動(dòng)在編程方面來說基本上是不存在的,如果你認(rèn)為自己做的工作是重復(fù)性的,說明你比較勤快,不愿意去偷懶。而我還認(rèn)為,勤快的程序員不是好程序員。下面我根據(jù)自己這段時(shí)間的工作經(jīng)歷,講一講爬蟲需要哪些相關(guān)的技能。
1.基本的編碼基礎(chǔ)(至少一門編程語言)
這個(gè)對(duì)于任何編程工作來說都是必須的。基礎(chǔ)的數(shù)據(jù)結(jié)構(gòu)你得會(huì)吧。數(shù)據(jù)名字和值得對(duì)應(yīng)(字典),對(duì)一些url進(jìn)行處理(列表)等等。事實(shí)上,掌握的越牢固越好,爬蟲并不是一個(gè)簡(jiǎn)單的工作,也并不比其他工作對(duì)編程語言的要求更高。熟悉你用的編程語言,熟悉相關(guān)的框架和庫永遠(yuǎn)是百益無害。
我主要用Python,用Java寫爬蟲的也有,理論上講任何語言都可以寫爬蟲的,不過最好選擇一門相關(guān)的庫多,開發(fā)迅速的語言。用C語言寫肯定是自找苦吃了。
2.任務(wù)隊(duì)列
當(dāng)爬蟲任務(wù)很大的時(shí)候,寫一個(gè)程序跑下來是不合適的:
如果中間遇到錯(cuò)誤停掉,重頭再來?這不科學(xué)
我怎么知道程序在哪里失敗了?任務(wù)和任務(wù)之間不應(yīng)該相互影響
如果我有兩臺(tái)機(jī)器怎么分工?
所以我們需要一種任務(wù)隊(duì)列,它的作用是:講計(jì)劃抓取的網(wǎng)頁都放到任務(wù)隊(duì)列里面去。然后worker從隊(duì)列中拿出來一個(gè)一個(gè)執(zhí)行,如果一個(gè)失敗,記錄一下,然后執(zhí)行下一個(gè)。這樣,worker就可以一個(gè)接一個(gè)地執(zhí)行下去。也增加了擴(kuò)展性,幾億個(gè)任務(wù)放在隊(duì)列里也沒問題,有需要可以增加worker,就像多一雙虧筷子吃飯一樣。
常用的任務(wù)隊(duì)列有kafka,beanstalkd,celery等。
3.數(shù)據(jù)庫
這個(gè)不用講了,數(shù)據(jù)保存肯定要會(huì)數(shù)據(jù)庫的。不過有時(shí)候一些小數(shù)據(jù)也可以保存成json或者csv等。我有時(shí)想抓一些圖片就直接按照文件夾保存文件。
推薦使用NoSQL的數(shù)據(jù)庫,比如mongodb,因?yàn)榕老x抓到的數(shù)據(jù)一般是都字段-值得對(duì)應(yīng),有些字段有的網(wǎng)站有有的網(wǎng)站沒有,mongo在這方面比較靈活,況且爬蟲爬到的數(shù)據(jù)關(guān)系非常非常弱,很少會(huì)用到表與表的關(guān)系。
4.HTTP知識(shí)
HTTP知識(shí)是必備技能。因?yàn)橐赖氖蔷W(wǎng)頁,所以必須要了解網(wǎng)頁啊。
首先html文檔的解析方法要懂,比如子節(jié)點(diǎn)父節(jié)點(diǎn),屬性這些。我們看到的網(wǎng)頁是五彩斑斕的,只不過是被瀏覽器處理了而已,原始的網(wǎng)頁是由很多標(biāo)簽組成的。處理最好使用html的解析器,如果自己用正則匹配的話坑會(huì)很多。我個(gè)人非常喜歡xpath,跨語言,表達(dá)比價(jià)好,但是也有缺點(diǎn),正則、邏輯判斷有點(diǎn)別扭。
HTTP協(xié)議要理解。HTTP協(xié)議本身是無狀態(tài)的,那么“登錄”是怎么實(shí)現(xiàn)的?這就要求去了解一下session和cookies了。GET方法和POST方法的區(qū)別(事實(shí)上除了字面意思不一樣沒有任何區(qū)別)。
瀏覽器要熟練。爬蟲的過程其實(shí)是模擬人類去瀏覽器數(shù)據(jù)的過程。所以瀏覽器是怎么訪問一個(gè)網(wǎng)站的,你要學(xué)會(huì)去觀察,怎么觀察呢?Developer Tools!Chrome的Developer Tools提供了訪問網(wǎng)站的一切信息。從traffic可以看到所有發(fā)出去的請(qǐng)求。copy as curl功能可以給你生成和瀏覽器請(qǐng)求完全一致的curl請(qǐng)求!我寫一個(gè)爬蟲的一般流程是這樣的,先用瀏覽器訪問,然后copy as curl看看有哪些header,cookies,然后用代碼模擬出來這個(gè)請(qǐng)求,最后處理請(qǐng)求的結(jié)果保存下來。
5.運(yùn)維
這個(gè)話題要說的有很多,實(shí)際工作中運(yùn)維和開發(fā)的時(shí)間差不多甚至更多一些。維護(hù)已經(jīng)在工作的爬蟲是一個(gè)繁重的工作。隨著工作時(shí)間增加,一般我們都會(huì)學(xué)著讓寫出來的爬蟲更好維護(hù)一些。比如爬蟲的日志系統(tǒng),數(shù)據(jù)量的統(tǒng)計(jì)等。將爬蟲工程師和運(yùn)維分開也不太合理,因?yàn)槿绻粋€(gè)爬蟲不工作了,那原因可能是要抓的網(wǎng)頁更新了結(jié)構(gòu),也有可能出現(xiàn)在系統(tǒng)上,也有可能是當(dāng)初開發(fā)爬蟲的時(shí)候沒發(fā)現(xiàn)反扒策略,上線之后出問題了,也可能是對(duì)方網(wǎng)站發(fā)現(xiàn)了你是爬蟲把你封殺了,所以一般來說開發(fā)爬蟲要兼顧運(yùn)維。
所以爬蟲的運(yùn)維我可以提供下面幾個(gè)思路:
首先,從數(shù)據(jù)增量監(jiān)控。定向爬蟲(指的是只針對(duì)一個(gè)網(wǎng)站的爬蟲)比較容易,一段時(shí)間之后對(duì)一些網(wǎng)站的數(shù)據(jù)增量會(huì)有一個(gè)大體的了解。經(jīng)常看看這些數(shù)據(jù)的增加趨勢(shì)是否是正常就可以了(Grafana)。非定向爬蟲的數(shù)據(jù)增量不是很穩(wěn)定,一般看機(jī)器的網(wǎng)絡(luò)狀況,網(wǎng)站的更新情況等(這方面我的經(jīng)驗(yàn)不多)。
然后看爬蟲執(zhí)行的成功情況。在上面提到了用任務(wù)隊(duì)列控制爬蟲工作,這樣解耦可以帶來很多好處,其中一個(gè)就是可以就是可以對(duì)一次爬蟲執(zhí)行進(jìn)行日志。可以在每次爬蟲任務(wù)執(zhí)行的時(shí)候,將執(zhí)行的時(shí)間、狀態(tài)、目標(biāo)url、異常等放入一個(gè)日志系統(tǒng)(比如kibana),然后通過一個(gè)可視化的手段可以清晰地看到爬蟲的失敗率。
爬蟲拋出的Exception。幾乎所有的項(xiàng)目都會(huì)用到錯(cuò)誤日志收集(Sentry),這里需要注意的一點(diǎn)是,忽略正常的異常(比如Connection錯(cuò)誤,鎖沖突等),否則的話你會(huì)被這些錯(cuò)誤淹沒。
三、爬蟲與反爬
這同樣是很深的一個(gè)話題,就像攻擊武器與防御武器一樣,雙方總是在不斷升級(jí)。常見的反爬措施(我遇到過的)有下面幾種:
1.訪問頻率
很好理解,如果訪問太頻繁網(wǎng)站可能針對(duì)你的ip封鎖一段時(shí)間,這和防DDoS的原理一樣。對(duì)于爬蟲來說,碰到這樣的限制一下任務(wù)的頻率就可以了,可以盡量讓爬蟲想人類一樣訪問網(wǎng)頁(比如隨機(jī)sleep一段時(shí)間,如果每隔3s訪問一次網(wǎng)站很顯然不是正常人的行為)。
2.登錄限制
也比較常見。不過公開信息的網(wǎng)站一般不會(huì)有這個(gè)限制,這樣讓用戶也麻煩了。其實(shí)反爬措施都或多或少的影響真實(shí)用戶,反爬越嚴(yán)格,誤殺用戶的可能性也越高。對(duì)爬蟲來說,登錄同樣可以通過模擬登錄的方式解決,加個(gè)cookie就行了(話又說回來,網(wǎng)絡(luò)的原理很重要)。
3.通過Header封殺
一般瀏覽器訪問網(wǎng)站會(huì)有header,比如Safari或者Chrome等等,還有操作系統(tǒng)信息。如果使用程序訪問并不會(huì)有這樣的header。破解也很簡(jiǎn)單,訪問的時(shí)候加上header就行。
4.JavaScript腳本動(dòng)態(tài)獲取網(wǎng)站數(shù)據(jù)
有一些網(wǎng)站(尤其是單頁面網(wǎng)站)的內(nèi)容并不是通過服務(wù)器直接返回的,而是服務(wù)器只返回一個(gè)客戶端JavaScript程序,然后JavaScript獲取內(nèi)容。更高級(jí)的是,JavaScript在本地計(jì)算一個(gè)token,然后拿這個(gè)token來進(jìn)行AJAX獲取內(nèi)容。而本地的JavaScript又是經(jīng)過代碼混淆和加密的,這樣我們做爬蟲的通過看源代碼幾乎不可能模擬出來這個(gè)請(qǐng)求(主要是token不可能破解),但是我們可以從另一個(gè)角度:headless的瀏覽器,也就是我們直接運(yùn)行這個(gè)客戶端程序,這可以100%地模擬真實(shí)用戶!
5.驗(yàn)證碼
這幾乎是終極武器了,驗(yàn)證碼是專門用來區(qū)分人和計(jì)算機(jī)的手段。對(duì)于反爬方來說,這種方式對(duì)真實(shí)用戶和搜索引擎(其實(shí)可以通過記錄搜索引擎爬蟲的ip來區(qū)別對(duì)待,可以解決)的危害比較大,相信讀者都有輸入驗(yàn)證碼的痛苦經(jīng)歷。但這種方法也并不是無敵的!通過現(xiàn)在很火的機(jī)器學(xué)習(xí)可以輕松的識(shí)別大部分的驗(yàn)證碼!Google的reCAPTCHA是一種非常高級(jí)的驗(yàn)證碼,但是聽過通過模擬瀏覽器也是可以破解的。
6.ip限制
網(wǎng)站可能將識(shí)別的ip永久封殺,這種方式需要的人力比較大,而且誤傷用戶的代價(jià)也很高。但是破解辦法卻非常簡(jiǎn)單。目前代理池幾乎是搞爬蟲的標(biāo)配了,甚至還有很多高匿代理等好用的東西。所以這基本上只能殺殺小爬蟲。
7.網(wǎng)站內(nèi)容反爬
有一些網(wǎng)站將網(wǎng)站內(nèi)容用只有人類可以接收的形式來呈現(xiàn)(其實(shí)反爬就是區(qū)別對(duì)待人類和機(jī)器嘛)。比如將內(nèi)容用圖片的形式顯示。但是近幾年來人類和機(jī)器的差別越來越小,圖片可以用OCR準(zhǔn)確率非常高地去識(shí)別。
反爬總結(jié)
爬蟲和反爬是典型的攻防雙方的互相升級(jí)。但是我認(rèn)為,這種升級(jí)不像軍事,軍事是無盡頭的,但是爬蟲和反爬是有盡頭的。
爬蟲的盡頭就是瀏覽器,一旦使用瀏覽器,程序完全可以模擬真實(shí)用戶發(fā)出請(qǐng)求,缺點(diǎn)是就是消耗資源,因?yàn)樾枰麻_一個(gè)進(jìn)程,解析DOM,運(yùn)行客戶端JavaScript代碼。(chrome的node api在github開源僅僅兩天,就拿到8k個(gè)star)
反爬的盡頭就是像Google這種超級(jí)厲害的驗(yàn)證碼,畢竟驗(yàn)證碼的根本目的就是識(shí)別人類和機(jī)器的。
我正好有一個(gè)反爬做的非常好的例子。Google Arts Project項(xiàng)目是一個(gè)匯聚世界名畫的藝術(shù)長(zhǎng)廊,我比較喜歡里面的一些畫,所以想下載一些(當(dāng)然這是不對(duì)的),然后發(fā)現(xiàn)這個(gè)網(wǎng)站反爬做的相當(dāng)好(因?yàn)榘鏅?quán)屬于收藏作品的博物館,所以Google Arts Project肯定不會(huì)提供下載),要下載幾乎是不可能的。我有點(diǎn)不服,開始用各種手段試圖下載原圖。嘗試了一番,發(fā)現(xiàn)這個(gè)網(wǎng)站block掉了鼠標(biāo)右鍵功能、審查元素發(fā)現(xiàn)圖片并不是一個(gè)常規(guī)的圖片、追蹤網(wǎng)絡(luò)包發(fā)現(xiàn)原圖竟然不是一次網(wǎng)絡(luò)請(qǐng)求拿到的,而是分成了好幾次請(qǐng)求base64編碼的字符流每次請(qǐng)求圖片的一部分,然后在客戶端組裝起來圖片!當(dāng)然在客戶端的代碼也是經(jīng)過加密和混淆的!這完全可以作為反爬的教科書了,既沒有誤傷用戶,又讓爬蟲無法下手。
圖片每次只請(qǐng)求部分
四、職業(yè)道德
成規(guī)模的爬蟲一般都會(huì)使用集群,一般的小網(wǎng)站服務(wù)器規(guī)模可能不如爬蟲集群的規(guī)模大。所以很多時(shí)候我們最好對(duì)要爬的網(wǎng)站限制一下頻率。否則這些爬蟲就相當(dāng)于DoS攻擊集群了!一般的網(wǎng)站都會(huì)有robots.txt可以參考。
-
工程師
+關(guān)注
關(guān)注
59文章
1569瀏覽量
68504 -
互聯(lián)網(wǎng)
+關(guān)注
關(guān)注
54文章
11148瀏覽量
103239
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論