一。項目問題:
一般面試官的第一個問題八成都是問一下以前做過的項目,所以最好準備兩個自己最近寫的有些技術
含量的項目,當然一定要自己親手寫過的,在別的地方看的源碼,就算看的再清楚,總歸沒有自己敲的
了解的多。以下是抽出的幾點
1.你寫爬蟲的時候都遇到過什么反爬蟲措施,你是怎么解決的
2.用的什么框架,為什么選擇這個框架(我用的是scrapy框架,所以下面的問題也是針對scrapy)
二。框架問題(scrapy)可能會根據你說的框架問不同的問題,但是scrapy還是比較多的
1.scrapy的基本結構(五個部分都是什么,請求發出去的整個流程)
2.scrapy的去重原理 (指紋去重到底是什么原理)
3.scrapy中間件有幾種類,你用過那些中間件,
4.scrapy中間件再哪里起的作用(面向切面編程)
三。代理問題
1.為什么會用到代理
2.代理怎么使用(具體代碼,請求在什么時候添加的代理)
3.代理失效了怎么處理
四。驗證碼處理
1.登陸驗證碼處理
2.爬取速度過快出現的驗證碼處理
3.如何用機器識別驗證碼
五。模擬登陸問題
1.模擬登陸流程
2.cookie如何處理
3.如何處理網站傳參加密的情況
六。分布式
1.分布式原理
2.分布式如何判斷爬蟲已經停止了
3.分布式去重原理
七。數據存儲和數據庫問題
1.關系型數據庫和非關系型數據庫的區別
2.爬下來數據你會選擇什么存儲方式,為什么
3.各種數據庫支持的數據類型,和特點,比如:redis如何實現持久化,mongodb
是否支持事物等。。
八.python基礎問題
# 基礎問題非常多,但是因為爬蟲性質,還是有些問的比較多的,下面是總結
1.python2和python3的區別,如何實現python2代碼遷移到python3環境
2.python2和python3的編碼方式有什么差別(工作中發現編碼問題還是挺讓人不爽的)
3.迭代器,生成器,裝飾器
4.python的數據類型
九。協議問題
# 爬蟲從網頁上拿數據肯定需要模擬網絡通信的協議
1.http協議,請求由什么組成,每個字段分別有什么用,https和http有什么差距
2.證書問題
3.TCP,UDP各種相關問題
十。數據提取問題
1.主要使用什么樣的結構化數據提取方式,可能會寫一兩個例子
2.正則的使用
3.動態加載的數據如何提取
4.json數據如何提取
十二。算法問題
# 這個實在不好總結,比較考驗代碼功力,大部分會讓你寫出時間復雜度比較低的
算法。小伙伴們要善用python的數據類型,對python的數據結構深入了解。
以上就是總結內容,歡迎小伙伴們共同探討。每個公司各有特點,但是這些算是基礎,也是常見問題。
祝大家能找到理想工作,不寫bug
-
工程師
+關注
關注
59文章
1569瀏覽量
68502 -
網絡爬蟲
+關注
關注
1文章
52瀏覽量
8647 -
python
+關注
關注
56文章
4792瀏覽量
84627
發布評論請先 登錄
相關推薦
評論