色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

12行簡單的Python代碼,初窺爬蟲的秘境

馬哥Linux運維 ? 來源:未知 ? 作者:胡薇 ? 2018-06-07 09:17 ? 次閱讀

往往不少童鞋寫論文苦于數據獲取艱難,輾轉走上爬蟲之路;

許多分析師做輿情監控或者競品分析的時候,也常常使用到爬蟲。

今天,本文將帶領小伙伴們通過12行簡單的Python代碼,初窺爬蟲的秘境。

爬蟲目標

本文采用requests + Xpath,爬取豆瓣電影《黑豹》部分短評內容。

運行以上的爬蟲腳本,我們得以見證奇跡

爬蟲結果與原網頁內容的對比,完全一致

通過tqdm模塊實現了良好的交互

工具準備

chrome瀏覽器(分析HTTP請求、抓包)

安裝Python 3及相關模塊(requests、lxml、pandas、time、random、tqdm)requests:用來簡單請求數據lxml:比Beautiful Soup更快更強的解析庫pandas:數據處理神器time:設置爬蟲訪問間隔防止被抓random:隨機數生成工具,配合time使用tqdm:交互好工具,顯示程序運行進度

基本步驟

網絡請求分析

網頁內容解析

數據讀取存儲

涉及知識點

爬蟲協議

http請求分析

requests請求

Xpath語法

Python基礎語法

Pandas數據處理

爬蟲協議

爬蟲協議即網站根目錄之下的robots.txt文件,用來告知爬蟲者哪些可以拿哪些不能偷,其中Crawl-delay告知了網站期望的被訪問的間隔。(為了對方服務器端同學的飯碗,文明拿數據,本文將爬蟲訪問間隔設置為6-9秒的隨機數)

豆瓣網站的爬蟲協議

HTTP請求分析

使用chrome瀏覽器訪問《黑豹》短評頁面https://movie.douban.com/subject/6390825/comments?sort=new_score&status=P,按下F12,進入network面板進行網絡請求的分析,通過刷新網頁重新獲得請求,借助chrome瀏覽器對請求進行篩選、分析,找到那個Ta

豆瓣短評頁面請求分析

通過請求分析,我們找到了目標url為'https://movie.douban.com/subject/6390825/comments?start=0&limit=20&sort=new_score&status=P&percent_type=',并且每次翻頁,參數start將往上增加20(通過多次翻頁嘗試,我們發現第11頁以后需要登錄才能查看,且登錄狀態也僅展示前500條短評。作為簡單demo,本文僅對前11頁內容進行爬取)

requests請求

通過requests模塊發送一個get請求,用content方法獲取byte型數據,并以utf-8重新編碼;然后添加一個交互,判斷是否成功獲取到資源(狀態碼為200),輸出獲取狀態

請求詳情分析

(除了content,還有text方法,其返回unicode字符集,直接使用text方法遇到中文的話容易出現亂碼)

Xpath語法解析

獲取到數據之后,需要對網頁內容進行解析,常用的工具有正則表達式、Beautiful Soup、Xpath等等;其中Xpath又快又方便。此處我們通過Xpath解析資源獲取到了前220條短評的用戶名、短評分數、短評內容等數據。(可借助chrome的強大功能直接復制Xpath,Xpath語法學習http://www.runoob.com/xpath/xpath-tutorial.html)

數據處理

獲取到數據之后,我們通過list構造dictionary,然后通過dictionary構造dataframe,并通過pandas模塊將數據輸出為csv文件

結語與彩蛋

本例通過requests+Xpath的方案,成功爬取了電影《黑豹》的部分豆瓣短評數據,為文本分析或其他數據挖掘工作打好了數據地基。本文作為demo,僅展示了簡單的爬蟲流程,更多彩蛋如請求頭、請求體信息獲取、cookie、模擬登錄、分布式爬蟲等請關注后期文章更新喲。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 代碼
    +關注

    關注

    30

    文章

    4798

    瀏覽量

    68714
  • python
    +關注

    關注

    56

    文章

    4797

    瀏覽量

    84792
  • 爬蟲
    +關注

    關注

    0

    文章

    82

    瀏覽量

    6922

原文標題:12行Python暴力爬《黑豹》豆瓣短評

文章出處:【微信號:magedu-Linux,微信公眾號:馬哥Linux運維】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    Python數據爬蟲學習內容

    ,利用爬蟲,我們可以解決部分數據問題,那么,如何學習Python數據爬蟲能?1.學習Python基礎知識并實現基本的爬蟲過程一般獲取數據的過
    發表于 05-09 17:25

    Python爬蟲與Web開發庫盤點

    Python爬蟲和Web開發均是與網頁相關的知識技能,無論是自己搭建的網站還是爬蟲爬去別人的網站,都離不開相應的Python庫,以下是常用的Pyth
    發表于 05-10 15:21

    Python 爬蟲:8 個常用的爬蟲技巧總結!

    python也差不多一年多了,python應用最多的場景還是web快速開發、爬蟲自動化運維:寫過簡單網站、寫過自動發帖腳本、寫過收發郵件腳本、寫過
    發表于 01-02 14:37

    什么是爬蟲

    什么是爬蟲爬蟲的價值?最簡單python爬蟲爬蟲基本架構
    發表于 11-05 06:13

    0基礎入門Python爬蟲實戰課

    學習資料良莠不齊爬蟲是一門實踐性的技能,沒有實戰的課程都是騙人的!所以這節Python爬蟲實戰課,將幫到你!課程從0基礎入門開始,受眾人群廣泛:如畢業大學生、轉行人群、對Python
    發表于 07-25 09:28

    Python爬蟲簡介與軟件配置

    Python爬蟲練習一、爬蟲簡介1. 介紹2. 軟件配置二、爬取南陽理工OJ題目三、爬取學校信息通知四、總結五、參考一、爬蟲簡介1. 介紹網絡爬蟲
    發表于 01-11 06:32

    完全自學指南Python爬蟲BeautifulSoup詳解

    完全自學指南Python爬蟲BeautifulSoup詳解
    發表于 09-07 08:55 ?39次下載
    完全自學指南<b class='flag-5'>Python</b><b class='flag-5'>爬蟲</b>BeautifulSoup詳解

    python爬蟲入門教程之python爬蟲視頻教程分布式爬蟲打造搜索引擎

    本文檔的主要內容詳細介紹的是python爬蟲入門教程之python爬蟲視頻教程分布式爬蟲打造搜索引擎
    發表于 08-28 15:32 ?29次下載

    python為什么叫爬蟲

     作為一門編程語言而言,Python是純粹的自由軟件,以簡潔清晰的語法和強制使用空白符進行語句縮進的特點從而深受程序員的喜愛。舉一個例子:完成一個任務的話,c語言一共要寫1000代碼,java要寫
    的頭像 發表于 12-27 16:46 ?15.4w次閱讀
    <b class='flag-5'>python</b>為什么叫<b class='flag-5'>爬蟲</b>

    python為什么叫爬蟲 python工資高還是java的高

    要寫1000代碼,java要寫100,而python則只需要寫20代碼。使用
    發表于 02-19 17:56 ?548次閱讀

    python實現簡單爬蟲的資料說明

    本文檔的主要內容詳細介紹的是python實現簡單爬蟲的資料說明。
    發表于 11-02 17:53 ?21次下載
    <b class='flag-5'>python</b>實現<b class='flag-5'>簡單</b><b class='flag-5'>爬蟲</b>的資料說明

    榮耀手表GS Pro星空版發布:首銷1299元

    ,將于今天 12 點開售。 榮耀手表 GS Pro 星空版靈感來自 Discovery 對未知星空的探索,將金星的璀璨顏色運用到了表圈和側面按鍵的設計,同時以手工拋光、拉絲、不銹鋼精工和蝕刻工藝搭配
    的頭像 發表于 01-22 13:52 ?1835次閱讀

    Python寫網絡爬蟲

    Python寫網絡爬蟲的方法說明。
    發表于 06-01 11:55 ?21次下載

    利用Python編寫簡單網絡爬蟲實例

    利用 Python編寫簡單網絡爬蟲實例2 實驗環境python版本:3.3.5(2.7下報錯
    發表于 02-24 11:05 ?14次下載

    crawlerdetect:Python代碼檢測爬蟲

    是否擔心高頻率爬蟲導致網站癱瘓? 別擔心,現在有一個Python寫的神器——crawlerdetect,幫助你檢測爬蟲,保障網站的正常運轉。 1.準備 開始之前,你要確保Python
    的頭像 發表于 11-02 11:31 ?597次閱讀
    主站蜘蛛池模板: 一边啪啪的一边呻吟声口述| yellow在线中文| 国产精品xxxav免费视频| 午夜DV内射一区二区| 国内高清在线观看视频| 杨幂被视频在线观看| 免费精品国偷自产在线在线| videos gratis欧美另类| 熟女人妻水多爽中文字幕| 国模啪啪久久久久久久| 18岁末年禁止观看免费1000个| 欧美内射深插日本少妇| 国产免费阿v精品视频网址| 在线视频 国产精品 中文字幕| 青青草国产自偷拍| 国产视频成人| 999久久久国产| 小小水蜜桃免费影院| 就操成人网| 国产成人免费高清视频| 在线观看插女生免费版| 色噜噜噜亚洲男人的天堂| 精品久久久久亚洲| 成人无码精品1区2区3区免费看| 亚洲精品成人a| 飘雪在线观看免费高清完整版韩国| 国产女人喷潮视频免费| 99久久婷婷国产综合精品青草| 香艳69xxxxx有声小说| 毛片在线全部免费观看| 国产精品一区二区人妻无码| 97在线精品视频| 亚洲黄色在线| 日本高清免费看| 久久这里都是精品| 国产精品.XX视频.XXTV| 99久久婷婷国产麻豆精品电影| 亚洲日韩乱码人人爽人人澡人| 色柚视频网站ww色| 暖暖视频中国在线观看免费韩国| 韩国成人理伦片免费播放|