色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

來(lái)看看Pythoner志朋的爬蟲實(shí)驗(yàn)

馬哥Linux運(yùn)維 ? 來(lái)源:未知 ? 作者:李倩 ? 2018-11-23 15:43 ? 次閱讀

下面我們來(lái)看看Pythoner志朋的爬蟲實(shí)驗(yàn)。

一、使用的技術(shù)棧:

爬蟲:python27 +requests+json+bs4+time

分析工具: ELK套件

開發(fā)工具:pycharm

二、數(shù)據(jù)成果

爬取了知乎部分的用戶數(shù)據(jù)信息

三、簡(jiǎn)單的可視化分析

1.性別分布

0 綠色代表的是男性 ^ . ^ ——1代表的是女性———— -1 性別不確定

可見知乎的用戶男性頗多。

2.粉絲最多的top30

粉絲最多的前三十名:依次是張佳瑋、李開復(fù)、黃繼新等等,去知乎上查這些人,也差不多這個(gè)排名,說(shuō)明爬取的數(shù)據(jù)具有一定的說(shuō)服力。

3.寫文章最多的top30

四、爬蟲架構(gòu)

爬蟲架構(gòu)圖如下:

說(shuō)明:

選擇一個(gè)活躍的用戶(比如李開復(fù))的url作為入口url.并將已爬取的url存在set中。

抓取內(nèi)容,并解析該用戶的關(guān)注的用戶的列表url,添加這些url到另一個(gè)set中,并用已爬取的url作為過(guò)濾。

解析該用戶的個(gè)人信息,并存取到本地磁盤。

logstash取實(shí)時(shí)的獲取本地磁盤的用戶數(shù)據(jù),并給elsticsearch

kibana和elasticsearch配合,將數(shù)據(jù)轉(zhuǎn)換成用戶友好的可視化圖形。

五.編碼

爬取一個(gè)url:

解析內(nèi)容:

存本地文件:

代碼說(shuō)明:

需要修改獲取requests請(qǐng)求頭的authorization。

需要修改你的文件存儲(chǔ)路徑。

源碼下載:https://github.com/forezp/ZhihuSpiderMan,記得star哦!

六.如何獲取authorization

打開chorme,打開https://www.zhihu.com/,

登陸,首頁(yè)隨便找個(gè)用戶,進(jìn)入他的個(gè)人主頁(yè),F(xiàn)12(或鼠標(biāo)右鍵,點(diǎn)檢查)

點(diǎn)擊關(guān)注,刷新頁(yè)面,見圖:

七、可改進(jìn)的地方

可增加線程池,提高爬蟲效率

存儲(chǔ)url的時(shí)候我才用的set(),并且采用緩存策略,最多只存2000個(gè)url,防止內(nèi)存不夠,其實(shí)可以存在redis中。

存儲(chǔ)爬取后的用戶我說(shuō)采取的是本地文件的方式,更好的方式應(yīng)該是存在mongodb中。

對(duì)爬取的用戶應(yīng)該有一個(gè)信息的過(guò)濾,比如用戶的粉絲數(shù)需要大與100或者參與話題數(shù)大于10等才存儲(chǔ)。防止抓取了過(guò)多的僵尸用戶。

八.關(guān)于ELK套件

關(guān)于elk的套件安裝就不討論了,具體見官網(wǎng)就行了。網(wǎng)站:https://www.elastic.co/

另外logstash的配置文件如下:

九、結(jié)語(yǔ)

從爬取的用戶數(shù)據(jù)可分析的地方很多,比如地域、學(xué)歷、年齡等等,我就不一一列舉了。

另外,我覺得爬蟲是一件非常有意思的事情,在這個(gè)內(nèi)容消費(fèi)升級(jí)的年代,如何在廣闊的互聯(lián)網(wǎng)的數(shù)據(jù)海洋中挖掘有價(jià)值的數(shù)據(jù),是一件值得思考和需不斷踐行的事情。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 互聯(lián)網(wǎng)
    +關(guān)注

    關(guān)注

    54

    文章

    11166

    瀏覽量

    103435
  • python
    +關(guān)注

    關(guān)注

    56

    文章

    4797

    瀏覽量

    84792

原文標(biāo)題:碉堡了!一小時(shí)爬取百萬(wàn)知乎用戶信息的Python神器曝光

文章出處:【微信號(hào):magedu-Linux,微信公眾號(hào):馬哥Linux運(yùn)維】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    很熱鬧,常來(lái)看看

    很熱鬧,常來(lái)看看
    發(fā)表于 02-15 14:39

    天天來(lái)看看~~~

    天天來(lái)看看~~~
    發(fā)表于 12-15 16:42

    每天上來(lái)看看

    每天上來(lái)看看挺好,
    發(fā)表于 12-22 22:53

    來(lái)看看怎么樣 下來(lái)看看怎么樣 下來(lái)看看怎么樣

    來(lái)看看怎么樣下來(lái)看看怎么樣下來(lái)看看怎么樣下來(lái)看看怎么樣下來(lái)看看怎么樣[table=98%][tr][td]下
    發(fā)表于 05-13 19:01

    來(lái)看看怎么樣 下來(lái)看看怎么樣 下來(lái)看看怎么樣

    來(lái)看看怎么樣下來(lái)看看怎么樣下來(lái)看看怎么樣下來(lái)看看怎么樣下來(lái)看看怎么樣[table=98%][tr][td]下
    發(fā)表于 05-13 19:03

    VR全景聲巨幕VR影院值不值購(gòu)買?詳細(xì)體驗(yàn)總結(jié)

    多大的解析流。   大VR自身平臺(tái)上具有100+的巨幕視頻、普通電影大概有1000+的視頻、藍(lán)光電影40+,在來(lái)看看支持的視頻應(yīng)用,愛奇藝VR、優(yōu)酷VR、2大視頻巨頭的VR應(yīng)用,這VR視頻不要太多
    發(fā)表于 10-04 09:24

    網(wǎng)絡(luò)爬蟲nodejs爬蟲代理配置

    隨著互聯(lián)網(wǎng)的發(fā)展進(jìn)步,現(xiàn)在互聯(lián)網(wǎng)上也有許多網(wǎng)絡(luò)爬蟲。網(wǎng)絡(luò)爬蟲通過(guò)自己爬蟲程序向目標(biāo)網(wǎng)站采集相關(guān)數(shù)據(jù)信息。當(dāng)然互聯(lián)網(wǎng)的網(wǎng)站會(huì)有反爬策略。比如某電商網(wǎng)站就會(huì)限制一個(gè)用戶IP的訪問頻率,從而出現(xiàn)驗(yàn)證碼
    發(fā)表于 09-01 17:23

    什么是爬蟲

    什么是爬蟲爬蟲的價(jià)值?最簡(jiǎn)單的python爬蟲爬蟲基本架構(gòu)
    發(fā)表于 11-05 06:13

    如何運(yùn)行imdb爬蟲

    imdbcn爬蟲實(shí)例 imdbcn網(wǎng)站結(jié)構(gòu)分析 創(chuàng)建爬蟲項(xiàng)目 運(yùn)行imdb爬蟲
    發(fā)表于 11-05 07:07

    ADS設(shè)計(jì)實(shí)驗(yàn)教程

    ADS設(shè)計(jì)實(shí)驗(yàn)教程,又需要的喲許下來(lái)看看
    發(fā)表于 01-25 10:28 ?0次下載

    爬蟲是如何實(shí)現(xiàn)數(shù)據(jù)的獲取爬蟲程序如何實(shí)現(xiàn)

    進(jìn)入大數(shù)據(jù)時(shí)代,爬蟲技術(shù)越來(lái)越重要,因?yàn)樗谦@取數(shù)據(jù)的一個(gè)重要手段,是大數(shù)據(jù)和云計(jì)算的基礎(chǔ)。那么,爬蟲到底是如何實(shí)現(xiàn)數(shù)據(jù)的獲取的呢?今天和大家分享的就是一個(gè)系統(tǒng)學(xué)習(xí)爬蟲技術(shù)的過(guò)程:先掌握爬蟲
    發(fā)表于 01-02 16:30 ?10次下載
    <b class='flag-5'>爬蟲</b>是如何實(shí)現(xiàn)數(shù)據(jù)的獲取<b class='flag-5'>爬蟲</b>程序如何實(shí)現(xiàn)

    Python爬蟲 你真的會(huì)寫爬蟲嗎?

    你以為你真的會(huì)寫爬蟲了嗎?快來(lái)看看真正的爬蟲架構(gòu)!
    的頭像 發(fā)表于 05-02 17:02 ?3912次閱讀
    Python<b class='flag-5'>爬蟲</b> 你真的會(huì)寫<b class='flag-5'>爬蟲</b>嗎?

    如何使用表格做爬蟲

    很多人不知道,其實(shí)我們最常用的表格,在某些情況下也是可以用來(lái)做爬蟲的,而且爬下來(lái)的數(shù)據(jù)規(guī)整,不需要花太多時(shí)間進(jìn)行數(shù)據(jù)清洗,來(lái)看看是怎么實(shí)現(xiàn)的。
    的頭像 發(fā)表于 02-03 15:15 ?4924次閱讀
    如何使用表格做<b class='flag-5'>爬蟲</b>

    利用Python編寫簡(jiǎn)單網(wǎng)絡(luò)爬蟲實(shí)例

    利用 Python編寫簡(jiǎn)單網(wǎng)絡(luò)爬蟲實(shí)例2 實(shí)驗(yàn)環(huán)境python版本:3.3.5(2.7下報(bào)錯(cuò)
    發(fā)表于 02-24 11:05 ?14次下載

    導(dǎo)熱凝膠的特色有哪些,來(lái)看看

    導(dǎo)熱凝膠的特色有哪些,來(lái)看看,15年行業(yè)老經(jīng)驗(yàn)共享
    的頭像 發(fā)表于 03-07 17:12 ?3127次閱讀
    導(dǎo)熱凝膠的特色有哪些,<b class='flag-5'>來(lái)看看</b>
    主站蜘蛛池模板: 中文字幕精品视频在线| 大胆国模一区二区三区伊人| 性直播免费| 亚色九九九全国免费视频| 色欲档案之麻雀台上淫| 亚洲精品91| 神马伦理不卡午夜电影| 日韩AV无码一区二区三区不卡毛片| 青青草伊人网| 三级在线网址| 亚瑟天堂久久一区二区影院| 一个人在线观看免费高清视频在线观看 | 曼谷av女郎| 情欲.美女高潮| 天天噜日日噜夜夜噜| 性春院| 永久免费看mv网站入口| 99国产精品偷窥熟女精品视频| jjzz韩国| 国产97精品久久久天天A片| 国产亚洲精品久久久闺蜜| 精品国产品国语在线不卡丶| 老熟女毛茸茸浓毛| 人和拘一级毛片| 香蕉精品国产高清自在自线| 在线观看亚洲 日韩 国产| georgielyall装修工| 国产精品麻豆AV| 乱奷XXXXXHD| 色综合久久天天影视网| 亚洲国产精品无码中文字幕 | 亚洲国产在线午夜视频无| 怡春院欧美一区二区三区免费| tobu中国日本高清| 国产专区亚洲欧美另类在线| 免费国产久久啪在线| 我半夜摸妺妺的奶C了她| 一本道本线中文无码| 成人国产一区| 久久久精品国产免费A片胖妇女 | 国产日韩欧美三级|