色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Python告訴你充氣娃娃什么感覺?

WpOh_rgznai100 ? 來源:lq ? 2019-07-18 10:55 ? 次閱讀

【導語】:之前為大家介紹了 requests 庫的基本信息以及使用方法,收到了很多同學的反饋,期待作者新作,今天不負所望,作者就帶大家來玩一把刺激的。

一、需求背景

在實際開發過程中,在我們動手開發之前,都是由產品經理為我們(測試、前端、后端、項目經理等)先講解一下需求,我們了解了需求之后,才開始一起來討論技術方案。

我們自己實現一些小功能時同樣需要討論需求,也就是告訴別人我們為什么要做這個東西?或者我們想利用這款產品解決什么問題。

我們常常看到一些有關充氣娃娃的表情包和圖片或新聞,但是這種東西很少會像一些小視頻一些相互交流,大家可能都是偷摸玩耍。所以豬哥相信其實大部分同學并沒有親身體驗過充氣娃娃到底是什么感覺(包括豬哥),所以豬哥很好奇究竟是什么一種體驗?真的如傳言中那樣爽嗎?

二、功能描述

基于很多人沒有體驗過充氣娃娃是什么感覺,但是又很好奇,所以希望通過爬蟲+數據分析的方式直觀而真實的告訴大家(下圖為成品圖)。

三、技術方案

為了實現上面的需求以及功能,我們來討論下具體的技術實現方案:

分析某東評論數據請求

使用requests庫抓取某東的充氣娃娃評論

使用詞云做數據展示

四、技術實現

上篇文章中就給大家說過,今天我們以某東商品編號為:1263013576 的商品為對象,進行數據分析,我們來看看詳細的技術實現步驟吧!

教程只為學習交流,不得用于商用獲利,后果自負!如有侵權或者對任何公司或個人造成不利影響,請告知刪除

1.分析并獲取評論接口的URL

第一步:打開某東的商品頁,搜索你想研究的商品。

第二步:我們在頁面中鼠標右鍵選擇檢查(或F12)調出瀏覽器的調試窗口。

第三步:調出瀏覽器后點擊評論按鈕使其加載數據,然后我們點擊network查看數據。

第四步:查找加載評論數據的請求url,我們可以使用某條評論中的一段話,然后在調試窗口中搜索。

經過上面4步分析,我們就拿到了京東評論數據的接口

https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv4654&productId=1263013576&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1

productPageComments:看這個名字就知道是產品頁評論

2.爬取評論數據

拿到評論數據接口url之后,我們就可以開始寫代碼抓取數據了。一般我們會先嘗試抓取一條數據,成功之后,我們再去分析如何實現大量抓取。

上一篇我們已經講解了如何使用requests庫發起http/s請求,我們來看看代碼:

但是在打印的結果中數據卻是空?為何瀏覽器請求成功,而我們的代碼卻請求不到數據呢?難道我們遇到了反爬?這種情況下如何解決?

大家在遇到這種情況時,回到瀏覽器的調試窗口,查看下瀏覽器發起的請求頭,因為可能瀏覽器請求時攜帶了什么請求頭參數而我們代碼中沒有。

果然,我們在瀏覽器頭中看到了有兩個請求頭 Referer 和 User-Agent,那我們先把他們加到代碼的請求頭中,再試試!

3.數據提取

我們對爬取的數據分析發現,此數據為jsonp跨域請求返回的json結果,所以我們只要把前面的fetchJSON_comment98vv4646(和最后的)去掉就拿到json數據了。

將json數據復制到json格式化工具中或者在Chrome瀏覽器調試窗口點擊Preview也可以看到,json數據中有一個key為comments的值便是我們想要的評論數據。

我們再對comments值進行分析發現是一個有多條數據的列表,而列表里的每一項就是每個評論對象,包含了評論的內容,時間,id,評價來源等等信息,而其中的content字段便是我們在頁面看到的用戶評價內容。

那我們來用代碼將每個評價對象的content字段提取并打印出來。

4.數據保存

數據提取后我們需要將他們保存起來,一般保存數據的格式主要有:文件、數據庫、內存這三大類。今天我們就將數據保存為txt文件格式,因為操作文件相對簡單同時也能滿足我們的后續數據分析的需求。

然后我們查看一下生成的文件內容是否正確。

5.批量爬取

再完成一頁數據爬取、提取、保存之后,我們來研究一下如何批量抓取?

做過web的同學可能知道,有一項功能是我們必須要做的,那便是分頁。何為分頁?為何要做分頁?

我們在瀏覽很多網頁的時候常常看到“下一頁”這樣的字眼,其實這就是使用了分頁技術,因為向用戶展示數據時不可能把所有的數據一次性展示,所以采用分頁技術,一頁一頁的展示出來。

讓我們再回到最開始的加載評論數據的url:

https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv4654&productId=1263013576&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1

我們可以看到鏈接里面有兩個參數page=0&pageSize=10,page表示當前的頁數,pageSize表示每頁多少條,那這兩個數據直接去數據庫limit數據。

老司機一眼便可以看出這就是分頁的參數,但是有同學會說:如果我是老司機還干嘛看你的文章?所以我教大家如何來找到這個分頁參數。

回到某東的商品頁,我們將評價頁面拉到最底下,發現有分頁的按鈕,然后我們在調試窗口清空之前的請求記錄。

清空之前的請求記錄之后,我們點擊上圖紅框分頁按鈕的數字2,代表這第二頁,然后復制第一條評價去調試窗口搜索,最后找到請求鏈接。

然后我們點擊Headers查看第二頁請求數據的url

然后我們比較第一頁評價與第二頁評價的url有何區別。

這里也就驗證了豬哥的猜想:page表示當前的頁數,pageSize表示每頁多少條。而且我們還能得出另一個結論:第一個page=0,第二頁page=1 然后依次往后。有同學會問:為什么第一頁不是1,而是0,因為在數據庫中一般的都是從0開始計數,編程行業很多數組列表都是從0開始計數。

好了,知道分頁規律之后,我們只要在每次請求時將page參數遞增不就可以批量抓取了嗎?我們來寫代碼吧!

簡單講解一下做的改動:

對spider_comment方法增加入參數,然后在url中增加占位符,這樣就可以動態修改url,爬取指定的頁數。

增加一個batch_spider_comment方法,循環調用spider_comment方法,暫定爬取100頁。

在batch_spider_comment方法的for循環中設置了一個隨機的休眠時間,意在模擬用戶瀏覽,防止因為爬取太頻繁被封ip。

爬取完成之后檢查成果。

6.數據清洗

數據成功保存之后我們需要對數據進行分詞清洗,對于分詞我們使用著名的分詞庫jieba。

首先是安裝jieba庫:

pip3 install jieba

當然這里你還可以對一些介詞等無效詞進行剔除,這樣可以避免無效數據。

7.生成詞云

生成詞云我們需要用到numpy、matplotlib、wordcloud、Pillow這幾個庫,大家先自行下載。matplotlib庫用于圖像處理,wordcloud庫用于生成詞云。

注意:font_path是選擇字體的路徑,如果不設置默認字體可能不支持中文,豬哥選擇的是Mac系統自帶的宋體字!

最終結果:

我們來看看全代碼。

五、總結

因考慮新手的友好性,文章篇幅較長,詳細的介紹了從需求到技術分析、爬取數據、清洗數據、最后的分析數據。我們來總結一下本篇文章學到的東西吧:

如何分析并找出加載數據的url

如何使用requests庫的headers解決Referer和User-Agent反扒技術

如何找出分頁參數實現批量爬取

設置一個爬蟲間隔時間防止被封ip

數據的提取與保存到文件

使用jieba庫對數據分詞清洗

使用wordcloud生成指定形狀的詞云

這是一套完整的數據分析案例,希望大家能自己動手嘗試,去探索更多有趣的案例。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據分析
    +關注

    關注

    2

    文章

    1447

    瀏覽量

    34056
  • python
    +關注

    關注

    56

    文章

    4795

    瀏覽量

    84661
  • 爬蟲
    +關注

    關注

    0

    文章

    82

    瀏覽量

    6873

原文標題:充氣娃娃什么感覺?Python告訴你

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    【labview我來告訴】對像高亮顯示”實現酷閃耀功能

    `使用過ObjHighlight嗎?感覺怎么樣?我來告訴,ObjHighlight 這是對像一個的比較酷的功能。首先創建對像的引用,然后使用“方法節點”(調用節點)限可以獲得,大家
    發表于 12-01 10:32

    共享掃碼娃娃機方案內容

    `共享掃碼娃娃機方案內容,最近共享單車模式很火,衍生出來的共享經濟已經點燃大眾創業的激情。共享掃碼娃娃機存量市場大,同時娃娃機運營方式存在較大的升級空間,在娃娃機的上下游產業和中間環節
    發表于 11-16 11:07

    DIY娃娃機相關資料推薦

    提示:文章寫完后,目錄可以自動生成,如何生成可參考右邊的幫助文檔DIY娃娃機前言一、pandas是什么?二、使用步驟1.引入庫2.讀入數據總結前言不知道大家有沒有和我一樣,有時候腦子里突然冒出來一
    發表于 01-07 07:16

    制作櫻花娃娃的教程分享

    描述櫻花娃娃這款櫻花娃娃旨在精美地開始您的 SMD 焊接冒險。所有無源元件的尺寸均為 0805。NL27WZ04 的 SOT363 封裝可能有點挑戰性。用一個細尖的烙鐵和穩定的手,讓它閃爍并不難。PCB代碼https://github.com/nwmaker/sakura
    發表于 09-05 07:07

    聲控音樂娃娃電路圖

    聲控音樂娃娃電路圖
    發表于 07-29 09:15 ?788次閱讀
    聲控音樂<b class='flag-5'>娃娃</b>電路圖

    聲控音樂娃娃電路圖

    聲控音樂娃娃是一個很有趣的電子玩具,在一個洋氣十足的布娃娃體內安裝有電子線路,當你拍手擊掌時,線路就被
    發表于 11-22 12:33 ?2071次閱讀
    聲控音樂<b class='flag-5'>娃娃</b>電路圖

    車載充氣真的會使用嗎?手把手教你如何使用車載充氣

    紐曼車載充氣泵,五步使用,簡單輕松。
    的頭像 發表于 04-27 16:31 ?19.2w次閱讀

    用紙板制作抓娃娃

    每次抓娃娃,總是差那么一丁點,要是能在家練習就好了。本次就給大家介紹怎么做不插電的抓娃娃機,快來學習吧。
    的頭像 發表于 01-22 17:49 ?7w次閱讀

    5款手機告訴什么是真正的旗艦

    誰說安卓不如ios?這5部手機告訴什么是真正的旗艦。
    的頭像 發表于 08-16 16:27 ?3188次閱讀

    如何使用電子技術設計一個會說話的布娃娃

    這里介紹一種布娃娃,初看和普通的布娃娃沒有什么區別,但是只要碰一下娃娃的眼睛,她就會對說:這是我的眼睛,小朋友要保護自己的眼睛。摸一下
    的頭像 發表于 05-05 12:18 ?3483次閱讀
    如何使用電子技術設計一個會說話的布<b class='flag-5'>娃娃</b>

    PCB制作的櫻花娃娃

    電子發燒友網站提供《PCB制作的櫻花娃娃.zip》資料免費下載
    發表于 08-16 09:18 ?2次下載
    PCB制作的櫻花<b class='flag-5'>娃娃</b>

    Arduino娃娃屋迷你電視開源設計

    電子發燒友網站提供《Arduino娃娃屋迷你電視開源設計.zip》資料免費下載
    發表于 06-20 09:37 ?0次下載
    Arduino<b class='flag-5'>娃娃</b>屋迷你電視開源設計

    充氣泵方案中的芯片選擇與應用案例

    充氣泵方案中,芯片的選擇直接關系到充氣泵的性能和功能。下面介紹兩個充氣泵方案中常用的芯片選擇及其應用案例。 首先,32位MCU芯片是充氣泵方案中常見的選擇。32位MCU芯片具備強大的
    的頭像 發表于 08-22 15:33 ?754次閱讀

    充氣泵方案的原理和結構是什么?

    充氣泵是一種常見的氣體壓縮設備,它可以將空氣或其他氣體壓縮成高壓氣體,用于充氣、輸送、壓縮等工業和生活領域。充氣泵的原理是利用機械或電動力量將氣體壓縮,使其體積減小,壓力增大,從而達到充氣
    的頭像 發表于 08-29 15:39 ?3988次閱讀

    充氣柜和普通開關柜相比有什么優點和缺點

    蜀瑞創新小編告訴大家:充氣柜和普通開關柜在電力系統中各有其獨特的優點和缺點,以下是對兩者的詳細分析:
    的頭像 發表于 08-15 11:34 ?625次閱讀
    <b class='flag-5'>充氣</b>柜和普通開關柜相比有什么優點和缺點
    主站蜘蛛池模板: 亚洲中文字幕AV在天堂| 国产精品卡1卡2卡三卡四| 帅哥男男GV在线1080P| 久久中文字幕亚洲| 国产精品国产三级国产an| 伊人青青操| 午夜家庭影院| 漂亮美女2018完整版| 久久九九精品国产自在现线拍| 成人无码国产AV免费看| 正在播放久久| 亚洲精品成人久久久影院| 热巴两次用约老师屁股发底线球| 精品夜夜澡人妻无码AV| 国产国产乱老熟视频网站 | 99热热在线精品久久| 亚洲精品久久久WWW游戏好玩| 日本粉嫩学生毛绒绒| 男女又黄又刺激B片免费网站| 极品美女久久久久久久久久久| 高h辣h双处全是肉一对一| 2020国产成人精品视频人| 艳鉧动漫1~6全集观看在线| 午夜理论片日本中文在线| 日本高清无人区影院| 欧美精品99久久久啪啪| 伦理片午夜在线视频| 久久re视频这里精品09首页| 国产视频www| 国产精品色吧国产精品| 国产成人午夜精品免费视频| 北条麻妃夫の友人196| FREECHINESE东北女人真爽| 91亚洲精品福利在线播放| 中文无码第3页不卡av| 伊人青青草原| 中国女人内谢69xxxxxx直播| 永久免费的无码中文字幕| 伊人久久综合影院| 中文字幕人成乱码熟女APP| 一区二区三区福利视频|