很多人不知道,其實我們最常用的表格,在某些情況下也是可以用來做爬蟲的,而且爬下來的數據規整,不需要花太多時間進行數據清洗,來看看是怎么實現的。
一、Microsoft Excel
首先教大家一個用Excel爬取數據的方法,這里用的Microsoft Excel 2013版本,下面手把手開始教學~
(1)新建Excel,打開它,如下圖所示
(2)點擊“數據”——“自網站”
(3)在彈出的對話框中輸入目標網址,這里以全國實時空氣質量網站為例,點擊轉到,再導入
選擇導入位置,確定
(4)結果如下圖所示,怎么樣,是不是很贊?
(5)如果要實時更新數據,可以在“數據”——“全部更新”——“連接屬性”中進行設置,輸入更新頻率即可
非誠勿擾:正在學習python的小伙伴或者打算學習的,可以私信小編“01”領取資料!
二、Google Sheet
使用Google Sheet爬取數據前,要保證三點:使用Chrome瀏覽器、擁有Google賬號、電腦可以科學上網。如果這三個條件具備了的話,下面我們就開始吧~
(1)打開Google Sheet網站:http://www.google.cn/sheets/about/
(2)在首頁上點擊“轉到Google表格”,然后登錄自己的賬號,可以看到如下界面,再點擊“+”創建新的表格
新建的表格如下:
(3)打開要爬取的目標網站,一個全國實時空氣質量網站http://www.pm25.in/rank,目標網站上的表格結構如下圖所示
(4)回到Google sheet頁面,使用函數=IMPORTHTML(網址, 查詢, 索引),“網址”就是要爬取數據的目標網站,“查詢”中輸入“list”或“table”,這個取決于數據的具體結構類型,“索引”填阿拉伯數字,從1開始,對應著網站中定義的哪一份表格或列表
對于我們要爬取的網站,我們在Google sheet的A1單元格中輸入函數
=IMPORTHTML("http://www.pm25.in/rank","table",1),回車后就爬得數據啦
(5)將爬取好的表格存到本地
是不是感覺超級簡單?
當然,沒有學習成本的技能缺陷也是很明顯的,就是在網頁的數據排列沒那么規則的時候,或者說多個頁面的數據,以上的方法就失效了,這個時候Python就展現出它強大的威力了。
不過,話說回來,這么裝逼的技能,而且不需要學習成本,掌握了有什么不好呢,沒準什么時候就能用上了。
最后多說一句,小編是一名python開發工程師,這里有我自己整理了一套最新的python系統學習教程,包括從基礎的python腳本到web開發、爬蟲、數據分析、數據可視化、機器學習等。想要這些資料的可以關注小編,并在后臺私信小編:“01”即可領取。
-
瀏覽器
+關注
關注
1文章
1030瀏覽量
35400 -
Excel
+關注
關注
4文章
219瀏覽量
55543 -
爬蟲
+關注
關注
0文章
82瀏覽量
6933
發布評論請先 登錄
相關推薦
評論