技術無罪?江湖傳言,互聯網上50%以上的流量都是由爬蟲創造的,很多人都表示:無爬蟲就無互聯網的繁榮。也正因為此,網上各種爬蟲教程風靡不絕,惹各路大神小白觀之參與之。但是,無節制的背后往往隱藏著風險,類似“只因寫了一段爬蟲,公司200多人被抓!”、“程序員爬蟲竟構成犯罪?”等報道也時有發生。關于爬蟲合法性的討論,CSDN也在此前的《爬蟲到底違法嗎?這位爬蟲工程師給出了答案》、《不要在爬蟲犯罪的邊緣瘋狂試探!》等文章中進行了探討——但是,關于爬蟲的爭論一直甚囂塵上。
近日,美國法院駁回 LinkedIn 針對分析公司 HiQ 抓取其數據的申訴一事件,似乎又為網絡爬蟲的自由添磚加了瓦。決議表明:任何可公開獲得且未經版權保護的數據都可供抓取!可以說,這是數據隱私和數據監管時代的歷史性時刻。那么,作為開發者的你,如何看到這一事件呢?關于爬蟲的風險性又該怎么定論?
2019年末,美國上訴法院駁回了 LinkedIn 針對分析公司 HiQ 抓取其數據的申訴。
這項決議是數據隱私和數據監管時代的歷史性時刻。這項決議表明,任何可公開獲得且未經版權保護的數據都可供網絡爬蟲自由抓取。
但是抓取數據的商業用途仍然有限
然而,這項決議并沒有授予 HiQ 或其他網絡爬蟲將抓取獲得的數據用于商業目的的自由。
例如,網絡爬蟲可以在 YouTube 上搜索視頻標題,但由于這些視頻已獲得版權,因此不可以將 YouTube 視頻轉發到自己的網站上。
一般來說,無論你以何種方式獲取數據,數據(包括視頻或音樂之類的媒體文件數據)的版權依然有效。
某些形式的網頁爬蟲仍然是非法的
這項決議也沒有賦予網絡爬蟲自由地從需要身份驗證的站點獲取數據的權利。
例如,根據規定網絡爬蟲不可以登錄到 Facebook 并下載用戶的數據。
該規則不包括那些要求用戶在認證之前必須同意使用條款的網站,因為通常這些服務條款都會禁止諸如自動收集數據之類的活動。
但是,由于公開站點無法要求用戶在訪問數據之前同意任何服務條款,因此用戶可以自由使用網絡爬蟲程序從站點收集的數據。
各個網站仍然可以使用技術來限制網絡爬蟲
盡管如今各個公司不太可能通過法律途徑應對網絡爬蟲程序,但他們仍然可以通過其他方式限制網絡爬蟲。
例如,各個網站可以使用“限速”等技術來防止爬蟲程序一次下載太多網頁。此外,各個網站還可以使用 CAPTCHA 等技術來測試是用戶還是網絡爬蟲正在請求該頁面。
這些技術通常用于防止惡意機器人導致網站超載,引起網站崩潰。但是,這些技術也可以廣泛用于限制網絡爬蟲的自動抓取。
LinkedIn可能會進一步上訴
盡管美國上訴法院駁回了LinkedIn的請求,但他們可能還有最后一步棋:向美國最高法院提出上訴。
美國最高法院有權推翻上訴法院的判決,而且還可以撤銷網絡爬蟲公開使用非版權數據的合法化。但是,并非所有上訴至最高法院的決定都能得到實際的審查。
但是,我們仍然可以認為最高法院很可能會審查本案的裁決。畢竟數據政策和相關的隱私問題是相對較新的法律,而且會對 LinkedIn 等公司產生重大的商業影響。
-
Web
+關注
關注
2文章
1262瀏覽量
69441 -
爬蟲
+關注
關注
0文章
82瀏覽量
6867
發布評論請先 登錄
相關推薦
評論