繼 Google Scholar(Google 學(xué)術(shù)搜索)之后,Google 又為科研工作者推出了一款重磅產(chǎn)品—— Google Dataset Search(Google 數(shù)據(jù)集搜索)。
為什么說這款產(chǎn)品如此重要?因為數(shù)據(jù)從未如此重要。由于深度學(xué)習(xí)的興起,AI 研究員需要大量的數(shù)據(jù)來訓(xùn)練他們的模型,吳恩達(dá)就曾表示,深度學(xué)習(xí)像火箭,計算是引擎,數(shù)據(jù)是燃料。有時候,數(shù)據(jù)可能比算法更重要。
然而,數(shù)據(jù)集和相關(guān)數(shù)據(jù)往往分布在網(wǎng)上的多個數(shù)據(jù)存儲區(qū)中。在大多數(shù)情況下,搜索引擎既無法提供這些數(shù)據(jù)庫相關(guān)信息的鏈接,也不會將這些信息編入索引,這會導(dǎo)致數(shù)據(jù)尋找變得無比繁瑣,或者在某些情況下無法實現(xiàn)。
一些掌握了大量數(shù)據(jù)的互聯(lián)網(wǎng)公司也因此擁有很大的優(yōu)勢,而高校的學(xué)者除了一些公開的知名數(shù)據(jù)集,想要擁有大量的數(shù)據(jù)則非常困難,因此 Google 的這款產(chǎn)品可謂是及時雨。當(dāng)然,其他需要各種數(shù)據(jù)的工作者也能從中受益。
Google Dataset Search 為用戶提供了能夠同時搜索多個存儲區(qū)的單個界面,希望借此改變用戶發(fā)布和運用數(shù)據(jù)的方式。
現(xiàn)在,就讓我們來一起看下這款搜索工具。
與 Google Scholar 類似,Google Dataset Search 可方便用戶查找托管在任何位置的數(shù)據(jù)集,無論是出版網(wǎng)站、數(shù)字圖書館還是作者的個人網(wǎng)頁。
為了創(chuàng)建 Dataset Search,Google 還為數(shù)據(jù)集提供方制定了一套數(shù)據(jù)指南(https://developers.google.com/search/docs/data-types/dataset)。這些指南包括有關(guān)數(shù)據(jù)集的重要信息:數(shù)據(jù)集的作者,發(fā)布時間,數(shù)據(jù)收集方式,使用數(shù)據(jù)的條款等等。然后,Google 收集并鏈接這些信息,分析同一數(shù)據(jù)集的不同版本可能在哪里,并找到可能描述或討論這一數(shù)據(jù)集的出版物。
Google 的指南是基于一個數(shù)據(jù)集的開放標(biāo)準(zhǔn)(schema.org),任何發(fā)布數(shù)據(jù)的人都可以通過這種方式描述他們的數(shù)據(jù)集。
在這個新版本中,用戶可以找到很多環(huán)境和社會科學(xué)相關(guān)的數(shù)據(jù)集,以及其他學(xué)科的數(shù)據(jù),包括政府?dāng)?shù)據(jù)和新聞機(jī)構(gòu)提供的數(shù)據(jù),如 ProPublica。隨著越來越多的數(shù)據(jù)倉庫使用 schema.org 標(biāo)準(zhǔn)來描述他們的數(shù)據(jù)集,Google Dataset Search 能夠搜索到的數(shù)據(jù)集的種類和覆蓋面將持續(xù)增長。
目前 Google Dataset Search 已經(jīng)支持多種語言,筆者嘗試了下,除了英文,還支持中文。
我們先嘗試下英文搜索,如果你想分析天氣記錄,那么就可以在 Google Dataset Search 的輸入欄里嘗試輸入“daily weather”,結(jié)果如下圖所示:
可以看到,左邊欄呈現(xiàn)的是各種數(shù)據(jù)源,右邊則是相應(yīng)的介紹,包括數(shù)據(jù)集的名稱、下載鏈接、更新日期、提供者、說明等等,非常清晰。
現(xiàn)在,我們來嘗試下中文,在搜索欄輸入“房價”,第一條就是中國房價的數(shù)據(jù)集,該數(shù)據(jù)集由 CEIC 提供,涵蓋的時間段從 2017年7月1日 —2018 年 6 月 1 日,算是非常新的數(shù)據(jù)了。
打開該數(shù)據(jù)集的鏈接,嗯,是個收費網(wǎng)站。不過,花錢能解決的事,總比毫無頭緒來得好。
Dataset Search 的發(fā)布凸顯了 Google 對數(shù)據(jù)集的重視。最近,Google 也對自家的 Google Search 也進(jìn)行了改進(jìn),使得用戶搜索結(jié)果中發(fā)現(xiàn)表格數(shù)據(jù)變得更加容易,不過該計劃更側(cè)重于新聞機(jī)構(gòu)和數(shù)據(jù)記者,而 Dataset Search 的受眾則更加廣泛。
Google 表示,這個項目能夠帶來下列好處:
a) 形成數(shù)據(jù)共享生態(tài)系統(tǒng),鼓勵數(shù)據(jù)發(fā)布者依照最佳做法來存儲和發(fā)布數(shù)據(jù);
b) 為科學(xué)家提供相應(yīng)平臺,方便大眾引用他們創(chuàng)建的數(shù)據(jù)集,展現(xiàn)他們的研究成果所帶來的影響力。
當(dāng)然,Google Dataset Search 的搜索質(zhì)量取決于數(shù)據(jù)發(fā)布者,因此,如果大家都用開放標(biāo)準(zhǔn)來描述自己的數(shù)據(jù),那么搜索結(jié)果肯定會越來越好。
Google Dataset Search 目前仍處于測試階段,雖然支持中文搜索,但中國大陸的用戶想要使用依然需要“梯子”,不過這么好的工具,錯過豈不可惜!
針對 Google Scholar,2014 年 6 月百度上線了“百度學(xué)術(shù)”,不過大家似乎仍對 Google Scholar 情有獨鐘。這次,百度怎么看?
-
Google
+關(guān)注
關(guān)注
5文章
1762瀏覽量
57506 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1208瀏覽量
24689
原文標(biāo)題:Google推出數(shù)據(jù)集搜索!百度,你怎么看?
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論