无限免费观看日本动漫完整版,亚洲国产日韩欧美一区二区三区,亚州色吧

9 月 5 日，谷歌發布了一個幫助研究者查找在線數據的免費搜索引擎 Dataset Search。谷歌表示，該引擎面向「科學家、數據記者、數據極客等人群」。該引擎有助于促進數據的開放利用和重復利用。

Dataset Search 與谷歌的其他專用搜索引擎（如用于搜索新聞和圖像的引擎，以及 Google Scholar 和 Google Books）一樣可以免費使用，它基于擁有者對文件和數據庫的分類方式來查找文件和數據集。該引擎讀取文件內容的方式與搜索引擎搜索網頁的方式不同。有專家表示，該引擎填補了這一領域的空白，可以極大地促進開放數據運動的發展，這一運動旨在實現數據的開放利用和重復利用。

政府機構、科學出版社、研究機構甚至是個人研究者在全世界維護著成千上萬的開源數據資源庫，包含了數百萬個數據集。

但那些想知道哪些類型的數據可用，或者那些希望定位已經存在的數據的研究者，通常依賴于口耳相傳的信息。來自加州山景城的 Google AI 計算機科學家 Natasha Noy 說。

對于那些處于研究生涯早期階段且還沒有建立專業聯系網絡的研究者而言，這個問題尤其嚴重，Noy 說。這對于那些做交叉學科研究的人而言也是個嚴重的缺陷。例如，流行病學家需要訪問氣候數據，其可能與某種病毒的傳播相關。

分類搜索

2017 年 1 月，Noy 及其谷歌同事 Dan Brickley 在一篇谷歌博客（https://ai.googleblog.com/2017/01/facilitating-discovery-of-public.html）中首次介紹了解決該問題的策略。

典型的搜索引擎分兩個階段運行。第一個階段是通過在互聯網上持續搜索來索引可用網頁。第二個階段是對索引網頁進行排序，以使用戶輸入搜索詞時，搜索引擎能夠按相關度排序來提供搜索結果。

Noy 和 Brickley 寫道，為了幫助搜索引擎索引現有數據集，擁有數據集的人應該使用一個叫作 Schema.org 的標準化詞匯表來「標記」數據集，Schema.org 是谷歌和另外三個搜索引擎巨頭（微軟、雅虎和 Yandex）一起發起的項目，由 Brickley 管理。谷歌團隊還開發了一種特殊算法來對搜索結果中的數據集進行排序。

由于谷歌在網頁搜索中的主導地位，谷歌正在快速轉入數據生態系統的消息刺激主要搜索引擎巨頭進入該戰場，對元數據進行標準化處理，倫敦數據共享公司 Figshare CEO Mark Hahnel 說道。（Figshare 由霍爾茨布林克出版集團管理，該集團也對 Nature 的出版公司持有大量股份。）

「到 11 月，我們接觸的所有大學的數據都已經標記完成。我認為這對學界的開放數據而言是一項重要變革。」Hahnel 說道。

Hahnel 認為，融資機構有時強制要求研究數據必須可獲取，而只要信息能夠高效獲取，他們就能達到其最終目的。「這使得投資機構一直嘗試做的事合法化。」

谷歌為用戶提供了能夠同時搜索多個存儲區的單個界面，希望借此改變用戶發布和運用數據的方式。谷歌表示這個項目能夠帶來下列好處：

形成數據共享生態系統，鼓勵數據發布者依照最佳做法來存儲和發布數據；

為科學家提供相應平臺，方便大眾引用他們創建的數據集，展現他們的研究成果所帶來的影響力。

搜索試驗

目前谷歌已經正式對外測試開源數據集搜索引擎，用戶在鍵入數據集名稱或關鍵信息后，該搜索引擎會給出一系列數據源列表，每一個數據源都會有簡要的介紹，例如更新日期、作者、版權和內容說明等。值得注意的是，除了數據集資源，該搜索引擎還能檢索到很多 Kaggle 上的預訓練模型。在機器之心的嘗試中，我們分別以 CIFAR-10、Object Detection 和 SQuAD 為關鍵詞搜索數據集，發現了一些很有意思的結果。

首先我們檢索了十分常用的圖像分類數據集 CIFAR-10，該數據集包含 10 個類別共 60000 張 32x32 的彩色圖像，且分為 50000 張訓練圖像和 10000 張測試圖像。搜索結果共給出了 9 項來源，包括數據集、預訓練模型和對比結果。

例如在排名第一的搜索結果中，數據集來自 Kaggle 的 CIFAR-10 Python。在搜索引擎的簡介頁中，除了給出該數據集的簡要信息（包括引用此數據集的論文），它甚至還展示了該數據集的使用指南。例如，如下展示頁介紹了該數據集在 Keras 的使用方法：

fromosimportlistdir,makedirsfromos.pathimportjoin,exists,expandusercache_dir=expanduser(join('~','.keras'))ifnotexists(cache_dir):makedirs(cache_dir)datasets_dir=join(cache_dir,'datasets')#/cifar-10-batches-pyifnotexists(datasets_dir):makedirs(datasets_dir)#Ifyouhavemultipleinputdatasets,changethebelowcpcommandaccordingly,typically:#!cp../input/cifar10-python/cifar-10-python.tar.gz~/.keras/datasets/!cp../input/cifar-10-python.tar.gz~/.keras/datasets/!ln-s~/.keras/datasets/cifar-10-python.tar.gz~/.keras/datasets/cifar-10-batches-py.tar.gz!tarxzvf~/.keras/datasets/cifar-10-python.tar.gz-C~/.keras/datasets/

點擊第一條數據源就能跳轉到對應的 Kaggle 頁面，下載和額外信息都展示在原頁面中。

在采用關鍵詞「Object Detection」進行搜索的過程中，我們會發現搜索結果遠遠要比上面多得多，大約會有上百條數據來源。依靠關鍵詞同樣檢索到了非常多流行的開源數據集，它們都適用于目標檢測這一領域。例如 Microsoft COCO、Face Detection 和 Vehicle Number Plate Detection 等。

從「Object Detection」的搜索結果來看，來自 Kaggle 的數據集占了一小半，它們都會在 Kaggle 上提供下載與使用指南。其實瀏覽這么多數據源，搜索引擎給出的簡介頁面就顯得非常重要了。我們不需要跳轉到每一個數據集的原地址，僅根據簡介就能了解該數據集的大概應用領域與內容。如下展示了 COCO 數據集的簡介頁面：

最后我們檢索了斯坦福的問答數據集「SQuAD」，搜索結果不僅給出了挑戰賽地址和數據集地址，同時還提供了相似數據集和挑戰賽的地址。但是在我們檢索「SQuAD 2.0」的時候，并沒有搜索到斯坦福大學發布的機器閱讀理解問答數據集 SQuAD 2.0，也可能是該數據集太新，還沒有被搜索引擎收錄。

合作機構

谷歌這一嘗試的早期支持者是美國國家海洋和大氣管理局（NOAA）。該機構的職權范圍從漁業到日冕，其檔案包含近 7 萬個數據集，包括 19 世紀的船舶日志。這些數據的總容量超過 35 PB，相當于 35000 個典型硬盤的容量。

谷歌這一工具 Dataset Search 將幫助 NOAA 完成數據開放的使命，NOAA 首席數據官 Edward Kearns 表示。「我們想探索新的方法，使其他人也能使用這些數據。」

與數據擁有者展開合作是運行 Dataset Search 的關鍵步驟。盡管這一系統未來可能變得更加復雜，谷歌目前不打算像處理網頁和圖像那樣讀取或分析數據。Noy 表示，「只有數據發布者提供的元數據足夠好，這種搜索工具才能夠好。」

和 Google Scholar 一樣，Dataset Search 目前不提供自動化查詢或應用程序編程接口（API），盡管谷歌表示將來可能會增加這一功能。

Noy 表示當研究人員開始使用 Dataset Search 時，谷歌將會觀察他們如何與其交互，并利用這些信息來改進搜索結果。她還表示，公司尚未打算把該服務商業化。

隨著 Dataset Search 的不斷改進，未來它也許會跟 Google Scholar 整合，將特定研究領域的搜索結果關聯到相關數據集。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

谷歌

谷歌

+關注

關注
27

文章
6161

瀏覽量
105304
搜索引擎

搜索引擎

+關注

關注
0

文章
117

瀏覽量
13353

原文標題：AI研發者福利！谷歌推出數據集搜索專用引擎Dataset Search

文章出處：【微信號：gh_211d74f707ff，微信公眾號：重慶人工智能】歡迎添加關注！文章轉載請注明出處。

阿里國際推出全球首個B2B AI搜索引擎Accio

近日，在歐洲科技峰會Web Summit上，阿里國際正式推出了全球首個B2B領域的AI搜索引擎——Accio。這一創新產品面向全球商家開放，標志著阿里國際正式入局當前備受矚目的AI Search賽道。

發表于 11-15 16:53 ?692次閱讀

Meta開發新搜索引擎，減少對谷歌和必應的依賴

將基于Meta AI聊天機器人進行生成。據一位曾與Meta搜索引擎團隊交流過的人士透露，Meta希望通過這款搜索引擎降低對谷歌搜索和微軟必應的依賴。目前，這兩家

發表于 10-29 11:49 ?376次閱讀

月訪問量超2億，增速113%！360AI搜索成為全球增速最快的AI搜索引擎

與傳統搜索引擎不同，作為AI原生搜索引擎的360AI搜索基于公開網絡、知識庫、大模型三大支柱。借助首創的 CoE 技術架構，360AI搜索整合了國內主流的16家廠商51款大模型，支持用

發表于 09-09 13:44 ?465次閱讀

月訪問量超2億，增速113%！360AI<b class='flag-5'>搜索</b>成為全球增速最快的AI<b class='flag-5'>搜索引擎</b>

OpenAI推出SearchGPT原型,正式向Google搜索引擎發起挑戰

在人工智能領域的持續探索中，OpenAI 邁出了重大一步，發布了其最新的 SearchGPT 原型，直接瞄準了 Google 的核心業務——搜索引擎。這一舉動不僅標志著 OpenAI 在技術上的又一次飛躍，也預示著搜索引擎市場即

發表于 07-26 15:11 ?571次閱讀

微軟計劃在搜索引擎Bing中引入AI摘要功能

近期，科技界傳來新動向，微軟緊隨百度與谷歌的步伐，宣布計劃在其搜索引擎Bing中引入先進的AI摘要功能，旨在為用戶帶來更加智能、豐富的搜索體驗。

發表于 07-26 14:23 ?454次閱讀

新火種AI|谷歌推出AI搜索引擎惹得出版商擔憂！新聞流量的至暗時刻要來了嗎？

作者：小巖編輯：彩云在數字化浪潮的推動下，AI技術正逐漸滲透到我們生活的方方面面。最近，谷歌宣布推出一款全新的AI搜索引擎，這在使我們見識到了科技巨頭所擁有的超能力和“鈔”能力的同時，也讓我們

發表于 05-17 09:40 ?347次閱讀

新火種AI|<b class='flag-5'>谷歌</b>推出AI<b class='flag-5'>搜索引擎</b>惹得出版商擔憂！新聞流量的至暗時刻要來了嗎？

OpenAI否認將推出搜索產品或GPT-5

此消息對致力于將ChatGPT嵌入必應搜索引擎的微軟或許有所積極影響。早期已有報導披露，該AI企業有意研發競品以抗衡谷歌搜索引擎。

發表于 05-13 15:14 ?384次閱讀

OpenAI注冊新域名，準備推出結合AI技術的搜索引擎挑戰谷歌

OpenAI最近注冊了“search.chatgpt.com”域名，看起來是要推出一款新的搜索引擎。

發表于 05-08 10:41 ?460次閱讀

OpenAI或將推出ChatGPT搜索引擎

據可靠消息透露，OpenAI正秘密研發一款以ChatGPT為基礎的大型產品，其核心功能將是一款新型搜索引擎，旨在為用戶提供更便捷的上網體驗。

發表于 05-08 10:19 ?494次閱讀

新火種AI|挑戰谷歌，OpenAI要推出搜索引擎？

新的搜索引擎，幫助用書輕松上網。 OpenAI的這一動向引起了業界的廣泛關注。作為OpenAI開發的一款強大的AI大語言模型，ChatGPT已經在自然語言處理的領域取得了顯著的成果，并給了人們全新的獲取信息的體驗。因此，自誕生以來，ChatGPT一直都被不少人視為能夠給予谷歌

發表于 05-07 22:06 ?358次閱讀

OpenAI或將在5月9日發布ChatGPT版搜索引擎

OpenAI可能即將與谷歌展開正面競爭，推出基于ChatGPT的搜索引擎。根據Reddit網友的最新爆料，OpenAI有望在5月9日公布其全新的搜索產品。據悉，與這一新產品相對應的搜索

發表于 05-07 09:28 ?621次閱讀

潤和軟件與新財富聯合發布金融AI對話式搜索引擎“金融搜一搜”產品

3月29日，新財富投顧嘉年華活動中，江蘇潤和軟件股份有限公司（以下簡稱“潤和軟件”）與深圳市新財富數字科技有限責任公司（以下簡稱“新財富”）聯合發布了金融AI對話式搜索引擎——“金融搜一搜”產品，助力金融投資場景智能化升級。

發表于 04-02 10:15 ?479次閱讀

Redis官方搜索引擎來了，性能炸裂！

RediSearch 是一個 Redis 模塊，為 Redis 提供查詢、二級索引和全文搜索功能。

發表于 02-21 10:01 ?2322次閱讀

生成式AI恐使搜索引擎衰退，預計2026年搜索量將下滑25%

據市場分析機構Gartner報道，生成式AI對傳統搜索引擎構成重大威脅，預計至2026年搜索量將降低25%。為此，企業需調整營銷策略。

發表于 02-20 10:04 ?697次閱讀

谷歌搜索引擎優化的各個方面和步驟

谷歌搜索引擎是最受歡迎和廣泛使用的搜索引擎之一，為了使你的網站在谷歌上更好地排名并提高曝光度，你可以采取一些谷歌

發表于 01-25 10:29 ?871次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

谷歌發布查找在線數據的搜索引擎Dataset Search

評論

阿里國際推出全球首個B2B AI搜索引擎Accio

Meta開發新搜索引擎，減少對谷歌和必應的依賴

月訪問量超2億，增速113%！360AI搜索成為全球增速最快的AI搜索引擎

OpenAI推出SearchGPT原型,正式向Google搜索引擎發起挑戰

微軟計劃在搜索引擎Bing中引入AI摘要功能

新火種AI|谷歌推出AI搜索引擎惹得出版商擔憂！新聞流量的至暗時刻要來了嗎？

OpenAI否認將推出搜索產品或GPT-5

OpenAI注冊新域名，準備推出結合AI技術的搜索引擎挑戰谷歌

OpenAI或將推出ChatGPT搜索引擎

新火種AI|挑戰谷歌，OpenAI要推出搜索引擎？

OpenAI或將在5月9日發布ChatGPT版搜索引擎

潤和軟件與新財富聯合發布金融AI對話式搜索引擎“金融搜一搜”產品

Redis官方搜索引擎來了，性能炸裂！

生成式AI恐使搜索引擎衰退，預計2026年搜索量將下滑25%

谷歌搜索引擎優化的各個方面和步驟