近日,Medium上的一位用戶整理了一份機器學習大型數據集清單,包括八大數據集資源庫。總有一款適合你,快來收藏吧!
下面的ML大型數據集,總有一款適合你。
就目前來看,找到一個特定的數據集來解決各種機器學習問題,甚至進行實驗還是比較困難的。
本文作者Will Badr便列舉了八大機器學習數據集。
不僅包含用于實驗的大型數據集,還附帶對數據集的描述以及使用示例。有的還包含用于解決與該數據集相關機器學習問題的算法代碼。
話不多說,上數據集!
1、Kaggle數據集
數據集地址:
https://www.kaggle.com/datasets
這是作者最喜歡的數據集之一。
每個數據集都是一個小型社區,用戶可以在其中討論數據、查找公共代碼或在內核中創建自己的項目。包含各式各樣的真實數據集。
用戶還可以看到與每個數據集相關的“內核”,許多數據科學家還提供了相關手冊來分析數據集。
2、Amazon數據集
數據集地址:
https://registry.opendata.aws/
該數據源包含多個不同領域的數據集,如:公共交通、生態資源、衛星圖像等。
網頁中也有一個搜索框來幫助用戶尋找想要的數據集,還有所有數據集的描述和使用示例,這些數據集信息豐富且易于使用!
數據集存儲在Amazon Web Services (AWS)資源中,比如Amazon S3——云中的一個高度可伸縮的對象存儲服務。
如果用戶正在使用AWS進行機器學習實驗和開發,這將非常方便,由于它是AWS網絡的本地數據,因此數據集的傳輸將非常快。
3、UCI機器學習資源庫
數據集地址:
https://archive.ics.uci.edu/ml/datasets.html
另一個來自加州大學信息與計算機科學學院的大型資源庫,包含100多個數據集。
用戶可以找到單變量和多變量時間序列數據集,分類、回歸或推薦系統的數據集。
有些UCI的數據集已經是被清洗過的。
4、谷歌數據集搜索引擎
數據集地址:
https://toolbox.google.com/datasetsearch
在2018年末,谷歌做了他們最擅長的事情,推出了另一項偉大的服務——它是一個可以按名稱搜索數據集的工具箱。
他們的目標是統一成千上萬個不同的數據集存儲庫,使這些數據能夠且易被發現。
5、微軟數據集
數據集地址:
https://msropendata.com/
2018年7月,微軟與外部研究社區共同宣布推出“Microsoft Research Open Data”。
它在云中包含一個數據存儲庫,用于促進全球研究社區之間的協作。它提供了一系列用于已發表研究的、經過處理的數據集。
6、Awesome Public Datasets Collection
數據集地址:
https://github.com/awesomedata/awesome-public-datasets
這是一個按“主題”組織的數據集,比如生物學、經濟學、教育學等。
這里列出的大多數數據集都是免費的,但是在使用任何數據集之前,用戶需要檢查一下許可要求。
7、政府數據集
政府相關數據集也很容易找到的。
許多國家為了提高透明度,向公眾分享了各種數據集。以下是一些例子:
歐盟開放數據門戶:歐洲政府數據集。
數據集地址:
https://data.europa.eu/euodp/data/dataset
美國政府數據:目前由于一些非政治性原因,暫時無法訪問。
數據集地址:
https://www.data.gov/
新西蘭政府數據集:
數據集地址:
https://catalogue.data.govt.nz/dataset
印度政府數據集:
數據集地址:
https://data.gov.in/
8、計算機視覺數據集
數據集地址:
https://www.visualdata.io/
Visual Data包含一些可以用來構建計算機視覺(CV)模型的大型數據集。
用戶可以通過特定的CV主題查找特定的數據集,如語義分割、圖像標題、圖像生成,甚至可以通過解決方案(自動駕駛汽車數據集)查找特定的數據集。
總結
從上述作者所觀察到數據集情況來看,似乎是涵蓋各個方向和領域。
這些新數據集的社區將繼續發展,使數據更容易被獲取,使眾包和計算機科學社區能夠繼續快速創新,為生活帶來更多創造性的解決方案。
-
算法
+關注
關注
23文章
4615瀏覽量
92982 -
機器學習
+關注
關注
66文章
8422瀏覽量
132714 -
數據集
+關注
關注
4文章
1208瀏覽量
24723
原文標題:【收藏】8款大型機器學習數據集頂級資源
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論