亚洲精品片,亚洲综合视频在线观看,一个人www在线观看高清

本文將介紹如何為UCI機器學習庫引入一個簡單直觀的API。用戶可以借此查看數據集描述，搜索感興趣的數據集，甚至可以根據數據集大小或機器學習任務分類下載。

介紹

UCI機器學習庫是機器學習領域的一個神器。對于初學者和進階學習者來說，它就像一家商店。它將數據庫、業務知識以及用于機器學習算法實證分析的數據生成器集中在一起。1987年，加州大學歐文分校的David Aha和他的學生以ftp檔案的形式創建了該網站。從那時開始，全世界的學生、教育工作者和研究人員將其作為機器學習數據集的主要來源。作為文檔影響的一個標志，它已被引用超過1000次，使其成為計算機科學中引用率最高的100篇“論文”之一。

附UCI鏈接：

http://archive.ics.uci.edu/ml/index.php

相比之下，用戶要操縱門戶網站費時費力，因為感興趣的數據集沒有簡單直觀的API或下載鏈接，必須跳轉多個頁面才能轉到目標數據所在的原始頁面。此外，如果你對特定類型的機器學習任務（例如回歸或分類）感興趣并且想要下載與該任務相對應的所有數據集，很難通過簡單的命令實現。

我很高興能為UCI ML網站引入一個簡單直觀的API，用戶可以輕松查找數據集描述，搜索他們感興趣的特定數據集，甚至可以按大小或機器學習任務分類下載數據集。

從此處下載

這是一個由MIT授權的Python 3.6開源代碼庫，它提供了函數和方法，以便用戶通過交互方式使用UCI ML數據集。以下Github頁面可以下載/復制/分離代碼庫。

附Github：

https://github.com/tirthajyoti/UCI-ML-API

所需要的包

運行此代碼只需要以下三個廣泛使用的Python包。為了便于安裝這些支持包，setup.bash和setup.bat文件包含在我的repo中。只需在Linux / Windows shell中運行即可！

Pandas

Beautifulsoup 4

Requests

如何運行？

首先，確保你已連接到網絡！然后，只需下載/克隆Github中的repo，確保安裝了以上包。

git clone https://github.com/tirthajyoti/UCI-ML-API.git

{your_local_directory}

然后轉到已克隆Git的your_local_directory并在終端上運行以下命令。

python Main.py

隨后將打開一個菜單，允許你執行各種任務。菜單的屏幕截圖如下：

目前支持的特征和函數

以下是目前應用的特征（即上圖中1-9）

1.抓取整個網站以構建本地數據庫，其中包括數據集名稱，描述和URL。

2.抓取整個網站以構建本地數據庫，其中包括數據集名稱，大小和機器學習任務。

3.搜索并下載特定數據集。

4.下載前幾個數據集。

5.顯示所有數據集的名稱。

6.顯示所有數據集的簡要描述。

7.搜索數據集的單行描述和網頁鏈接（了解更多信息）。

8.根據數據集大小下載數據集。

9.根據與之關聯的機器學習任務下載數據集。

案例（搜索并下載某個數據集）

例如，如果要下載著名的Iris數據集，只需從菜單中選擇選項3，輸入存儲的本地數據庫的名稱（以便搜索更迅速）。就可以下載Iris數據集并將其存儲在名為“Iris”的文件夾中！

案例（搜索包含關鍵詞的數據集）

如果選擇選項7，將使用關鍵字進行搜索，得到名稱與搜索字符串匹配的所有數據集（甚至部分）的簡短摘要。你還可以獲得每個結果的網頁鏈接，以便根據需要進一步探索數據。下面的屏幕截圖是使用關鍵詞Cancer進行搜索的結果。

如果你想另辟蹊徑

如果你想避開這個簡單的用戶API，而使用基礎函數，也是可行的。大致流程如下，首先導入必要的包。

fromUCI_ML_Functions import*importpandas aspd

read_dataset_table()：從url讀取數據集并進一步處理以便后續的數據清洗和分類。

url：

https://archive.ics.uci.edu/ml/datasets.html

clean_dataset_table()：清洗原始數據集（數據框對象（DataFrame））并返回數據。處理后的數據刪除了包含空缺值的觀測。并且刪除了“默認任務”列，該列用來顯示與數據集關聯的主機學習任務。

build_local_table(filename=None, msg_flag=True)：讀取UCI ML網站并使用名稱，大小，ML任務，數據類型等信息構建本地表。

filename:用戶可以選擇的文件名。如果未選擇，則選擇默認名稱（'UCI table.csv'）

msg_flag：控制信息復雜度（verbosity）

build_dataset_list()：抓取UCI ML數據集頁面的信息，并構建包含所有數據集信息的列表。

build_dataset_dictionary()：抓取UCI ML數據集頁面的信息，并構建包含所有數據集名稱和描述的字典(dictionary)。此外，還對應數據集生成了唯一標識符，下載器需要這個標識符字符串來下載數據文件。這種情況下，通用名稱不起作用。

build_full_dataframe()：構建一個包含所有信息的數據框（DataFrame），包括用于下載數據的URL鏈接。

build_local_database(filename=None, msg_flag=True)：讀取UCI ML網站并使用以下信息構建本地數據庫：name，abstract，data page URL。

filename：可由用戶選擇的文件名。如果未選擇，程序將選擇默認名稱（'UCI database.csv'）

msg_flag：控制信息復雜度（verbosity）

return_abstract(name,local_database=None,msg_flag=False)：通過搜索給定的名稱，返回特定數據集的單行描述（以及更多信息的網頁鏈接）。

local_database：本地存儲的數據庫名稱（CSV文件），即在同一目錄中，其中包含有關UCI ML repo上所有數據集的信息

msg_flag：控制信息復雜度（verbosity）

describe_all_dataset(msg_flag=False)：調用build_dataset_dictionary函數并顯示所有數據集的描述。

print_all_datasets_names(msg_flag=False)：調用build_dataset_dictionary函數并顯示所有數據集的名稱。

extract_url_dataset(dataset,msg_flag=False)：給定數據集標識符，此函數提取實際原始數據所在頁面的URL。

download_dataset_url(url,directory,msg_flag=False,download_flag=True)：從給定url中的鏈接下載所有文件。

msg_flag：控制信息復雜度（verbosity）

download_flag：默認為True。如果設置為False，則僅創建目錄但不下載（用于測試目的）

download_datasets(num=10,local_database=None,msg_flag=True,download_flag=True)：下載數據集并將它們放在以數據集命名的本地目錄中。默認情況下，僅下載前10個數據集。用戶可以選擇要下載的數據集數量。

msg_flag：控制信息復雜度（verbosity）

download_flag：默認為True。如果設置為False，則僅創建目錄但不啟動下載（用于測試目的）

download_dataset_name(name,local_database=None,msg_flag=True,download_flag=True)：根據下載指定名稱的數據集。

local_database：本地存儲的數據庫名稱（CSV文件），即在同一目錄中包含有關UCI ML存儲庫中所有數據集的名稱和URL信息

msg_flag：控制信息復雜度（verbosity）

download_flag：默認為True。如果設置為False，則僅創建目錄但不啟動下載（用于測試目的）

download_datasets_size(size='Small',local_database=None,local_table=None,msg_flag=False,download_flag=True)：下載滿足'size'標準的所有數據集。

size：用戶想要下載的數據集的大小。取值可以是以下任何一種：‘Small’, ‘Medium’, ‘Large’, ’Extra Large’。

local_database：本地存儲的數據庫名稱（CSV文件），即在同一目錄中包含有關UCI ML存儲庫中所有數據集的名稱和URL信息。

local_table：本地存儲的數據庫名稱（CSV文件），即在同一目錄中包含關于UCI ML repo上所有數據集的特征信息，即樣本數量以及數據集執行的機器學習任務類型。

msg_flag：控制信息復雜度（verbosity）。

download_flag：默認值為True。如果設置為False，則僅創建目錄而不下載（用于測試目的）。

download_datasets_task(task='Classification',local_database=None,local_table=None,msg_flag=False,download_flag=True)：下載用戶想要的所有符合ML任務標準的數據集。

task：用戶想要下載數據集的機器學習任務。task取值可以是以下任何一種：'Classification', 'Recommender Systems', 'Regression', 'Other/Unknown', 'Clustering', 'Causal Discovery'

local_database：本地存儲的數據庫名稱（CSV文件），即在同一目錄中包含有關UCI ML存儲庫中所有數據集的名稱和URL信息

local_table：本地存儲的數據庫名稱（CSV文件），即在同一目錄中包含關于UCI ML repo上所有數據集的特征信息，即樣本數量以及數據集執行的機器學習任務類型

msg_flag：控制信息復雜度（verbosity）

download_flag：默認值為True。如果設置為False，則僅創建目錄而不下載（用于測試目的）

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

機器學習

機器學習

+關注

關注
66

文章
8423

瀏覽量
132755
數據集

數據集

+關注

關注
4

文章
1208

瀏覽量
24729

原文標題：UCI 機器學習數據庫的 Python API 介紹

文章出處：【微信號：DBDevs，微信公眾號：數據分析與開發】歡迎添加關注！文章轉載請注明出處。

Python機器學習常用庫

是同類API中最好的選擇之一。以上是Python開發工程師必知十大機器學習庫，除此之外，還有OverFeat、Nolearn以及Decaf等

發表于 03-26 16:29

50多種適合機器學習和預測應用的API，你的選擇是？（2018年版本）

據分析服務。用戶可以建立一個數據源，并通過標準的HTTP創建模型來處理標準的有監督和無監督學習的機器學習任務。3.Google Cloud

發表于 05-03 16:41

使用 Python 開始機器學習

StackOverFlow上找到關于很多問題詳細解答（學習基石）。再次，一個強大的社區帶來的副產品就是大量有用程序庫（Python內部自帶的和第三方軟件），基本上可以解決你所有的問題（

發表于 12-11 18:37

50個機器學習實用API干貨

還在為找不到機器學習的API而煩惱嗎？本篇文章將介紹一個包含50+關于人臉和圖像識別，文本分析，NLP，情感分析，語言翻譯，

發表于 10-06 08:00

了解基于FastCV視覺庫的SVM機器學習算法

SVM是一種常用的機器學習算法，在人工智能、模式識別、圖像識別等領域有著非常廣泛的應用，本節將結合FastCV庫提供的fcvSVMPredict2Classf32

發表于 02-08 10:52 ?3380次閱讀

了解基于FastCV視覺<b class='flag-5'>庫</b>的SVM<b class='flag-5'>機器</b><b class='flag-5'>學習</b>算法

Spark機器學習庫的各種機器學習算法

本文將簡要介紹Spark機器學習庫（Spark MLlibs APIs）的各種機器學習算法，主要包括：統計算法、分類算法、聚類算法和協同過濾

發表于 09-28 16:44 ?1次下載

Python機器學習庫

份囊括一些很好的Python機器學習庫的清單，并將其張貼在下面。在我看來，Python是學習（和實現）

發表于 10-13 16:21 ?0次下載

最全面的52個機器學習API盤點，一文讓你全get

隨著基于人工智能與機器學習的應用如雨后春筍般不斷涌現，我們也看到有很多提供類似功能的API悄悄登上了舞臺。 API是用于構建軟件應用的程序、協議以及工具的組合。所有的

發表于 12-07 11:10 ?0次下載

50個機器學習實用API

還在為找不到機器學習的API而煩惱嗎？本篇文章將介紹一個包含50+關于人臉和圖像識別，文本分析，NLP，情感分析，語言翻譯，

發表于 06-13 18:20 ?4302次閱讀

《機器學習訓練秘籍》中的六個概念

吳恩達在該書中從頭到尾一直強調：由于機器學習是一個迭代的過程，快速迭代至關重要。比起去思考如何為

發表于 03-05 13:44 ?2835次閱讀

DeepMind又放福利：開源了一個內部的分布式機器學習庫TF-Replicator

TensorFlow 針對 TPU 的原生 API 與針對 GPU 的方式不同，這造成了使用 TPU 的障礙。TF-Replicator 提供了一個更簡單、更用戶友好的

發表于 03-10 09:41 ?3419次閱讀

Danfo.js提供高性能、直觀易用的數據結構，支持結構化數據的操作和處理

/API。因此熟悉 Pandas API 且了解 JavaScript 的用戶可以輕松上手。 Danfo.js 的一大目標是為 JavaScript 開發者提供數據處理、機器

發表于 09-23 18:21 ?5310次閱讀

談談如何將機器學習引入自動化

今天，筆者嘗試通過一個一般性方法的介紹來談談如何將機器學習引入自動化，同時對

發表于 10-09 15:55 ?2350次閱讀

MindSpore量子機器學習庫MindQuantum

MindSpore在3.28日正式開源了量子機器學習庫MindQuantum，本文介紹MindQuantum的關鍵技術。介紹MindQuantum前，先簡單闡述下量子計算的...

發表于 01-25 17:58 ?0次下載

python中如何引入math庫

等。在本文中，將詳細介紹如何引入math庫，并且討論各種數學函數的應用。為了引入math庫，我們可以使用以下代碼： import math 這個語句會將整個math

發表于 11-22 11:03 ?4343次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

如何為UCI機器學習庫引入一個簡單直觀的API

評論

Python機器學習常用庫

50多種適合機器學習和預測應用的API，你的選擇是？（2018年版本）

使用 Python 開始機器學習

50個機器學習實用API干貨

了解基于FastCV視覺庫的SVM機器學習算法

Spark機器學習庫的各種機器學習算法

Python機器學習庫

最全面的52個機器學習API盤點，一文讓你全get

50個機器學習實用API

《機器學習訓練秘籍》中的六個概念

DeepMind又放福利：開源了一個內部的分布式機器學習庫TF-Replicator

Danfo.js提供高性能、直觀易用的數據結構，支持結構化數據的操作和處理

談談如何將機器學習引入自動化

MindSpore量子機器學習庫MindQuantum

python中如何引入math庫