《機器學習導論》第1章緒論,本章詳細地討論一些應用領域的例子,以進一步深入了解機器學習的類型和用途。本節為大家介紹什么是機器學習。
什么是機器學習
隨著計算機技術的發展,我們現在已經擁有存儲和處理海量數據以及通過計算機網絡從遠程站點訪問數據的能力。目前大多數的數據存取設備都是數字設備,記錄的數據也很可靠。以一家連鎖超市為例,它擁有遍布全國各地的數百家分店,并且在為數百萬顧客提供數千種商品的零售服務。銷售點的終端設備記錄每筆交易的詳細資料,包括日期、顧客識別碼、購買商品和數量、消費總額等。這是典型的每日幾個G字節的數據。只有分析這些數據,并且將它轉換為可以利用的信息時,這些存儲的數據才能變得有用,例如做預測。
1我們不能確切地知道哪些人比較傾向于購買哪種特定的商品,也不知道應該向喜歡讀海明威作品的人推薦哪位作者。如果我們知道,我們就不需要任何數據分析;我們只管供貨并記錄下編碼就可以了。但是,正因為我們不知道,所以才只能收集數據,并期望從數據中提取這些問題或相似問題的答案。
Glühwein是一種溫熱、有點甜味、加香料的葡萄酒。圣誕節期間,在歐洲很受歡迎。--譯者注我們確信存在某種過程,可以解釋我們所觀測到的數據。盡管我們不清楚數據產生過程(例如顧客行為)的細節,但是,我們知道數據產生不是完全隨機的。人們并不是去超市隨機購買商品。當人們買啤酒時,也會買薯片;夏天買冰淇淋,而冬天則為Glühwein?買香料。數據中存在確定的模式。
我們也許不能夠完全識別該過程,但是我們相信,我們能夠構造一個好的并且有用的近似(good and useful approximation)。盡管這樣的近似還不可能解釋一切,但其仍然可以解釋數據的某些部分。我們相信,盡管識別全部過程也許是不可能的,但是我們仍然能夠發現某些模式或規律。這正是機器學習的定位。這些模式可以幫助我們理解該過程,或者我們可以使用這些模式進行預測:假定將來,至少是不遠的將來,情況不會與收集樣本數據時有很大的不同,則未來的預測也將有望是正確的。
機器學習方法在大型數據庫中的應用稱為數據挖掘(data mining)。類似的情況如大量的金屬氧化物以及原料從礦山中開采出來,處理后產生少量非常珍貴的物質。同樣地,在數據挖掘中,需要處理大量的數據以構建簡單有用的模型,例如具有高精度的預測模型。數據挖掘的應用領域非常廣泛:除零售業以外,在金融業,銀行分析他們的歷史數據,構建用于信用分析、詐騙檢測、股票市場等方面的應用模型;在制造業,學習模型可以用于優化、控制以及故障檢測等;在醫學領域,學習程序可以用于醫療診斷等;在電信領域,通話模式的分析可用于網絡優化和提高服務質量;在科學研究領域,比如物理學、天文學以及生物學的大量數據只有用計算機才可能得到足夠快的分析。萬維網(World Wide Web)是巨大的,并且在不斷地增長,因此在萬維網上檢索相關信息不可能依靠人工完成。
然而,機器學習不僅僅是數據庫方面的問題,它也是人工智能的組成部分。為了智能化,處于變化環境中的系統必須具備學習的能力。如果系統能夠學習并且適應這些變化,那么系統的設計者就不必預見所有的情況,并為它們提供解決方案了。
機器學習還可以幫助我們解決視覺、語音識別以及機器人方面的許多問題。以人臉識別問題為例:我們做這件事毫不費力;即使姿勢、光線、發型等不同,我們每天還是可以通過看真實的面孔或其照片來認出我們的家人和朋友。但是我們做這件事是下意識的,而且無法解釋我們是如何做的。因為我們不能夠解釋我們所具備的這種技能,我們也就不可能編寫相應的計算機程序。但是我們知道,臉部圖像并非只是像素點的隨機組合;人臉是有結構的、對稱的。臉上有眼睛、鼻子和嘴巴,并且它們都位于臉的特定部位。每個人的臉都有各自的眼睛、鼻子和嘴巴的特定組合模式。通過分析一個人臉部圖像的多個樣本,學習程序可以捕捉到那個人特有的模式,然后在所給的圖像中檢測這種模式,從而進行辨認。這就是模式識別(pattern recognition)的一個例子。
機器學習使用實例數據或過去的經驗訓練計算機,以優化某種性能標準。我們有依賴于某些參數的模型,而學習就是執行計算機程序,利用訓練數據或以往經驗來優化該模型的參數的。模型可以是預測性的(predictive),用于未來的預測,或者是描述性的(descriptive),用于從數據中獲取知識,也可以二者兼備。
機器學習在構建數學模型時利用了統計學理論,因為其核心任務就是從樣本中推理。計算機科學的角色是雙重的:第一,在訓練時,我們需要求解優化問題以及存儲和處理通常所面對的海量數據的高效算法。第二,一旦學習得到了一個模型,它的表示和用于推理的算法解也必須是高效的。在特定的應用中,學習或推理算法的效率,即它的空間復雜度和時間復雜度,可能與其預測精確度同樣重要。
-
數據庫
+關注
關注
7文章
3794瀏覽量
64362 -
人臉識別
+關注
關注
76文章
4011瀏覽量
81860 -
機器學習
+關注
關注
66文章
8406瀏覽量
132567
發布評論請先 登錄
相關推薦
評論