微軟研究院出品《數(shù)據(jù)科學(xué)基礎(chǔ)》,放眼未來40年,PDF下載已開放。
計(jì)算機(jī)科學(xué)作為一門科學(xué)始于20世紀(jì)60年代。計(jì)算機(jī)科學(xué)的重點(diǎn)是編程語言、編譯器、操作系統(tǒng)以及為這些領(lǐng)域提供支撐的數(shù)學(xué)理論。理論計(jì)算機(jī)科學(xué)課程涵蓋有限自動機(jī)、正則表達(dá)式、無語境式語言和可計(jì)算性等。
自上世紀(jì)70年代開始,算法研究逐漸成為理論計(jì)算機(jī)科學(xué)的重要組成部分。 算法研究的重要目的是提升計(jì)算機(jī)的有用性。到了今天,計(jì)算機(jī)科學(xué)的發(fā)展正在發(fā)生根本性的變化,研究人員注意力和研究重點(diǎn)更多地放在了應(yīng)用上。
產(chǎn)生這一變化的原因有很多,其中計(jì)算和通信技術(shù)的融合在這個(gè)過程中發(fā)揮了重要作用。同時(shí),在自然科學(xué)、商業(yè)和其他領(lǐng)域,收集和存儲數(shù)據(jù)的能力不斷上升,這對數(shù)據(jù)的理解以及如何在現(xiàn)代環(huán)境中進(jìn)行數(shù)據(jù)處理提出了更高的要求。網(wǎng)絡(luò)和社交網(wǎng)絡(luò)作在日常生活中核心地位的提升,也為理論計(jì)算機(jī)科學(xué)理論的發(fā)展提供了新的機(jī)遇和挑戰(zhàn)。
雖然計(jì)算機(jī)科學(xué)的傳統(tǒng)領(lǐng)域仍然非常重要,但未來將有越來越多的研究人員將使用計(jì)算機(jī)來理解和提取應(yīng)用程序中出現(xiàn)的大量數(shù)據(jù)中的可用信息??紤]到這一點(diǎn),我們寫了這本書,希望本書可以涵蓋我們期望在未來40年內(nèi)有用的理論,本書與過去同類數(shù)據(jù)的一個(gè)主要變化是之一對概率、統(tǒng)計(jì)和數(shù)值方法更加重視。
目錄及各章內(nèi)容簡介
本書更早的版本已用于本科和研究生課程教學(xué)使用。本科課程所需的背景材料在附錄部分給出。包括信息處理,搜索和機(jī)器學(xué)習(xí)等各領(lǐng)域中的現(xiàn)代數(shù)據(jù)通常以具有大量組件的向量方式表示。向量表示不僅僅是用于存儲記錄的許多字段的簿記設(shè)備。實(shí)際上,向量的兩個(gè)顯著方面:幾何(長度,點(diǎn)積,正交等)和線性代數(shù)(相關(guān)性,秩,奇異值等)結(jié)果是相關(guān)的。
第2章和第3章分別奠定了幾何和線性代數(shù)的基礎(chǔ)。更具體地說,就是當(dāng)涉及到高維度時(shí),我們對二維或三維空間的直覺可能出乎意料地出現(xiàn)偏差。
第2章闡述了理解這類偏差所需的基礎(chǔ)知識。本章以及整本書的重點(diǎn)是多關(guān)注知識和思想以及數(shù)學(xué)基礎(chǔ),而不是特定的應(yīng)用。
第3章重點(diǎn)介紹奇異值分解(SVD),這是處理矩陣數(shù)據(jù)的核心工具。本章給出了SVD的數(shù)學(xué)和算法的原理描述。奇異值分解的應(yīng)用包括主成分分析,這是目前已經(jīng)廣泛使用的技術(shù),以及對概率密度、離散優(yōu)化等與統(tǒng)計(jì)學(xué)結(jié)合后的現(xiàn)代應(yīng)用,對這類應(yīng)用的描述相對詳細(xì)。使用確定性方法探索web或大型系統(tǒng)的配置空間之類的大規(guī)模結(jié)構(gòu)的成本可能會非常高。隨機(jī)游走(又稱馬爾可夫鏈)經(jīng)常是效率更高的處理方式。這種游走的固定分布對網(wǎng)絡(luò)搜索物理系統(tǒng)模擬等應(yīng)用非常重要。
隨機(jī)游走的基礎(chǔ)數(shù)學(xué)理論以及與電氣網(wǎng)絡(luò)的連接是第4章的核心內(nèi)容。計(jì)算機(jī)科學(xué)在過去二十年中的一個(gè)巨大進(jìn)步是,一些過去只能用在特定領(lǐng)域的方法,現(xiàn)在已經(jīng)可以成功解決來自多個(gè)不同領(lǐng)域的問題。機(jī)器學(xué)習(xí)就是一個(gè)突出的例子。
第5章描述了機(jī)器學(xué)習(xí)的基礎(chǔ),示例算法都可以用于優(yōu)化給定的訓(xùn)練樣例,并能夠理解并預(yù)見到這種算法優(yōu)化能夠在新的未知數(shù)據(jù)上獲得良好性能。這其中涉及一些重要的量度,如Vapnik-Chervonenkis維度,以及一些重要的算法,如感知器算法,隨機(jī)梯度下降,強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí),以及重要的概念,如正則化和過擬合。算法領(lǐng)域傳統(tǒng)上假設(shè)問題的輸入數(shù)據(jù)會呈現(xiàn)在隨機(jī)存取存儲器中,算法可以重復(fù)訪問。而對于涉及大量數(shù)據(jù)的問題,這種方式是不可行的。在這種情況下,采樣起著至關(guān)重要的作用,而且必須進(jìn)行動態(tài)采樣。
第6章主要探討如何有效地繪制高質(zhì)量樣本,以及如何使用這些樣本估計(jì)統(tǒng)計(jì)和線性代數(shù)變量。盡管第5章內(nèi)容側(cè)重監(jiān)督學(xué)習(xí),但是從標(biāo)記訓(xùn)練數(shù)據(jù)中學(xué)習(xí),無監(jiān)督學(xué)習(xí)或從未標(biāo)記數(shù)據(jù)中學(xué)習(xí)的問題同樣重要。無監(jiān)督學(xué)習(xí)的中心問題之一是聚類,我們將在第7章中討論。。
在討論了一些基本聚類方法(如k-means算法)之后,第7章重點(diǎn)介紹理解這些算法的現(xiàn)代發(fā)展過程,以及用于分析不同類型聚類問題的新算法和通用框架。對大型架構(gòu)(如網(wǎng)絡(luò)和社交網(wǎng)絡(luò))的理解的核心,是構(gòu)建出能夠獲取這些架構(gòu)的基本屬性的有效模型。最簡單的模型是由Erd¨os和Renyi制定的隨機(jī)圖,我們在第8章進(jìn)行詳細(xì)介紹。
第9章重點(diǎn)介紹從數(shù)據(jù)中尋求合理性的一些線性代數(shù)問題,尤其是主題建模和非負(fù)矩陣分解。除了討論眾所周知的模型之外,本章還描述了一些關(guān)于模型和算法的當(dāng)前研究動態(tài)。
第10章討論了排名和社會選擇以及壓縮感知等關(guān)于稀疏表示問題。此外還簡要討論了線性規(guī)劃和半定規(guī)劃。
微波是用于在一系列應(yīng)用中表示信號的重要方法,本書第11章討論微波一些基本數(shù)學(xué)特性。附錄中給出了一系列背景材料。
-
微軟
+關(guān)注
關(guān)注
4文章
6610瀏覽量
104160 -
數(shù)據(jù)科學(xué)
+關(guān)注
關(guān)注
0文章
165瀏覽量
10078
原文標(biāo)題:微軟研究院出品《數(shù)據(jù)科學(xué)基礎(chǔ)》,放眼未來40年(PDF下載)
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論