機(jī)器學(xué)習(xí)的一些測(cè)試問(wèn)題及解答
大小:0.6 MB 人氣: 2017-10-09 需要積分:1
推薦 + 挑錯(cuò) + 收藏(0) + 用戶評(píng)論(0)
標(biāo)簽:機(jī)器學(xué)習(xí)(129859)
目前機(jī)器學(xué)習(xí)是最搶手的技能之一。如果你是一名數(shù)據(jù)科學(xué)家,那就需要對(duì)機(jī)器學(xué)習(xí)很擅長(zhǎng),而不只是三腳貓的功夫。作為 DataFest 2017 的一部分,Analytics Vidhya 組織了不同的技能測(cè)試,從而數(shù)據(jù)科學(xué)家可以就這些關(guān)鍵技能進(jìn)行自我評(píng)估。測(cè)試包括機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、時(shí)序問(wèn)題以及概率。這篇文章將給出機(jī)器學(xué)習(xí)測(cè)試問(wèn)題的解答。在本文的機(jī)器學(xué)習(xí)測(cè)試中,超過(guò) 1350 人注冊(cè)參與其中。該測(cè)試可以檢驗(yàn)?zāi)銓?duì)機(jī)器學(xué)習(xí)概念知識(shí)的掌握,并為你步入業(yè)界做準(zhǔn)備。如果錯(cuò)過(guò)了實(shí)時(shí)測(cè)試,沒(méi)有關(guān)系,你可以回顧本文以自我提升。機(jī)器之心對(duì)這些試題及解答進(jìn)行了編譯介紹。你能答對(duì)多少題呢?不妨與我們分享。
目前已有 210 人參與了這些試題的測(cè)試,最高分為 36。平均得分為 19.36,中位數(shù)為 21,最常出現(xiàn)的得分(Mode Score)為 27。
測(cè)試題與解答
假定特征 F1 可以取特定值:A、B、C、D、E 和 F,其代表著學(xué)生在大學(xué)所獲得的評(píng)分。現(xiàn)在請(qǐng)答題:
1.在下面說(shuō)法中哪一項(xiàng)是正確的?
A. 特征 F1 是名義變量(nominal variable)的一個(gè)實(shí)例。
B. 特征 F1 是有序變量(ordinal variable)的一個(gè)實(shí)例。
C. 該特征并不屬于以上的分類(lèi)。
D. 以上說(shuō)法都正確。
答案為(B):有序變量是一種在類(lèi)別上有某些順序的變量。例如,等級(jí) A 就要比等級(jí) B 所代表的成績(jī)好一些。
2.下面哪個(gè)選項(xiàng)中哪一項(xiàng)屬于確定性算法?
A.PCA
B.K-Means
C. 以上都不是
答案為(A):確定性算法表明在不同運(yùn)行中,算法輸出并不會(huì)改變。如果我們?cè)僖淮芜\(yùn)行算法,PCA 會(huì)得出相同的結(jié)果,而 k-means 不會(huì)。
3.兩個(gè)變量的 Pearson 相關(guān)性系數(shù)為零,但這兩個(gè)變量的值同樣可以相關(guān)。
A. 正確
B. 錯(cuò)誤
答案為(A):Y=X2,請(qǐng)注意他們不僅僅相關(guān)聯(lián),同時(shí)一個(gè)還是另一個(gè)的函數(shù)。盡管如此,他們的相關(guān)性系數(shù)還是為 0,因?yàn)檫@兩個(gè)變量的關(guān)聯(lián)是正交的,而相關(guān)性系數(shù)就是檢測(cè)這種關(guān)聯(lián)。
4.下面哪一項(xiàng)對(duì)梯度下降(GD)和隨機(jī)梯度下降(SGD)的描述是正確的?
在 GD 和 SGD 中,每一次迭代中都是更新一組參數(shù)以最小化損失函數(shù)。
在 SGD 中,每一次迭代都需要遍歷訓(xùn)練集中的所有樣本以更新一次參數(shù)。
在 GD 中,每一次迭代需要使用整個(gè)訓(xùn)練集或子訓(xùn)練集的數(shù)據(jù)更新一個(gè)參數(shù)。
A. 只有 1
B. 只有 2
C. 只有 3
D.1 和 2
E.2 和 3
F. 都正確
答案為(A):在隨機(jī)梯度下降中,每一次迭代選擇的批量是由數(shù)據(jù)集中的隨機(jī)樣本所組成,但在梯度下降,每一次迭代需要使用整個(gè)訓(xùn)練數(shù)據(jù)集。
5.下面哪個(gè)/些超參數(shù)的增加可能會(huì)造成隨機(jī)森林?jǐn)?shù)據(jù)過(guò)擬合?
樹(shù)的數(shù)量
樹(shù)的深度
學(xué)習(xí)速率
A. 只有 1
B. 只有 2
C. 只有 3
D.1 和 2
E.2 和 3
F. 都正確
答案為(B):通常情況下,我們?cè)黾訕?shù)的深度有可能會(huì)造成模型過(guò)擬合。學(xué)習(xí)速率在隨機(jī)森林中并不是超參數(shù)。增加樹(shù)的數(shù)量可能會(huì)造成欠擬合。
6.假如你在「Analytics Vidhya」工作,并且想開(kāi)發(fā)一個(gè)能預(yù)測(cè)文章評(píng)論次數(shù)的機(jī)器學(xué)習(xí)算法。你的分析的特征是基于如作者姓名、作者在 Analytics Vidhya 寫(xiě)過(guò)的總文章數(shù)量等等。那么在這樣一個(gè)算法中,你會(huì)選擇哪一個(gè)評(píng)價(jià)度量標(biāo)準(zhǔn)?
(1)均方誤差、(2)精確度、(3)F1 分?jǐn)?shù)
A. 只有 1
B. 只有 2
C. 只有 3
D. 1 和 3
E. 2 和 3
F. 1 和 2
答案為(A):你可以把文章評(píng)論數(shù)看作連續(xù)型的目標(biāo)變量,因此該問(wèn)題可以劃分到回歸問(wèn)題。因此均方誤差就可以作為損失函數(shù)的度量標(biāo)準(zhǔn)。
7.給定以下三個(gè)圖表(從上往下依次為1,2,3)。 哪一個(gè)選項(xiàng)對(duì)以這三個(gè)圖表的描述是正確的?
A. 1 是 tanh,2 是 ReLU,3 是 SIGMOID 激活函數(shù)
B. 1 是 SIGMOID,2 是 ReLU,3 是 tanh 激活函數(shù)
C. 1 是 ReLU,2 是 tanh,3 是 SIGMOID 激活函數(shù)
D. 1 是 tanh,2 是 SIGMOID,3 是 ReLU 激活函數(shù)
答案為(D):因?yàn)?SIGMOID 函數(shù)的取值范圍是 [0,1],tanh 函數(shù)的取值范圍是 [-1,1],RELU 函數(shù)的取值范圍是 [0,infinity]。
8.以下是目標(biāo)變量在訓(xùn)練集上的 8 個(gè)實(shí)際值 [0,0,0,1,1,1,1,1],目標(biāo)變量的熵是所少?
A. -(5/8 log(5/8) + 3/8 log(3/8))
B. 5/8 log(5/8) + 3/8 log(3/8)
C. 3/8 log(5/8) + 5/8 log(3/8)
D. 5/8 log(3/8) – 3/8 log(5/8)
答案為(A)
9.假定你正在處理類(lèi)屬特征,并且沒(méi)有查看分類(lèi)變量在測(cè)試集中的分布。現(xiàn)在你想將 one hot encoding(OHE)應(yīng)用到類(lèi)屬特征中。那么在訓(xùn)練集中將 OHE 應(yīng)用到分類(lèi)變量可能要面臨的困難是什么?
A. 分類(lèi)變量所有的類(lèi)別沒(méi)有全部出現(xiàn)在測(cè)試集中
B. 類(lèi)別的頻率分布在訓(xùn)練集和測(cè)試集是不同的
C. 訓(xùn)練集和測(cè)試集通常會(huì)有一樣的分布
D. A 和 B 都正確
E. 以上都不正確
答案為(D):A、B 項(xiàng)都正確,如果類(lèi)別在測(cè)試集中出現(xiàn),但沒(méi)有在訓(xùn)練集中出現(xiàn),OHE 將會(huì)不能進(jìn)行編碼類(lèi)別,這將是應(yīng)用 OHE 的主要困難。選項(xiàng) B 同樣也是正確的,在應(yīng)用 OHE 時(shí),如果訓(xùn)練集和測(cè)試集的頻率分布不相同,我們需要多加小心。
10.Skip gram 模型是在 Word2vec 算法中為詞嵌入而設(shè)計(jì)的最優(yōu)模型。以下哪一項(xiàng)描繪了 Skip gram 模型?
A. A
B. B
C. A 和 B
D. 以上都不是
答案為(B):這兩個(gè)模型都是在 Word2vec 算法中所使用的。模型 A 代表著 CBOW,模型 B 代表著 Skip gram。
11.假定你在神經(jīng)網(wǎng)絡(luò)中的隱藏層中使用激活函數(shù) X。在特定神經(jīng)元給定任意輸入,你會(huì)得到輸出「-0.0001」。X 可能是以下哪一個(gè)激活函數(shù)?
A. ReLU
B. tanh
C. SIGMOID
D. 以上都不是
答案為(B):該激活函數(shù)可能是 tanh,因?yàn)樵摵瘮?shù)的取值范圍是 (-1,1)。
12.對(duì)數(shù)損失度量函數(shù)可以取負(fù)值。
A. 對(duì)
B. 錯(cuò)
答案為(B):對(duì)數(shù)損失函數(shù)不可能取負(fù)值。
13.下面哪個(gè)/些對(duì)「類(lèi)型 1(Type-1)」和「類(lèi)型 2(Type-2)」錯(cuò)誤的描述是正確的?
類(lèi)型 1 通常稱(chēng)之為假正類(lèi),類(lèi)型 2 通常稱(chēng)之為假負(fù)類(lèi)。
類(lèi)型 2 通常稱(chēng)之為假正類(lèi),類(lèi)型 1 通常稱(chēng)之為假負(fù)類(lèi)。
類(lèi)型 1 錯(cuò)誤通常在其是正確的情況下拒絕假設(shè)而出現(xiàn)。
A. 只有 1
B. 只有 2
C. 只有 3
D. 1 和 2
E. 1 和 3
F. 3 和 2
答案為(E):在統(tǒng)計(jì)學(xué)假設(shè)測(cè)試中,I 類(lèi)錯(cuò)誤即錯(cuò)誤地拒絕了正確的假設(shè)(即假正類(lèi)錯(cuò)誤),II 類(lèi)錯(cuò)誤通常指錯(cuò)誤地接受了錯(cuò)誤的假設(shè)(即假負(fù)類(lèi)錯(cuò)誤)。
14.下面在 NLP 項(xiàng)目中哪些是文本預(yù)處理的重要步驟?
詞干提取(Stemming)
移去停止詞(Stop word removal)
目標(biāo)標(biāo)準(zhǔn)化(Object Standardization)
A. 1 和 2
B. 1 和 3
C. 2 和 3
D. 1、2 和 3
答案為(D):詞干提取是剝離后綴(「ing」,「ly」,「es」,「s」等)的基于規(guī)則的過(guò)程。停止詞是與語(yǔ)境不相關(guān)的詞(is/am/are)。目標(biāo)標(biāo)準(zhǔn)化也是一種文本預(yù)處理的優(yōu)良方法。
15.假定你想將高維數(shù)據(jù)映射到低維數(shù)據(jù)中,那么最出名的降維算法是 PAC 和 t-SNE。現(xiàn)在你將這兩個(gè)算法分別應(yīng)用到數(shù)據(jù)「X」上,并得到數(shù)據(jù)集「X_projected_PCA」,「X_projected_tSNE」。下面哪一項(xiàng)對(duì)「X_projected_PCA」和「X_projected_tSNE」的描述是正確的?
A. X_projected_PCA 在最近鄰空間能得到解釋
B. X_projected_tSNE 在最近鄰空間能得到解釋
C. 兩個(gè)都在最近鄰空間能得到解釋
D. 兩個(gè)都不能在最近鄰空間得到解釋
答案為(B):t-SNE 算法考慮最近鄰點(diǎn)而減少數(shù)據(jù)維度。所以在使用 t-SNE 之后,所降的維可以在最近鄰空間得到解釋。但 PCA 不能。
16-17 題的背景:給定下面兩個(gè)特征的三個(gè)散點(diǎn)圖(從左到右依次為圖 1、2、3)。
16.在上面的圖像中,哪一個(gè)是多元共線(multi-collinear)特征?
A. 圖 1 中的特征
B. 圖 2 中的特征
C. 圖 3 中的特征
D. 圖 1、2 中的特征
E. 圖 2、3 中的特征
F. 圖 1、3 中的特征
答案為(D):在圖 1 中,特征之間有高度正相關(guān),圖 2 中特征有高度負(fù)相關(guān)。所以這兩個(gè)圖的特征是多元共線特征。
17.在先前問(wèn)題中,假定你已經(jīng)鑒別了多元共線特征。那么下一步你可能的操作是什么?
移除兩個(gè)共線變量
不移除兩個(gè)變量,而是移除一個(gè)
移除相關(guān)變量可能會(huì)導(dǎo)致信息損失。為了保留這些變量,我們可以使用帶罰項(xiàng)的回歸模型(如 ridge 或 lasso regression)。
A. 只有 1
B. 只有 2
C. 只有 3
D. 1 或 3
E. 1 或 2
答案為(E):因?yàn)橐瞥齼蓚€(gè)變量會(huì)損失一切信息,所以我們只能移除一個(gè)特征,或者也可以使用正則化算法(如 L1 和 L2)。
18.給線性回歸模型添加一個(gè)不重要的特征可能會(huì)造成:
增加 R-square
減少 R-square
A. 只有 1 是對(duì)的
B. 只有 2 是對(duì)的
C. 1 或 2 是對(duì)的
D. 都不對(duì)
答案為(A):在給特征空間添加了一個(gè)特征后,不論特征是重要還是不重要,R-square 通常會(huì)增加。
19.假設(shè)給定三個(gè)變量 X,Y,Z。(X, Y)、(Y, Z) 和 (X, Z) 的 Pearson 相關(guān)性系數(shù)分別為 C1、C2 和 C3。現(xiàn)在 X 的所有值加 2(即 X+2),Y 的全部值減 2(即 Y-2),Z 保持不變。那么運(yùn)算之后的 (X, Y)、(Y, Z) 和 (X, Z) 相關(guān)性系數(shù)分別為 D1、D2 和 D3。現(xiàn)在試問(wèn) D1、D2、D3 和 C1、C2、C3 之間的關(guān)系是什么?
A. D1= C1, D2 《 C2, D3 》 C3
B. D1 = C1, D2 》 C2, D3 》 C3
C. D1 = C1, D2 》 C2, D3 《 C3
D. D1 = C1, D2 《 C2, D3 《 C3
E. D1 = C1, D2 = C2, D3 = C3
F. 無(wú)法確定
答案為(E):特征之間的相關(guān)性系數(shù)不會(huì)因?yàn)樘卣骷踊驕p去一個(gè)數(shù)而改變。
20.假定你現(xiàn)在解決一個(gè)有著非常不平衡類(lèi)別的分類(lèi)問(wèn)題,即主要類(lèi)別占據(jù)了訓(xùn)練數(shù)據(jù)的 99%。現(xiàn)在你的模型在測(cè)試集上表現(xiàn)為 99% 的準(zhǔn)確度。那么下面哪一項(xiàng)表述是正確的?
準(zhǔn)確度并不適合于衡量不平衡類(lèi)別問(wèn)題
準(zhǔn)確度適合于衡量不平衡類(lèi)別問(wèn)題
精確率和召回率適合于衡量不平衡類(lèi)別問(wèn)題
精確率和召回率不適合于衡量不平衡類(lèi)別問(wèn)題
A. 1 and 3
B. 1 and 4
C. 2 and 3
D. 2 and 4
答案為(A):參考問(wèn)題 4 的解答。
21.在集成學(xué)習(xí)中,模型集成了弱學(xué)習(xí)者的預(yù)測(cè),所以這些模型的集成將比使用單個(gè)模型預(yù)測(cè)效果更好。下面哪個(gè)/些選項(xiàng)對(duì)集成學(xué)習(xí)模型中的弱學(xué)習(xí)者描述正確?
他們經(jīng)常不會(huì)過(guò)擬合
他們通常帶有高偏差,所以其并不能解決復(fù)雜學(xué)習(xí)問(wèn)題
他們通常會(huì)過(guò)擬合
A. 1 和 2
B. 1 和 3
C. 2 和 3
D. 只有 1
E. 只有 2
F. 以上都不對(duì)
答案為(A):弱學(xué)習(xí)者是問(wèn)題的特定部分。所以他們通常不會(huì)過(guò)擬合,這也就意味著弱學(xué)習(xí)者通常擁有低方差和高偏差。
22.下面哪個(gè)/些選項(xiàng)對(duì) K 折交叉驗(yàn)證的描述是正確的
增大 K 將導(dǎo)致交叉驗(yàn)證結(jié)果時(shí)需要更多的時(shí)間
更大的 K 值相比于小 K 值將對(duì)交叉驗(yàn)證結(jié)構(gòu)有更高的信心
如果 K=N,那么其稱(chēng)為留一交叉驗(yàn)證,其中 N 為驗(yàn)證集中的樣本數(shù)量
A. 1 和 2
B. 2 和 3
C. 1 和 3
D. 1、2 和 3
答案為(D):大 K 值意味著對(duì)過(guò)高估計(jì)真實(shí)預(yù)期誤差(訓(xùn)練的折數(shù)將更接近于整個(gè)驗(yàn)證集樣本數(shù))擁有更小的偏差和更多的運(yùn)行時(shí)間(并隨著越來(lái)越接近極限情況:留一交叉驗(yàn)證)。我們同樣在選擇 K 值時(shí)需要考慮 K 折準(zhǔn)確度和方差間的均衡。
23 題至 24 題的背景:交叉驗(yàn)證在機(jī)器學(xué)習(xí)超參數(shù)微調(diào)中是十分重要的步驟。假定你需要為 GBM 通過(guò)選擇 10 個(gè)不同的深度值(該值大于 2)而調(diào)整超參數(shù)「max_depth」,該樹(shù)型模型使用 5 折交叉驗(yàn)證。 4 折訓(xùn)練驗(yàn)證算法(模型 max_depth 為 2)的時(shí)間為 10 秒,在剩下的 1 折中預(yù)測(cè)為 2 秒。
23.哪一項(xiàng)描述擁有 10 個(gè)「max_depth」不同值的 5 折交叉驗(yàn)證整體執(zhí)行時(shí)間是正確的?
A. 少于 100 秒
B. 100-300 秒
C. 300-600 秒
D. 大于等于 600 秒
E. 無(wú)法估計(jì)
答案為(D):因?yàn)樯疃葹?2 的 5 折交叉驗(yàn)證每一次迭代需要訓(xùn)練 10 秒和測(cè)試 2 秒。因此五折驗(yàn)證需要 125 = 60 秒,又因?yàn)槲覀冃枰阉?10 個(gè)深度值,所以算法需要 6010 = 600。
非常好我支持^.^
(0) 0%
不好我反對(duì)
(0) 0%
下載地址
機(jī)器學(xué)習(xí)的一些測(cè)試問(wèn)題及解答下載
相關(guān)電子資料下載
- 如何創(chuàng)建FPGA控制的機(jī)器人手臂 49
- 機(jī)器學(xué)習(xí)需要掌握的九種工具盤(pán)點(diǎn) 16
- Hugging Face被限制訪問(wèn) 404
- 《人工智能在指揮和控制系統(tǒng)中的決策支持》 133
- 生成式人工智能和機(jī)器學(xué)習(xí)正在這9個(gè)學(xué)科中打造未來(lái) 216
- 智慧礦山AI算法帶你解決皮帶運(yùn)行難題! 51
- 人工智能領(lǐng)域存在第一性原理嗎? 53
- 英特爾啟動(dòng)首個(gè)AI PC加速計(jì)劃,目標(biāo)2025年前為超100萬(wàn)臺(tái)PC提供AI特性 223
- PLC就是邏輯控制嗎?PLC的網(wǎng)絡(luò)通信怎么樣? 51
- 機(jī)器學(xué)習(xí)常用的5種采樣方法盤(pán)點(diǎn) 45