色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

您好,歡迎來(lái)電子發(fā)燒友網(wǎng)! ,新用戶?[免費(fèi)注冊(cè)]

您的位置:電子發(fā)燒友網(wǎng)>源碼下載>數(shù)值算法/人工智能>

機(jī)器學(xué)習(xí)的一些測(cè)試問(wèn)題及解答

大小:0.6 MB 人氣: 2017-10-09 需要積分:1
 目前機(jī)器學(xué)習(xí)是最搶手的技能之一。如果你是一名數(shù)據(jù)科學(xué)家,那就需要對(duì)機(jī)器學(xué)習(xí)很擅長(zhǎng),而不只是三腳貓的功夫。作為 DataFest 2017 的一部分,Analytics Vidhya 組織了不同的技能測(cè)試,從而數(shù)據(jù)科學(xué)家可以就這些關(guān)鍵技能進(jìn)行自我評(píng)估。測(cè)試包括機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、時(shí)序問(wèn)題以及概率。這篇文章將給出機(jī)器學(xué)習(xí)測(cè)試問(wèn)題的解答。
  在本文的機(jī)器學(xué)習(xí)測(cè)試中,超過(guò) 1350 人注冊(cè)參與其中。該測(cè)試可以檢驗(yàn)?zāi)銓?duì)機(jī)器學(xué)習(xí)概念知識(shí)的掌握,并為你步入業(yè)界做準(zhǔn)備。如果錯(cuò)過(guò)了實(shí)時(shí)測(cè)試,沒(méi)有關(guān)系,你可以回顧本文以自我提升。機(jī)器之心對(duì)這些試題及解答進(jìn)行了編譯介紹。你能答對(duì)多少題呢?不妨與我們分享。
  機(jī)器學(xué)習(xí)的一些測(cè)試
  目前已有 210 人參與了這些試題的測(cè)試,最高分為 36。平均得分為 19.36,中位數(shù)為 21,最常出現(xiàn)的得分(Mode Score)為 27。
  測(cè)試題與解答
  假定特征 F1 可以取特定值:A、B、C、D、E 和 F,其代表著學(xué)生在大學(xué)所獲得的評(píng)分。現(xiàn)在請(qǐng)答題:
  1.在下面說(shuō)法中哪一項(xiàng)是正確的?
  A. 特征 F1 是名義變量(nominal variable)的一個(gè)實(shí)例。
  B. 特征 F1 是有序變量(ordinal variable)的一個(gè)實(shí)例。
  C. 該特征并不屬于以上的分類(lèi)。
  D. 以上說(shuō)法都正確。
  答案為(B):有序變量是一種在類(lèi)別上有某些順序的變量。例如,等級(jí) A 就要比等級(jí) B 所代表的成績(jī)好一些。
  2.下面哪個(gè)選項(xiàng)中哪一項(xiàng)屬于確定性算法
  A.PCA
  B.K-Means
  C. 以上都不是
  答案為(A):確定性算法表明在不同運(yùn)行中,算法輸出并不會(huì)改變。如果我們?cè)僖淮芜\(yùn)行算法,PCA 會(huì)得出相同的結(jié)果,而 k-means 不會(huì)。
  3.兩個(gè)變量的 Pearson 相關(guān)性系數(shù)為零,但這兩個(gè)變量的值同樣可以相關(guān)。
  A. 正確
  B. 錯(cuò)誤
  答案為(A):Y=X2,請(qǐng)注意他們不僅僅相關(guān)聯(lián),同時(shí)一個(gè)還是另一個(gè)的函數(shù)。盡管如此,他們的相關(guān)性系數(shù)還是為 0,因?yàn)檫@兩個(gè)變量的關(guān)聯(lián)是正交的,而相關(guān)性系數(shù)就是檢測(cè)這種關(guān)聯(lián)。
  4.下面哪一項(xiàng)對(duì)梯度下降(GD)和隨機(jī)梯度下降(SGD)的描述是正確的?
  在 GD 和 SGD 中,每一次迭代中都是更新一組參數(shù)以最小化損失函數(shù)。
  在 SGD 中,每一次迭代都需要遍歷訓(xùn)練集中的所有樣本以更新一次參數(shù)。
  在 GD 中,每一次迭代需要使用整個(gè)訓(xùn)練集或子訓(xùn)練集的數(shù)據(jù)更新一個(gè)參數(shù)。
  A. 只有 1
  B. 只有 2
  C. 只有 3
  D.1 和 2
  E.2 和 3
  F. 都正確
  答案為(A):在隨機(jī)梯度下降中,每一次迭代選擇的批量是由數(shù)據(jù)集中的隨機(jī)樣本所組成,但在梯度下降,每一次迭代需要使用整個(gè)訓(xùn)練數(shù)據(jù)集。
  5.下面哪個(gè)/些超參數(shù)的增加可能會(huì)造成隨機(jī)森林?jǐn)?shù)據(jù)過(guò)擬合?
  樹(shù)的數(shù)量
  樹(shù)的深度
  學(xué)習(xí)速率
  A. 只有 1
  B. 只有 2
  C. 只有 3
  D.1 和 2
  E.2 和 3
  F. 都正確
  答案為(B):通常情況下,我們?cè)黾訕?shù)的深度有可能會(huì)造成模型過(guò)擬合。學(xué)習(xí)速率在隨機(jī)森林中并不是超參數(shù)。增加樹(shù)的數(shù)量可能會(huì)造成欠擬合。
  6.假如你在「Analytics Vidhya」工作,并且想開(kāi)發(fā)一個(gè)能預(yù)測(cè)文章評(píng)論次數(shù)的機(jī)器學(xué)習(xí)算法。你的分析的特征是基于如作者姓名、作者在 Analytics Vidhya 寫(xiě)過(guò)的總文章數(shù)量等等。那么在這樣一個(gè)算法中,你會(huì)選擇哪一個(gè)評(píng)價(jià)度量標(biāo)準(zhǔn)?
  (1)均方誤差、(2)精確度、(3)F1 分?jǐn)?shù)
  A. 只有 1
  B. 只有 2
  C. 只有 3
  D. 1 和 3
  E. 2 和 3
  F. 1 和 2
  答案為(A):你可以把文章評(píng)論數(shù)看作連續(xù)型的目標(biāo)變量,因此該問(wèn)題可以劃分到回歸問(wèn)題。因此均方誤差就可以作為損失函數(shù)的度量標(biāo)準(zhǔn)。
  7.給定以下三個(gè)圖表(從上往下依次為1,2,3)。 哪一個(gè)選項(xiàng)對(duì)以這三個(gè)圖表的描述是正確的?
  
  A. 1 是 tanh,2 是 ReLU,3 是 SIGMOID 激活函數(shù)
  B. 1 是 SIGMOID,2 是 ReLU,3 是 tanh 激活函數(shù)
  C. 1 是 ReLU,2 是 tanh,3 是 SIGMOID 激活函數(shù)
  D. 1 是 tanh,2 是 SIGMOID,3 是 ReLU 激活函數(shù)
  答案為(D):因?yàn)?SIGMOID 函數(shù)的取值范圍是 [0,1],tanh 函數(shù)的取值范圍是 [-1,1],RELU 函數(shù)的取值范圍是 [0,infinity]。
  8.以下是目標(biāo)變量在訓(xùn)練集上的 8 個(gè)實(shí)際值 [0,0,0,1,1,1,1,1],目標(biāo)變量的熵是所少?
  A. -(5/8 log(5/8) + 3/8 log(3/8))
  B. 5/8 log(5/8) + 3/8 log(3/8)
  C. 3/8 log(5/8) + 5/8 log(3/8)
  D. 5/8 log(3/8) – 3/8 log(5/8)
  答案為(A)
  9.假定你正在處理類(lèi)屬特征,并且沒(méi)有查看分類(lèi)變量在測(cè)試集中的分布。現(xiàn)在你想將 one hot encoding(OHE)應(yīng)用到類(lèi)屬特征中。那么在訓(xùn)練集中將 OHE 應(yīng)用到分類(lèi)變量可能要面臨的困難是什么?
  A. 分類(lèi)變量所有的類(lèi)別沒(méi)有全部出現(xiàn)在測(cè)試集中
  B. 類(lèi)別的頻率分布在訓(xùn)練集和測(cè)試集是不同的
  C. 訓(xùn)練集和測(cè)試集通常會(huì)有一樣的分布
  D. A 和 B 都正確
  E. 以上都不正確
  答案為(D):A、B 項(xiàng)都正確,如果類(lèi)別在測(cè)試集中出現(xiàn),但沒(méi)有在訓(xùn)練集中出現(xiàn),OHE 將會(huì)不能進(jìn)行編碼類(lèi)別,這將是應(yīng)用 OHE 的主要困難。選項(xiàng) B 同樣也是正確的,在應(yīng)用 OHE 時(shí),如果訓(xùn)練集和測(cè)試集的頻率分布不相同,我們需要多加小心。
  10.Skip gram 模型是在 Word2vec 算法中為詞嵌入而設(shè)計(jì)的最優(yōu)模型。以下哪一項(xiàng)描繪了 Skip gram 模型?
  
  A. A
  B. B
  C. A 和 B
  D. 以上都不是
  答案為(B):這兩個(gè)模型都是在 Word2vec 算法中所使用的。模型 A 代表著 CBOW,模型 B 代表著 Skip gram。
  11.假定你在神經(jīng)網(wǎng)絡(luò)中的隱藏層中使用激活函數(shù) X。在特定神經(jīng)元給定任意輸入,你會(huì)得到輸出「-0.0001」。X 可能是以下哪一個(gè)激活函數(shù)?
  A. ReLU
  B. tanh
  C. SIGMOID
  D. 以上都不是
  答案為(B):該激活函數(shù)可能是 tanh,因?yàn)樵摵瘮?shù)的取值范圍是 (-1,1)。
  12.對(duì)數(shù)損失度量函數(shù)可以取負(fù)值。
  A. 對(duì)
  B. 錯(cuò)
  答案為(B):對(duì)數(shù)損失函數(shù)不可能取負(fù)值。
  13.下面哪個(gè)/些對(duì)「類(lèi)型 1(Type-1)」和「類(lèi)型 2(Type-2)」錯(cuò)誤的描述是正確的?
  類(lèi)型 1 通常稱(chēng)之為假正類(lèi),類(lèi)型 2 通常稱(chēng)之為假負(fù)類(lèi)。
  類(lèi)型 2 通常稱(chēng)之為假正類(lèi),類(lèi)型 1 通常稱(chēng)之為假負(fù)類(lèi)。
  類(lèi)型 1 錯(cuò)誤通常在其是正確的情況下拒絕假設(shè)而出現(xiàn)。
  A. 只有 1
  B. 只有 2
  C. 只有 3
  D. 1 和 2
  E. 1 和 3
  F. 3 和 2
  答案為(E):在統(tǒng)計(jì)學(xué)假設(shè)測(cè)試中,I 類(lèi)錯(cuò)誤即錯(cuò)誤地拒絕了正確的假設(shè)(即假正類(lèi)錯(cuò)誤),II 類(lèi)錯(cuò)誤通常指錯(cuò)誤地接受了錯(cuò)誤的假設(shè)(即假負(fù)類(lèi)錯(cuò)誤)。
  14.下面在 NLP 項(xiàng)目中哪些是文本預(yù)處理的重要步驟?
  詞干提取(Stemming)
  移去停止詞(Stop word removal)
  目標(biāo)標(biāo)準(zhǔn)化(Object Standardization)
  A. 1 和 2
  B. 1 和 3
  C. 2 和 3
  D. 1、2 和 3
  答案為(D):詞干提取是剝離后綴(「ing」,「ly」,「es」,「s」等)的基于規(guī)則的過(guò)程。停止詞是與語(yǔ)境不相關(guān)的詞(is/am/are)。目標(biāo)標(biāo)準(zhǔn)化也是一種文本預(yù)處理的優(yōu)良方法。
  15.假定你想將高維數(shù)據(jù)映射到低維數(shù)據(jù)中,那么最出名的降維算法是 PAC 和 t-SNE。現(xiàn)在你將這兩個(gè)算法分別應(yīng)用到數(shù)據(jù)「X」上,并得到數(shù)據(jù)集「X_projected_PCA」,「X_projected_tSNE」。下面哪一項(xiàng)對(duì)「X_projected_PCA」和「X_projected_tSNE」的描述是正確的?
  A. X_projected_PCA 在最近鄰空間能得到解釋
  B. X_projected_tSNE 在最近鄰空間能得到解釋
  C. 兩個(gè)都在最近鄰空間能得到解釋
  D. 兩個(gè)都不能在最近鄰空間得到解釋
  答案為(B):t-SNE 算法考慮最近鄰點(diǎn)而減少數(shù)據(jù)維度。所以在使用 t-SNE 之后,所降的維可以在最近鄰空間得到解釋。但 PCA 不能。
  16-17 題的背景:給定下面兩個(gè)特征的三個(gè)散點(diǎn)圖(從左到右依次為圖 1、2、3)。
  
  16.在上面的圖像中,哪一個(gè)是多元共線(multi-collinear)特征?
  A. 圖 1 中的特征
  B. 圖 2 中的特征
  C. 圖 3 中的特征
  D. 圖 1、2 中的特征
  E. 圖 2、3 中的特征
  F. 圖 1、3 中的特征
  答案為(D):在圖 1 中,特征之間有高度正相關(guān),圖 2 中特征有高度負(fù)相關(guān)。所以這兩個(gè)圖的特征是多元共線特征。
  17.在先前問(wèn)題中,假定你已經(jīng)鑒別了多元共線特征。那么下一步你可能的操作是什么?
  移除兩個(gè)共線變量
  不移除兩個(gè)變量,而是移除一個(gè)
  移除相關(guān)變量可能會(huì)導(dǎo)致信息損失。為了保留這些變量,我們可以使用帶罰項(xiàng)的回歸模型(如 ridge 或 lasso regression)。
  A. 只有 1
  B. 只有 2
  C. 只有 3
  D. 1 或 3
  E. 1 或 2
  答案為(E):因?yàn)橐瞥齼蓚€(gè)變量會(huì)損失一切信息,所以我們只能移除一個(gè)特征,或者也可以使用正則化算法(如 L1 和 L2)。
  18.給線性回歸模型添加一個(gè)不重要的特征可能會(huì)造成:
  增加 R-square
  減少 R-square
  A. 只有 1 是對(duì)的
  B. 只有 2 是對(duì)的
  C. 1 或 2 是對(duì)的
  D. 都不對(duì)
  答案為(A):在給特征空間添加了一個(gè)特征后,不論特征是重要還是不重要,R-square 通常會(huì)增加。
  19.假設(shè)給定三個(gè)變量 X,Y,Z。(X, Y)、(Y, Z) 和 (X, Z) 的 Pearson 相關(guān)性系數(shù)分別為 C1、C2 和 C3。現(xiàn)在 X 的所有值加 2(即 X+2),Y 的全部值減 2(即 Y-2),Z 保持不變。那么運(yùn)算之后的 (X, Y)、(Y, Z) 和 (X, Z) 相關(guān)性系數(shù)分別為 D1、D2 和 D3。現(xiàn)在試問(wèn) D1、D2、D3 和 C1、C2、C3 之間的關(guān)系是什么?
  A. D1= C1, D2 《 C2, D3 》 C3
  B. D1 = C1, D2 》 C2, D3 》 C3
  C. D1 = C1, D2 》 C2, D3 《 C3
  D. D1 = C1, D2 《 C2, D3 《 C3
  E. D1 = C1, D2 = C2, D3 = C3
  F. 無(wú)法確定
  答案為(E):特征之間的相關(guān)性系數(shù)不會(huì)因?yàn)樘卣骷踊驕p去一個(gè)數(shù)而改變。
  20.假定你現(xiàn)在解決一個(gè)有著非常不平衡類(lèi)別的分類(lèi)問(wèn)題,即主要類(lèi)別占據(jù)了訓(xùn)練數(shù)據(jù)的 99%。現(xiàn)在你的模型在測(cè)試集上表現(xiàn)為 99% 的準(zhǔn)確度。那么下面哪一項(xiàng)表述是正確的?
  準(zhǔn)確度并不適合于衡量不平衡類(lèi)別問(wèn)題
  準(zhǔn)確度適合于衡量不平衡類(lèi)別問(wèn)題
  精確率和召回率適合于衡量不平衡類(lèi)別問(wèn)題
  精確率和召回率不適合于衡量不平衡類(lèi)別問(wèn)題
  A. 1 and 3
  B. 1 and 4
  C. 2 and 3
  D. 2 and 4
  答案為(A):參考問(wèn)題 4 的解答。
  21.在集成學(xué)習(xí)中,模型集成了弱學(xué)習(xí)者的預(yù)測(cè),所以這些模型的集成將比使用單個(gè)模型預(yù)測(cè)效果更好。下面哪個(gè)/些選項(xiàng)對(duì)集成學(xué)習(xí)模型中的弱學(xué)習(xí)者描述正確?
  他們經(jīng)常不會(huì)過(guò)擬合
  他們通常帶有高偏差,所以其并不能解決復(fù)雜學(xué)習(xí)問(wèn)題
  他們通常會(huì)過(guò)擬合
  A. 1 和 2
  B. 1 和 3
  C. 2 和 3
  D. 只有 1
  E. 只有 2
  F. 以上都不對(duì)
  答案為(A):弱學(xué)習(xí)者是問(wèn)題的特定部分。所以他們通常不會(huì)過(guò)擬合,這也就意味著弱學(xué)習(xí)者通常擁有低方差和高偏差。
  22.下面哪個(gè)/些選項(xiàng)對(duì) K 折交叉驗(yàn)證的描述是正確的
  增大 K 將導(dǎo)致交叉驗(yàn)證結(jié)果時(shí)需要更多的時(shí)間
  更大的 K 值相比于小 K 值將對(duì)交叉驗(yàn)證結(jié)構(gòu)有更高的信心
  如果 K=N,那么其稱(chēng)為留一交叉驗(yàn)證,其中 N 為驗(yàn)證集中的樣本數(shù)量
  A. 1 和 2
  B. 2 和 3
  C. 1 和 3
  D. 1、2 和 3
  答案為(D):大 K 值意味著對(duì)過(guò)高估計(jì)真實(shí)預(yù)期誤差(訓(xùn)練的折數(shù)將更接近于整個(gè)驗(yàn)證集樣本數(shù))擁有更小的偏差和更多的運(yùn)行時(shí)間(并隨著越來(lái)越接近極限情況:留一交叉驗(yàn)證)。我們同樣在選擇 K 值時(shí)需要考慮 K 折準(zhǔn)確度和方差間的均衡。
  23 題至 24 題的背景:交叉驗(yàn)證在機(jī)器學(xué)習(xí)超參數(shù)微調(diào)中是十分重要的步驟。假定你需要為 GBM 通過(guò)選擇 10 個(gè)不同的深度值(該值大于 2)而調(diào)整超參數(shù)「max_depth」,該樹(shù)型模型使用 5 折交叉驗(yàn)證。 4 折訓(xùn)練驗(yàn)證算法(模型 max_depth 為 2)的時(shí)間為 10 秒,在剩下的 1 折中預(yù)測(cè)為 2 秒。
  23.哪一項(xiàng)描述擁有 10 個(gè)「max_depth」不同值的 5 折交叉驗(yàn)證整體執(zhí)行時(shí)間是正確的?
  A. 少于 100 秒
  B. 100-300 秒
  C. 300-600 秒
  D. 大于等于 600 秒
  E. 無(wú)法估計(jì)
  答案為(D):因?yàn)樯疃葹?2 的 5 折交叉驗(yàn)證每一次迭代需要訓(xùn)練 10 秒和測(cè)試 2 秒。因此五折驗(yàn)證需要 125 = 60 秒,又因?yàn)槲覀冃枰阉?10 個(gè)深度值,所以算法需要 6010 = 600。

非常好我支持^.^

(0) 0%

不好我反對(duì)

(0) 0%

      發(fā)表評(píng)論

      用戶評(píng)論
      評(píng)價(jià):好評(píng)中評(píng)差評(píng)

      發(fā)表評(píng)論,獲取積分! 請(qǐng)遵守相關(guān)規(guī)定!

      ?
      主站蜘蛛池模板: 暖暖 免费 高清 日本视频大全| 日韩av国产av欧美天堂社区 | 精品久久久久中文字幕| 亚洲免费va在线观看| 久久久久999| www免费看.男人的天堂| 无套暴躁白丝秘书| 久久精品AV无码亚洲色欲| 777EY_卡通动漫_1页| 肉奴隷 赤坂丽在线播放| 果冻传媒剧情在线观看| 97免费视频在线观看| 双性精跪趴灌满h室友4p| 久久99精品国产99久久6男男| ai换脸女明星被躁在线观看免费| 天天综合亚洲综合网站| 久青草影院| 国产成人无码免费精品果冻传媒| 亚洲综合久久一本伊伊区| 碰超成人在线公开免费视频| 和姐姐做插得很深| 爆操大胸美女| 一品道门在线视频| 色列少女漫画| 免费三级现频在线观看| 国产一区精选播放022| xiah俊秀| 2019香蕉在线观看直播视频| 小夫妻天天恶战| 日本xxxx69动漫| 老师xxxx69动漫| 好男人好资源在线播放| 持田香织abc| 999久久国产精品免费人妻| 亚洲精品高清在线| 肉动漫无码无删减在线观看| 麻豆国产精品AV色拍综合| 国语自产精品一区在线视频观看 | 黄页网站18以下勿看免费| xfplay 无码专区 亚洲| 中字幕久久久人妻熟女天美传媒|