色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

您好,歡迎來電子發燒友網! ,新用戶?[免費注冊]

您的位置:電子發燒友網>源碼下載>數值算法/人工智能>

基于Spark機器學習工具來分析信用風險問題

大小:0.17 MB 人氣:0 2017-10-10 需要積分:1
在本文中,我將向大家介紹如何使用Apache Spark的spark.ml庫中的隨機森林算法來對銀行信用貸款的風險做分類預測。Spark的spark.ml庫基于DataFrame,它提供了大量的接口,幫助用戶創建和調優機器學習工作流。結合dataframe使用spark.ml,能夠實現模型的智能優化,從而提升模型效果。
  分類算法
  分類算法是一類監督式機器學習算法,它根據已知標簽的樣本(如已經明確交易是否存在欺詐)來預測其它樣本所屬的類別(如是否屬于欺詐性的交易)。分類問題需要一個已經標記過的數據集和預先設計好的特征,然后基于這些信息來學習給新樣本打標簽。所謂的特征即是一些“是與否”的問題。標簽就是這些問題的答案。在下面這個例子里,如果某個動物的行走姿態、游泳姿勢和叫聲都像鴨子,那么就給它打上“鴨子”的標簽。
  
  我們來看一個銀行信貸的信用風險例子:
  我們需要預測什么?
  某個人是否會按時還款這就是標簽:此人的信用度
  你用來預測的“是與否”問題或者屬性是什么?
  申請人的基本信息和社會身份信息:職業,年齡,存款儲蓄,婚姻狀態等等……這些就是特征,用來構建一個分類模型,你從中提取出對分類有幫助的特征信息。
  決策樹模型
  決策樹是一種基于輸入特征來預測類別或是標簽的分類模型。決策樹的工作原理是這樣的,它在每個節點都需要計算特征在該節點的表達式值,然后基于運算結果選擇一個分支通往下一個節點。下圖展示了一種用來預測信用風險的決策樹模型。每個決策問題就是模型的一個節點,“是”或者“否”的答案是通往子節點的分支。
  問題1:賬戶余額是否大于200元?
  否問題2:當前就職時間是否超過1年?
  否不可信賴
  基于Spark機器學習工具來分析信用風險問題
  隨機森林模型
  融合學習算法結合了多個機器學習的算法,從而得到了效果更好的模型。隨機森林是分類和回歸問題中一類常用的融合學習方法。此算法基于訓練數據的不同子集構建多棵決策樹,組合成一個新的模型。預測結果是所有決策樹輸出的組合,這樣能夠減少波動,并且提高預測的準確度。對于隨機森林分類模型,每棵樹的預測結果都視為一張投票。獲得投票數最多的類別就是預測的類別。

非常好我支持^.^

(0) 0%

不好我反對

(0) 0%

用戶評論

      ?
      主站蜘蛛池模板: 久久国产乱子伦精品免费不卡 | 国产欧美一区二区三区视频 | 国产精品夜夜春夜夜爽久久小 | 免费A级毛片无码无遮挡 | 蜜桃人妻无码AV天堂三区 | 亚洲视频在线观看 | wankz tv videos国产| 国产一区二区三区国产精品 | 久久不射电影网 | 伊人久久综合影院 | 免费看男人J放进女人J无遮掩 | 亚洲女人毛片 | 久久vs国产 | 亚洲va久久久久 | 久久天天躁狠狠躁夜夜躁 | 白丝萝莉喷水 | 久久全国免费观看视频 | 日本高清免费一本在线观看 | 三级网址在线观看 | 无码专区无码专区视频网网址 | 日韩人妻双飞无码精品久久 | 天天躁日日躁狠狠躁AV麻豆 | 伦理电影v男人天堂 | 第一次破女视频出血视频 | 亚洲欧美中文字幕先锋 | 午夜福利视频极品国产83 | 欧美高清另类video | 草莓视频免费看 | 另类专区hy777| 我解开了岳的乳第一个女人 | 人妻夜夜爽天天爽三区麻豆AV网站 | 日本一区精品久久久久影院 | 冰山高冷受被c到哭np双性 | 99香蕉精品视频在线观看 | 国产人妻人伦精品836700 | 亚洲精品tv久久久久久久久久 | 欧美香蕉大胸在线视频观看 | 软糯白嫩双性受h | 国产一级特黄a大片99 | 亚洲影院在线播放 | 云南14学生真实初次破初视频 |