?

首頁: 電子電路圖,電子技術資料網站首頁

電子資料下載: 電子資料下載頻道 -- 為電子工程師提供激發創新靈感的新方案、新的參考設計、新的設計構想等可下載的電子資料！

電子技術應用: 電子技術應用頻道 -- 為電子工程師提供電子產品設計所需的技術分析、設計技巧、設計工具、測試工具等技術文章！

電子元器件: 專業的電子元器件平臺 -- 及時發布大量最新IC、分立器件、模組等電子元器件產品信息！

電子電路圖: 電路圖頻道 -- 提供電子電路圖,原理圖,汽車電路圖,手機電路圖,功放電路圖,電源電路圖等電路圖紙

電子技術論壇: 構建電子工程師交流的平臺 -- 在交流中進一步學習設計技巧、規劃技術人生、提升自我價值！

源碼下載: 源碼下載頻道; uCOS編程 C/C++語言編程 Symbian編程 Linux/uClinux/Unix編程 Windows編程 matlab源程序 php源碼下載 asp.net源碼下載 java源碼下載匯編編程驅動程序單片機編程數值算法/人工智能

您的位置：電子發燒友網>源碼下載>數值算法/人工智能>

基于Spark機器學習工具來分析信用風險問題

大小：0.17 MB 人氣：0 2017-10-10 需要積分：1

推薦 + 挑錯 + 收藏(0) + 用戶評論（0）

普通下载 VIP下载免积分海量资料下载

分享到:

PCB打样、加工，最快24小时交货

標簽：機器學習(129859)SPARK(19585)

在本文中，我將向大家介紹如何使用Apache Spark的spark.ml庫中的隨機森林算法來對銀行信用貸款的風險做分類預測。Spark的spark.ml庫基于DataFrame，它提供了大量的接口，幫助用戶創建和調優機器學習工作流。結合dataframe使用spark.ml，能夠實現模型的智能優化，從而提升模型效果。
　　分類算法
　　分類算法是一類監督式機器學習算法，它根據已知標簽的樣本（如已經明確交易是否存在欺詐）來預測其它樣本所屬的類別（如是否屬于欺詐性的交易）。分類問題需要一個已經標記過的數據集和預先設計好的特征，然后基于這些信息來學習給新樣本打標簽。所謂的特征即是一些“是與否”的問題。標簽就是這些問題的答案。在下面這個例子里，如果某個動物的行走姿態、游泳姿勢和叫聲都像鴨子，那么就給它打上“鴨子”的標簽。
　　
　　我們來看一個銀行信貸的信用風險例子：
　　我們需要預測什么？
　　某個人是否會按時還款這就是標簽：此人的信用度
　　你用來預測的“是與否”問題或者屬性是什么？
　　申請人的基本信息和社會身份信息：職業，年齡，存款儲蓄，婚姻狀態等等……這些就是特征，用來構建一個分類模型，你從中提取出對分類有幫助的特征信息。
　　決策樹模型
　　決策樹是一種基于輸入特征來預測類別或是標簽的分類模型。決策樹的工作原理是這樣的，它在每個節點都需要計算特征在該節點的表達式值，然后基于運算結果選擇一個分支通往下一個節點。下圖展示了一種用來預測信用風險的決策樹模型。每個決策問題就是模型的一個節點，“是”或者“否”的答案是通往子節點的分支。
　　問題1：賬戶余額是否大于200元？
　　否問題2：當前就職時間是否超過1年？
　　否不可信賴
　　基于Spark機器學習工具來分析信用風險問題

　　隨機森林模型
　　融合學習算法結合了多個機器學習的算法，從而得到了效果更好的模型。隨機森林是分類和回歸問題中一類常用的融合學習方法。此算法基于訓練數據的不同子集構建多棵決策樹，組合成一個新的模型。預測結果是所有決策樹輸出的組合，這樣能夠減少波動，并且提高預測的準確度。對于隨機森林分類模型，每棵樹的預測結果都視為一張投票。獲得投票數最多的類別就是預測的類別。

非常好我支持^.^

(0) 0%

不好我反對

(0) 0%

下載地址

不能下載？請通知我們

基于Spark機器學習工具來分析信用風險問題下載

电信下载联通下载

海量PCB软件教程下载华强PCB技术中心，海量PCB软件教程下载！

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

基于Spark機器學習工具來分析信用風險問題

下載地址

基于Spark機器學習工具來分析信用風險問題下載

相關電子資料下載

用戶評論

發表評論

分享你我的電子世界

實用電子設計資料下載

源碼下載排行

熱門詞