色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

SparkMLlib GBDT算法工業(yè)大數(shù)據(jù)實(shí)戰(zhàn)

格創(chuàng)東智 ? 2019-04-28 14:11 ? 次閱讀

在格物匯之前發(fā)表的《工業(yè)大數(shù)據(jù)挖掘的利器——Spark MLlib》中提到,Spark 的MLlib組件能夠?qū)?a target="_blank">工業(yè)現(xiàn)場海量數(shù)據(jù)進(jìn)行高效挖掘,快速呈現(xiàn)結(jié)果給業(yè)務(wù)分析人員。接下來將向大家介紹SparkMLlib 中的GBDT算法,并將應(yīng)用該算法對工業(yè)數(shù)據(jù)進(jìn)行代碼實(shí)戰(zhàn)。

1算法概念

GB(Gradient Boosting)梯度提升算法,GB 共需要進(jìn)行M次迭代,通過采用梯度下降的方法,每次迭代向損失函數(shù)的負(fù)梯度方向進(jìn)行移動,從而使損失函數(shù)越來越小,進(jìn)而使模型越來越精確。算法偽代碼如下:


圖片 1.png


GB算法跟原始的Boosting算法相比較,還是有比較明顯的區(qū)別。


Boosting算法開始的時(shí)候,是會給每個(gè)樣本附上權(quán)重的,在每次迭代的時(shí)候就會增加錯(cuò)的樣本的權(quán)重,減少對的樣本的權(quán)重,經(jīng)過N次迭代之后,會得到N個(gè)分類器,然后我們再將他們組合起來,得到最終模型。


GB算法與Boosting區(qū)別是,他的每一次迭代的目標(biāo)都是減少上一次的殘差,所以在殘差減少的方向上建立一個(gè)新的模型。在GB算法框架上加入決策樹,就是GBDT(GradientBoost Decision Tree)算法。

GBDT主要的優(yōu)點(diǎn)有:

1) 可以靈活處理各種類型的數(shù)據(jù),包括連續(xù)值和離散值。

2) 在相對少的調(diào)參時(shí)間情況下,預(yù)測的準(zhǔn)備率也可以比較高。這個(gè)是相對SVM來說的。

3)使用一些健壯的損失函數(shù),對異常值的魯棒性非常強(qiáng)。比如 Huber損失函數(shù)和Quantile損失函數(shù)。

4) 很好的利用了弱分類器進(jìn)行級聯(lián)。

5) 充分考慮的每個(gè)分類器的權(quán)重。

6) 可以得到變量間的重要性排序。


GBDT的主要缺點(diǎn)有:

1)由于弱學(xué)習(xí)器之間存在依賴關(guān)系,難以并行訓(xùn)練數(shù)據(jù),不過可以通過自采樣的SGBT來達(dá)到部分并行。

1完整代碼實(shí)例

工業(yè)生產(chǎn)中,產(chǎn)品在制程過程中會有很多特性值,如果能對產(chǎn)品的特性值及時(shí)進(jìn)行預(yù)測,得到特性值的具體數(shù)值,那么就會幫組業(yè)務(wù)人員知曉產(chǎn)品的質(zhì)量,實(shí)現(xiàn)產(chǎn)品的全檢,并能防止異常產(chǎn)品后流,造成不必要的浪費(fèi)。


本次實(shí)戰(zhàn)代碼的采用的數(shù)據(jù)是半導(dǎo)體制程中某一道工序的機(jī)臺的制程參數(shù)值,通過采用SparkMLlib中的GBDT算法對工業(yè)現(xiàn)場機(jī)臺的制程參數(shù)進(jìn)行建模,預(yù)測出經(jīng)過該機(jī)臺生產(chǎn)之后產(chǎn)品的膜層厚度。

packageSparkML

importcommon.Logger
importorg.apache.spark.ml.Pipeline
importorg.apache.spark.ml.evaluation.{BinaryClassificationEvaluator,RegressionEvaluator}
importorg.apache.spark.ml.feature.VectorAssembler
importorg.apache.spark.ml.regression.GBTRegressor
importorg.apache.spark.ml.tuning.{CrossValidator,ParamGridBuilder}
importorg.apache.spark.sql.{Row,SparkSession}
importscala.collection.mutable.ArrayBuffer
/**
* Created by huanghuan01 on 2019/3/27.
*/
objectgbdtDemoextendsLogger{

defmain(args: Array[String]):Unit= {
valspark= SparkSession
.builder()
.enableHiveSupport()
.master(
"local[4]")
.appName(
"gbdtDemo")
.getOrCreate()

spark.sparkContext.setLogLevel(
"WARN")

varrawData= spark.read.format("csv")
.option(
"header","true")
.load(
"E:\\sampleData.csv")

valfieldNames= rawData.schema.map(f=>s"${f.name}").toArray

valcastBuffer:ArrayBuffer[String] = ArrayBuffer()
for(i<-0until fieldNames.length){
valcast_str="cast("+ fieldNames(i) +" as double) as "+ fieldNames(i)
castBuffer.append(cast_str)
}
valcastArr= castBuffer.toArray
valinputData = rawData.selectExpr(castArr:_*)
valfeatureFieldNames= fieldNames.filter(!_.contains("label"))

valfeatureIndexer=newVectorAssembler()
.setInputCols(featureFieldNames)
.setOutputCol(
"featureIndexer")


valgbt=newGBTRegressor()
.setLabelCol(
"label")
.setFeaturesCol(
"featureIndexer")


valArray(trainingData,testData) =inputData.randomSplit(Array(0.8,0.2))

valpipline =newPipeline()
.setStages(Array(featureIndexer
,gbt))

valparamGrid =newParamGridBuilder()

.addGrid(gbt.maxIter,Array(30,50,100,200))

.addGrid(gbt.maxDepth,Array(3,7,9))

.addGrid(gbt.stepSize,Array(0.01,0.05,0.1))

.build()

valcv =newCrossValidator()
.setEstimator(pipline)
.setEvaluator(
newRegressionEvaluator())
.setNumFolds(
5)
.setEstimatorParamMaps(paramGrid)
valmodel =cv.fit(trainingData)

valpredictions =model.transform(testData)

predictions.select(
"label","prediction").show(100,false)

valevaluator =newRegressionEvaluator()
.setLabelCol(
"label")
.setPredictionCol(
"prediction")
.setMetricName(
"mae")

val mae = evaluator.evaluate

(predictions)
log.warn(s"The mae is : ${mae}")


val predictionAndLabels =

predictions

.select("prediction",

"label")

.rdd

.map { case Row(prediction:

Double, label: Double) =>

(prediction, label) }

val mape = math.abs

(predictionAndLabels.map

{ x => math.abs((x._1 - x._2) /

x._1) }.mean())

log.warn(s"The mape is :

${mape}")

val pipLine = model.bestModel.

asInstanceOf[org.apache.spark.

ml.PipelineModel]

}
}


模型最后輸出模型性能指標(biāo)如下:

Mape(Mean Absolute Percentage Error):0.23%

圖片 2.png


通過上圖模型輸出的預(yù)測值與實(shí)際值對比,發(fā)現(xiàn)預(yù)測出來的產(chǎn)品膜厚的數(shù)值走勢跟實(shí)際數(shù)值走勢基本符合,mape達(dá)到0.5%以內(nèi),擬合度相當(dāng)可觀,后續(xù)還可以通過樣本篩選以及特征工程等手段對該模型進(jìn)行進(jìn)一步調(diào)優(yōu)。


在模型達(dá)到業(yè)務(wù)需求的擬合度等指標(biāo)后,通過該模型進(jìn)行部署,實(shí)現(xiàn)產(chǎn)品的“實(shí)時(shí)全檢”,從而實(shí)現(xiàn)產(chǎn)品質(zhì)量的全面監(jiān)控,杜絕異常產(chǎn)品后流;與工廠內(nèi)的抽檢系統(tǒng)結(jié)合后,降低產(chǎn)品的抽檢率,提高工廠的效率。


GBDT算法的用途還是比較廣泛的,它不僅可以處理分類問題,能對線性與非線性回歸問題進(jìn)行處理,還能通過輸出變量間重要因子排序,方便業(yè)務(wù)人員快速定位異常變量。在工業(yè)現(xiàn)場的頑固異常分析還是產(chǎn)品特性預(yù)測等領(lǐng)域,GBDT算法確實(shí)是很值得數(shù)據(jù)分析人員考慮的一種算法。

本文作者:

格創(chuàng)東智大數(shù)據(jù)工程師黃歡(轉(zhuǎn)載請注明作者及來源)

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4625

    瀏覽量

    93132
  • 智能制造
    +關(guān)注

    關(guān)注

    48

    文章

    5596

    瀏覽量

    76426
  • 工業(yè)互聯(lián)網(wǎng)

    關(guān)注

    28

    文章

    4327

    瀏覽量

    94192
  • SPARK
    +關(guān)注

    關(guān)注

    1

    文章

    105

    瀏覽量

    19935
  • 工業(yè)大數(shù)據(jù)

    關(guān)注

    0

    文章

    72

    瀏覽量

    7860
  • GBDT
    +關(guān)注

    關(guān)注

    0

    文章

    13

    瀏覽量

    3907
收藏 人收藏

    評論

    相關(guān)推薦

    工程大數(shù)據(jù)平臺

    由于無人駕駛系統(tǒng)開發(fā)需要長期迭代優(yōu)化,其過程需要大量的路試數(shù)據(jù)支撐,經(jīng)緯恒潤針對無人駕駛系統(tǒng)持續(xù)運(yùn)營和持續(xù)迭代的需求,開發(fā)并在云端部署了車路云工程大數(shù)據(jù)平臺,依托5G網(wǎng)絡(luò),具有遠(yuǎn)程數(shù)據(jù)采集、壓縮、傳輸、解析、回放與
    的頭像 發(fā)表于 01-10 17:00 ?97次閱讀
    工程<b class='flag-5'>大數(shù)據(jù)</b>平臺

    西北工業(yè)大學(xué)OpenHarmony技術(shù)俱樂部正式揭牌成立

    11月15日,由OpenAtom OpenHarmony(以下簡稱“OpenHarmony”)項(xiàng)目群技術(shù)指導(dǎo)委員會與西北工業(yè)大學(xué)共同舉辦的“西北工業(yè)大學(xué)OpenHarmony技術(shù)俱樂部成立大會”在
    的頭像 發(fā)表于 11-19 18:04 ?363次閱讀
    西北<b class='flag-5'>工業(yè)大</b>學(xué)OpenHarmony技術(shù)俱樂部正式揭牌成立

    智慧城市與大數(shù)據(jù)的關(guān)系

    智慧城市與大數(shù)據(jù)之間存在著密切的關(guān)系,這種關(guān)系體現(xiàn)在大數(shù)據(jù)對智慧城市建設(shè)的支撐和推動作用,以及智慧城市產(chǎn)生的大量數(shù)據(jù)大數(shù)據(jù)技術(shù)的應(yīng)用需求。 大數(shù)據(jù)
    的頭像 發(fā)表于 10-24 15:27 ?791次閱讀

    大數(shù)據(jù)實(shí)時(shí)鏈路備戰(zhàn)——數(shù)據(jù)雙流高保真壓測

    作者:京東零售 京東零售 一、大數(shù)據(jù)雙流建設(shè) 1.1 數(shù)據(jù)雙流 大數(shù)據(jù)時(shí)代,越來越多的業(yè)務(wù)依賴實(shí)時(shí)數(shù)據(jù)用于決策,比如促銷調(diào)整,點(diǎn)擊率預(yù)估、廣告分傭等。為了保障業(yè)務(wù)的順利開展,也為了保證
    的頭像 發(fā)表于 10-22 14:40 ?254次閱讀
    <b class='flag-5'>大數(shù)據(jù)實(shí)</b>時(shí)鏈路備戰(zhàn)——<b class='flag-5'>數(shù)據(jù)</b>雙流高保真壓測

    基于大數(shù)據(jù)與深度學(xué)習(xí)的穿戴式運(yùn)動心率算法

    性能的關(guān)鍵手段。然而,在復(fù)雜多變的運(yùn)動環(huán)境中,準(zhǔn)確測量心率數(shù)據(jù)對于傳統(tǒng)算法而言具有較大的技術(shù)瓶頂。本文將探討如何運(yùn)用大數(shù)據(jù)和深度學(xué)習(xí)技術(shù)來開發(fā)創(chuàng)新的穿戴式運(yùn)動心率算
    的頭像 發(fā)表于 09-10 08:03 ?300次閱讀
    基于<b class='flag-5'>大數(shù)據(jù)</b>與深度學(xué)習(xí)的穿戴式運(yùn)動心率<b class='flag-5'>算法</b>

    小鵬汽車榮獲2024年機(jī)械工業(yè)大型重點(diǎn)骨干企業(yè)

    近日,由中國機(jī)械工業(yè)聯(lián)合會主辦的“2024年機(jī)械工業(yè)大型重點(diǎn)骨干企業(yè)發(fā)展論壇暨機(jī)械、鋼鐵產(chǎn)業(yè)鏈融通發(fā)展大會”在北京舉行,小鵬汽車榮獲“機(jī)械工業(yè)大型重點(diǎn)骨干企業(yè)”稱號。
    的頭像 發(fā)表于 08-05 10:26 ?539次閱讀

    工業(yè)大數(shù)據(jù)云平臺在設(shè)備預(yù)測性維護(hù)中的作用

    ,只有保證設(shè)備的安全穩(wěn)定運(yùn)行才能保障生產(chǎn)的持續(xù),質(zhì)量的可靠,提升企業(yè)產(chǎn)品競爭力。 因此,企業(yè)就需要加強(qiáng)對設(shè)備狀況的及時(shí)把握,并一定程度上實(shí)現(xiàn)工業(yè)設(shè)備預(yù)測性維護(hù)。為此,數(shù)之能提供的工業(yè)大數(shù)據(jù)云平臺可以全面接入
    的頭像 發(fā)表于 06-28 15:31 ?274次閱讀

    感謝湖北工業(yè)大學(xué)對我司高低溫試驗(yàn)箱的認(rèn)可

    近日,我們收到了來自湖北工業(yè)大學(xué)的一份重要認(rèn)可函,這份函件是對我們公司研發(fā)的高低溫試驗(yàn)箱的高度評價(jià)和肯定。在此,我們深感榮幸,并對湖北工業(yè)大學(xué)表示衷心的感謝。感謝湖北工業(yè)大學(xué)對我司高低溫試驗(yàn)箱的認(rèn)可
    的頭像 發(fā)表于 05-29 09:59 ?333次閱讀
    感謝湖北<b class='flag-5'>工業(yè)大</b>學(xué)對我司高低溫試驗(yàn)箱的認(rèn)可

    海清智元與某央企銀行簽訂行業(yè)大模型和AI算法戰(zhàn)略合作協(xié)議

    海清智元與某央企銀行簽訂行業(yè)大模型和AI算法戰(zhàn)略合作協(xié)議
    的頭像 發(fā)表于 05-14 14:58 ?547次閱讀
    海清智元與某央企銀行簽訂行<b class='flag-5'>業(yè)大</b>模型和AI<b class='flag-5'>算法</b>戰(zhàn)略合作協(xié)議

    工業(yè)大模型的五個(gè)基本問題

    工業(yè)業(yè)大模型是大模型為賦能工業(yè)應(yīng)用所產(chǎn)生的產(chǎn)業(yè)新形態(tài),是制造業(yè)數(shù)字化轉(zhuǎn)型3.0的重要載體,是一個(gè)新質(zhì)體。
    發(fā)表于 04-23 16:04 ?745次閱讀
    <b class='flag-5'>工業(yè)大</b>模型的五個(gè)基本問題

    為新型工業(yè)體系智慧賦能,需要什么樣的工業(yè)以太網(wǎng)交換機(jī)?

    今天,打造新型工業(yè)體系已經(jīng)成為了眾多行業(yè)轉(zhuǎn)型升級的引導(dǎo)方向。讓基于算力和大數(shù)據(jù)實(shí)現(xiàn)的智慧價(jià)值為各種傳統(tǒng)工業(yè)賦能,同時(shí)更好地滿足不同行業(yè)的特定需求,正是構(gòu)建新型工業(yè)體系的一條關(guān)鍵路徑。
    的頭像 發(fā)表于 04-17 09:53 ?486次閱讀
    為新型<b class='flag-5'>工業(yè)</b>體系智慧賦能,需要什么樣的<b class='flag-5'>工業(yè)</b>以太網(wǎng)交換機(jī)?

    工業(yè)大數(shù)據(jù)發(fā)展面臨的問題

    工業(yè)大數(shù)據(jù)作為工業(yè)與數(shù)字經(jīng)濟(jì)之間的橋梁紐帶,對加快工業(yè)數(shù)字化轉(zhuǎn)型、推進(jìn)數(shù)實(shí)融合,支撐新型工業(yè)化建設(shè)意義重大。
    的頭像 發(fā)表于 04-16 11:52 ?572次閱讀

    CYBT-343026傳輸大數(shù)據(jù)時(shí)會丟數(shù)據(jù)的原因?

    我正在使用 CYBT-343026 (CYW-20706 Silicon) 模塊。 我根據(jù) SPP 樣本制作了一個(gè)操作 SPP 的應(yīng)用程序。 但是,傳輸大數(shù)據(jù)時(shí)有時(shí)會丟失數(shù)據(jù)。 它從
    發(fā)表于 03-01 15:04

    什么是國密算法工業(yè)網(wǎng)關(guān)為什么要支持國密算法

    工業(yè)網(wǎng)關(guān)是應(yīng)用于工業(yè)物聯(lián)網(wǎng)關(guān)的常見通信交換傳輸設(shè)備,由于在使用過程中通常涉及工業(yè)敏感數(shù)據(jù),因此也需要支持國密算法實(shí)現(xiàn)
    的頭像 發(fā)表于 01-31 16:55 ?1189次閱讀
    什么是國密<b class='flag-5'>算法</b>?<b class='flag-5'>工業(yè)</b>網(wǎng)關(guān)為什么要支持國密<b class='flag-5'>算法</b>?

    大數(shù)據(jù)技術(shù)是干嘛的 大數(shù)據(jù)核心技術(shù)有哪些

    大數(shù)據(jù)技術(shù)是指用來處理和存儲海量、多類型、高速的數(shù)據(jù)的一系列技術(shù)和工具。現(xiàn)如今,大數(shù)據(jù)已經(jīng)滲透到各個(gè)行業(yè)和領(lǐng)域,對企業(yè)決策和業(yè)務(wù)發(fā)展起到了重要作用。本文將詳細(xì)介紹大數(shù)據(jù)技術(shù)的概念、發(fā)展
    的頭像 發(fā)表于 01-31 11:07 ?3706次閱讀
    主站蜘蛛池模板: 午夜十八岁禁| 97影院午夜午夜伦不卡| 天美传媒MV高清免费看| 色呦呦人人视频| 无码天堂亚洲国产AV久久| 亚洲、国产综合视频| 亚洲欧美韩国综合色| 大伊人青草狠狠久久| 国产 高清 无码 中文| 国产精品99久久久久久AV色戒 | 美女内射少妇三区五区| 女仆乖H调教跪趴| 日韩一卡二卡三卡四卡免费观在线| 色欲蜜臀AV免费视频| 亚洲spank男男实践网站| 伊人久久中文| free俄罗斯性xxxxhd派对| 国产99精品在线观看| 国模玲玲自拍337p| 毛片TV网站无套内射TV网站| 任你躁国语自产二区在线播放 | 久久精品嫩草影院免费看| 免费看男人J放进女人J无遮掩| 青娱乐极品视觉盛宴av| 午夜dj影院视频观看| 一色狗影院| 变形金刚7免费观看完整| 国产欧美日韩视频怡春院| 久久精品视在线观看2| 欧美中文字幕一区二区三区| 午夜亚洲精品不卡在线| 中文字幕人成人乱码亚洲AV| 成人 迅雷下载| 久久aa毛片免费播放嗯啊| 欧美亚洲另类热图| 亚洲国产在线播放在线| 97免费视频在线| 国产精品久久vr专区| 伦理片在线线手机版韩国免费6| 日韩黄色软件| 浴室里强摁做开腿呻吟的漫画男男 |