Spark下的并行多標簽最近鄰算法
大?。?/span>1.06 MB 人氣: 2017-11-22 需要積分:2
標簽:SPARK(19784)
隨著大數據時代的到來,大規模多標簽數據挖掘方法受到廣泛關注。多標簽最近鄰算法ML_KNN是一種簡單高效、應用廣泛的多標簽分類方法,其分類精度在很多應用中都高于其他常見的多標簽學習方法。然而隨著需要處理的數據規模越來越大,傳統串行ML-KNN算法已經難以滿足大數據應用中時間和存儲空間上的限制。結合Spark的并行機制和其基于內存的迭代計算特點,提出了一種基于Spark并行框架的ML_KNN算法SML-KNN。在Map階段分別找到待預測樣本每個分區的K近鄰,隨后Reduce階段根據每個分區的近鄰集合確定最終的K近鄰,最后并行地對近鄰的標簽集合進行聚合,通過最大化后驗概率準則輸出待預測樣本的目標標簽集合。串行和并行環境下的對比實驗結果表明,SML_KNN在保證分類精度的前提下性能與計算資源呈近似線性關系,提高了ML_KNN算法對大規模多標簽數據的處理能力。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%
下載地址
Spark下的并行多標簽最近鄰算法下載
相關電子資料下載
- 天數智芯主導的DeepSpark開源社區發布百大應用開放平臺24.06版本 436
- spark運行的基本流程 91
- Spark基于DPU的Native引擎算子卸載方案 180
- 百度前高管景鯤與朱凱華創立AI搜索公司,Genspark產品驚艷上線 458
- 關于Spark的從0實現30s內實時監控指標計算 111
- “Spark+Hive”在DPU環境下的性能測評 | OLAP數據庫引擎選型白皮書(24版)DPU部分 212
- 芯科科技和Arduino合作創建SparkFun Thing Plus Matter板 234
- Sparkle撼與科技發布TBX-750FA-V2顯卡塢,支持3.5槽厚顯 243
- 如何注冊星閃Sparklink設備媒體接入層標識、地址碼? 246
- 如何利用DPU加速Spark大數據處理? | 總結篇 661