在线看片a,一个人在线观看的www,性xxxxⅹhd成人

基于PyTorch重寫的機器學習工具包HyperLearn，速度更快、內存使用更少，效率提高了一倍。

HyperLearn是一個基于PyTorch重寫的機器學習工具包Scikit Learn，它的一些模塊速度更快、需要內存更少，效率提高了一倍。

專為大數據而設計，HyperLearn可以使用50％以下的內存，并在某些模塊上運行速度提高50％以上。將支持GPU，并且所有模塊都是并行化的。

項目作者DanielHan-Chen，畢業于澳大利亞新南威爾士大學，專注于AI、NLP和無監督機器學習的推薦和匹配算法。

基于HyperLearn，作者展示了如何讓很多機器學習算法更快、更高效。

其中一些很酷的算法：

最小二乘法/線性回歸的擬合時間相比sklearn減少70%，內存使用減少50%

由于新的并行算法，非負矩陣分解的擬合時間相比sklearn減少50%

Euclidean算法/余弦相似度算法加快40%

LSMR迭代最小二乘法時間減少50%

新的Reconstruction SVD算法——使用SVD來估算丟失的數據，比mean imputation方法好約30%稀疏矩陣運算速度提高50％——并行化

RandomizedSVD，速度加快20%~30%

New Incremental SVD和Incremental Eig，RandomizedSVD / Truncated SVD

等等

項目地址：

https://github.com/danielhanchen/hyperlearn

并且，作者寫了一本電子書：Modern Big Data Algorithms，介紹了12個新算法以及一些更新的算法：

紅色：新算法；綠色：更新的算法；藍色：即將發布

讓我們先大致看一下“奇異值分解”（SVD）這一章，這是最重要的算法之一。SVD將PCA、線性回歸、嶺回歸、QDA、LDA、LSI、推薦系統、壓縮算法、L2 distance等多種算法聯系在一起，可以說是機器學習中最重要的算法了。

Page on SVD

Page on Reconstruction SVD

Using SVD to reconstruct missing data

提速50%+，RAM使用減少50%+

提速50%+，RAM使用減少50%+，GPU支持的重寫Sklearn，使用Statsmodels組合新的算法。

HyperLearn完全用PyTorch, NoGil Numba, Numpy, panda, Scipy 和 LAPACK編寫，鏡像主要是Scikit Learn。HyperLearn還嵌入了統計推斷方法，可以被想Scikit Learn語法(model.confidence_interval_)一樣調用。

速度/內存的比較

時間表示Fit + Predict的時間。RAM(mb) = max( RAM(Fit), RAM(Predict) )

以下是N = 5000，P = 6000時的初步結果：

關鍵方法和目標

令人尷尬的并行循環

速度提升50％+，精簡50％+

為什么Statsmodels有時會慢得讓人無法忍受？

使用PyTorch的深度學習模塊

代碼量減少20％+，更清晰的代碼

訪問舊算法和令人興奮的新算法

1. 令人尷尬的并行循環

包括內存共享，內存管理

通過PyTorch和Numba的CUDA并行性

2. 50%+ Faster, 50%+ Leaner

矩陣乘法排序：

https://en.wikipedia.org/wiki/Matrix_chain_multiplication

Element Wise矩陣乘法將復雜度從O(n^3)降低到O(n^2)：https://en.wikipedia.org/wiki/Hadamard_product_(matrices)

將矩陣運算簡化為Einstein Notation：https://en.wikipedia.org/wiki/Einstein_notation

連續評估一次性矩陣操作以減少RAM開銷。

如果p >> n，則可能分解X.T優于分解X.

在某些情況下，應用QR分解SVD可能會更快。

利用矩陣的結構來計算更快（例如三角矩陣，Hermitian矩陣）。

計算 SVD(X)，然后獲得pinv(X) ，有時比單純計算pinv(X)更快

3. 為什么Statsmodels有時會慢得讓人無法忍受?

對線性模型的置信度、預測區間，假設檢驗和擬合優度檢驗進行了優化。

盡可能使用 Einstein Notation和Hadamard Products。

僅計算需要計算的內容（計算矩陣對角線，而不是整個矩陣）。

修復Statsmodels在符號、速度、內存方面的問題和變量存儲上的缺陷。

4. 使用PyTorch的深度學習模塊

使用PyTorch創建Scikit-Learn

5. 代碼量減少20％+，更清晰的代碼

盡可能使用 Decorators和Functions。

直觀的中層函數名稱，如（isTensor，isIterable）。

通過hyperlearn.multiprocessing輕松處理并行

6. 訪問舊算法和令人興奮的新算法

矩陣補全算法——非負最小二乘法，NNMF

批相似性隱含狄利克雷分布（BS-LDA）

相關回歸（Correlation Regression）

可行的廣義最小二乘法FGLS

Outlier Tolerant Regression

多維樣條回歸（Multidimensional Spline Regression）

廣義MICE

使用Uber的Pyro進行貝葉斯深度學習

《現代大數據算法》電子書下載地址：

https://github.com/danielhanchen/hyperlearn/blob/master/Modern%20Big%20Data%20Algorithms.pdf

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

機器學習

機器學習

+關注

關注
66

文章
8406

瀏覽量
132565
pytorch

pytorch

+關注

關注
2

文章
807

瀏覽量
13200

原文標題：基于PyTorch重寫sklearn，《現代大數據算法》電子書下載

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關注！文章轉載請注明出處。

恩智浦車規級深度學習工具包使新一代汽車應用性能提高30倍

恩智浦半導體推出汽車車規級深度學習工具包eIQ Auto，擴展了公司eIQ機器學習產品系列。該工具包旨在幫助客戶從開發環境快速地轉向滿足汽車

發表于 11-06 11:46 ?758次閱讀

Facebook推出ReAgent AI強化學習工具包

Facebook近日推出ReAgent強化學習（reinforcement learning）工具包，首次通過收集離線反饋（offline feedback）來實現策略評估（policy evaluation）。

發表于 10-19 09:38 ?1577次閱讀

Python人工智能學習工具包+入門與實踐資料集錦

本資料的主要內容詳細介紹的是Python工具包合集包括了：網頁爬蟲工具集，文本處理工具集，Python科學計算工具包，Python機器

發表于 11-22 14:46

求LabVIEW2014 機器學習工具包

有哪位大神有labview2014 機器學習工具包啊，分享一下，急需！！非常感謝！

發表于 03-15 23:08

并口開發調試工具包（推薦）

并口開發調試工具包 （推薦）:

發表于 05-27 10:15 ?35次下載

固件工具包

固件工具包 修改工具包 高興向大家公布這個信息！首先介紹一下這個工具地用途： 1、修改固件 - 通過此工具能夠修改固件中絕大多數地信息及配置。 2、...

發表于 03-16 14:49 ?71次下載

Labview2013各工具包的功能簡介

Labview2013各工具包的功能簡介Labview2013各工具包的功能簡介

發表于 11-20 11:20 ?0次下載

單片機開發調試工具包

單片機開發調試工具包，學習51單片機必備的工具

發表于 12-17 10:45 ?19次下載

WEBENCH 設計工具包綜合概述

WEBENCH 設計工具包綜合概述

發表于 09-15 09:28 ?6次下載

Google Kubernetes機器學習工具包Kubeflow發布0.1版

Google自家推出的Kubernetes機器學習工具包Kubeflow終于發布了0.1版。 Google表示，雖然該項目僅成立5個多月，但是目前在GitHub上，已經有超過3,000名用戶收藏該項目，“而在GitHub平臺的關

發表于 05-17 08:17 ?1803次閱讀

Microchip蘋果配件開發工具包

這一講是Microchip蘋果配件開發工具包蘋果配件開發工具包

發表于 06-06 13:45 ?2288次閱讀

清華大學發布首個開源自動圖學工具包

如何應用自動機器學習（AutoML）加速圖機器學習任務的處理？清華大學發布全球首個開源自動圖學習工具

發表于 12-22 16:32 ?1648次閱讀

使用 OpenVINO? 工具包監控機器操作員

使用 OpenVINO? 工具包監控機器操作員

發表于 01-03 09:45 ?725次閱讀

OneInstall工具包

電子發燒友網站提供《OneInstall工具包.exe》資料免費下載

發表于 08-18 14:54 ?0次下載

Microchip(微芯)推出MPLAB機器學習開發工具包

機器學習(ML)正成為嵌入式設計人員開發或改進各種產品的標準要求。為滿足這一需求，Microchip(微芯)近日推出了全新的MPLAB?機器學習開發

發表于 09-12 18:26 ?1030次閱讀

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

基于PyTorch重寫的機器學習工具包HyperLearn

評論