色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

軟件巨頭Salesforce帶來AutoML殺手TransmogrifAI

zhKF_jqr_AI ? 來源:未知 ? 作者:工程師曾玲 ? 2018-08-18 11:32 ? 次閱讀

如果說去年“機器換人”的輿論來自車間的機器人手,那今年在全球范圍內揮舞起“自動化”大棒的,就成了機器學習。上月,李飛飛發布面向商業公司的機器學習庫AutoML,技術門檻之低,讓不少工程師擔憂不已。一波未平,8月月初,美國德州農工大學開源Auto Keras,同樣的功能,但是完全免費。而今天,軟件巨頭Salesforce也入場了,他們帶來的TransmogrifAI,才可能是真正的AutoML“殺手”。

以下內容來自Salesforce Einstein數據科學高級總監Shubha Nabar:

在過去十年中,盡管機器學習取得了巨大進步,但構建可用的機器學習系統卻依然是件難事。三年前,當我們著手把機器學習功能部署到Salesforce平臺時,大家才發現,原來構建企業級機器學習系統更加困難。為了解決這個問題,我們開發了TransmogrifAI(發音為trans-mog-ri-phi)——一種用于處理結構化數據的端到端自動化機器學習庫,它也是現在Einstein平臺優化功能的一個工具。

今天,我們把這個項目分享給開源社區。未來,數據科學家和開發人員可以用它快速大規模地構建機器學習解決方案。

TransmogrifAI GitHub:github.com/salesforce/TransmogrifAI

當數據科學家在為商業產品構建機器學習功能時,他們通常會關注易于理解的樣本和數據集。相比之下,企業擁有的數據和樣本是多樣化的,這種多樣性使構建企業級機器學習系統成了一項挑戰。在Salesforce,我們的客戶可能希望預測一系列結果——從客戶流失、銷售預測、潛在用戶轉化,到數字廣告點擊、網購、報價接受、設備故障和延遲付款等,

對于企業客戶來說,他們的數據是保密的、不可共享的,這兩點至關重要。這意味著我們必須針對客戶,用給定的數據樣本構建機器學習模型。同時,構建全局模型絕對沒有意義,因為每個企業都獨立無二,他們有不同的商業模式,也有各自的經營規模和業務渠道,用機器學習的術語講,就是有不同的偏差。

為了讓機器學習真正為客戶服務,我們要做的就是構建和部署上千個用不同數據樣本訓練得到的個性化機器學習模型!而如果不想聘請大批數據科學家,實現這一目標的唯一方法就是自動化。

TransmogrifAI工作流程

通常情況下,如果要構建性能良好的機器學習模型,它需要的研究量和開發量是相當可觀的。數據準備、特征工程、模型訓練……這些繁瑣過程需要不斷迭代,為了得到成熟的模型,數據科學家們可能要耗費數周乃至數月的時間。

TransmogrifAI是一個基于Scala和SparkML構建的庫,它能承擔這個過程中的部分工作。只需幾行代碼,數據科學家就可以自動完成數據清理、特征工程和模型選擇,然后訓練出一個高性能模型,進行進一步探索和迭代。

它封裝了機器學習過程的五個主要步驟:

特征推斷(Feature Inference)

數據是所有機器學習管道的第一步。數據科學家先收集所有相關數據,再進行整平操作,添加、聚合不同數據源,從中提取可能有助于預測的原始信號。這之后,提取得到的信號會被放進靈活的數據結構中,也就是DataFrame,方便后續操作。雖然這些數據結構簡單且易于操作,但其中還是存在一些錯誤,可能會對下游造成影響,比如存在類型錯誤和空值錯誤。

TransmogrifAI可以幫助解決這類問題。它允許用戶為其數據指定類型,自動把原始預測變量和響應信號提取為“特征”。除了原始類型,TransmogrifAI的支持面更豐富、更細化,地理位置、電話號碼、郵政編碼……凡是數據科學家可能頻繁遇到的,它都能進行區分。

事實上,即便用戶沒有指定,TransmogrifAI也可以自行推斷。例如,當它檢測到數據中的文本特征其實是分類特征時,它會記錄這個錯誤并進行適當處理。不用等到運行時再報錯,數據科學家在編譯時就能找出大多數錯誤。

自動化特征工程(Transmogrification)

雖然找到正確的類型有助于數據推理和減少對下游的不良影響,但最終所有特征都是要被轉換成數字表示的。只有這樣,機器學習算法才能尋找并利用其中的規律。這個過程被稱為特征工程。

舉個例子,我們該怎么把美國的各個州(如CA, NY, TX等)轉成數字?一種方法是把每個州映射為1到50之間的數字,因為美國一共有50個州。但這種編碼方法的缺點在于沒有保留州與州之間地理位置上的關系。那么如果我們計算州中心點到美國中心點的距離,并以此為編碼依據呢?這確實可以解決之前提到的問題,但它同樣無法反映東西南北位置。

所以特征工程的方法有無數種,但是找出正確的一種十分不容易。

TransmogrifAI可以幫數據科學家自動化這個惱人的過程。它為自己支持的所有特征類型提供了無數種編碼技術,能做到不僅把數據轉成算法可用的格式,還能優化轉換,使機器學習算法更容易從數據中學習。例如,同樣是年齡數字特征,它能根據特定問題(時尚行業、金融理財)把它們轉成最合適的年齡段。

盡管TransmogrifAI已經具備了上述強大能力,但考慮到特征工程是一場無窮無盡的“博弈”,它也支持用戶自定義和擴展默認值。

自動化特征驗證(Feature Validation)

特征工程可能導致數據維度出現爆炸性增長,而高維數據往往會讓模型出現差錯!其中最典型的是模型過擬合,另一個容易被忽視但影響巨大的問題是數據泄露。

假設我們手頭有一個包含交易信息的數據集,任務是預測最終的交易金額,而數據集上一個條目叫“已結算交易金額”,這是完成交易后才能統計到的信息。如果我們不慎把這個信息也放進訓練集里,模型就會發現它的“可參考性”極強,最后成為一個測試時精度極高,實踐時一無所用的廢品。

事實上,在Salesforce業務中,這種后見之明的偏見尤其成問題,因為大部分客戶的數據很復雜,平時也是自動填充的,這使得數據科學家很容易混淆因果關系。

TransgmogrifAI包含執行自動特征驗證的算法,可以刪除幾乎沒有預測能力的特征——隨著時間的推移而使用的特征,表現出零方差的特征,或者在訓練樣本中的分布與預測時的分布存在顯著不同的特征。在處理含有偏差的高維數據時,這些算法會用一系列基于特征類型的統計測試,結合特征譜系來檢測和排除偏差。

自動化模型選擇(Model Selection)

完成所有關于數據預處理的工作后,數據科學家就該把機器學習算法應用于準備好的數據以構建預測模型。如果是手動完成,他們往往需要嘗試許多不同的算法,并找到合適的參數設置。這是個耗時的工程。

TransmogrifAI的模型選擇器可以在數據上運行多種算法,并比較它們的平均驗證錯誤,從中挑出最佳算法。除此之外,它還能通過適當地對數據進行采樣并重新校準預測以匹配真實的先驗,自動處理不平衡數據的問題,進一步提高模型性能。

超參數優化(Hyperparameter Optimization)

上述自動化步驟的基礎都涉及超參數優化,它幾乎無處不在。而就是這么一個耗時久、任務量重、讓數據科學家望而生畏的操作,它背后的技術原理卻不難,可以直接看成一個高性能模型和一個隨機數生成器模型。這個任務,TransmogrifAI可以代勞。、

賦予每個人使用ML技術的權利

總的來看,現在TransmogrifAI在Salesforce內部已經成功把訓練模型所需的總時間從幾周、幾個月縮短到了幾個小時。而封裝所有這些復雜操作的代碼卻非常簡單,只需短短幾行就能搞定:

// 讀取交易數據

val dealData = DataReaders.Simple.csvCase[Deal](path = pathToData).readDataset().toDF()

// 提取原始信號,預測特征

val (isClosed, predictors) = FeatureBuilder.fromDataFrame[RealNN](dealData, response = "isClosed")

// 自動化特征工程

val featureVector = predictors.transmogrify()

// 自動化特征驗證

val cleanFeatures = survived.sanityCheck(featureVector, removeBadFeatures = true)

// 自動化模型選擇

val (pred, raw, prob) = BinaryClassificationModelSelector().setInput(isClosed, cleanFeatures).getOutput()

// 設置工作流程,訓練模型

val model = newOpWorkflow().setInputDataset(dealData).setResultFeatures(pred).train()

這意味著TransmogrifAI已經成為一個變革。

在我們眼里,這種自動化水平的工具對開發面向企業的機器學習系統至關重要,因此我們也相信,隨著機器學習在各行各業的應用場景不斷拓寬,對運營方式產生巨大影響,未來企業對機器學習系統的需求會不斷增大,而那時,TransmogrifAI這樣的自動化機器學習庫可以幫助他們實現目標,實現轉變。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    31155

    瀏覽量

    269500
  • 機器學習
    +關注

    關注

    66

    文章

    8425

    瀏覽量

    132776

原文標題:又一個AutoML庫:Salesforce開源TransmogrifAI

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    Salesforce解決方案

    Skyvia 提供了許多工具來幫助 Salesforce 用戶處理許多不同的情況 ? Skyvia 可以通過提供與其他應用程序集成的簡單方法、安全的 Salesforce 備份、報告和分析輔助工具等
    的頭像 發表于 01-02 14:01 ?82次閱讀
    <b class='flag-5'>Salesforce</b>解決方案

    Salesforce第三季度業績穩健增長

    近日,云軟件巨頭Salesforce發布了其第三季度財務報告,數據顯示公司業績穩健增長。 在第三季度,Salesforce實現了94.4億美元的營收,同比增長8.3%,略高于市場預期的93.5億美元
    的頭像 發表于 12-05 11:14 ?301次閱讀

    SensiML開源了Analytics Studio AutoML引擎

    我們很高興地宣布,我們的AutoML服務器應用程序Analytics Studio將很快在開源許可下提供。我們還將推出一個新的開源項目網站,以聯合一個致力于為 tinyML 模型開發創建全面的、與硬件無關的解決方案的開發人員社區。此次發布計劃于初夏進行,我們正準備在您的支持下取得成功。
    的頭像 發表于 11-06 09:36 ?370次閱讀
    SensiML開源了Analytics Studio <b class='flag-5'>AutoML</b>引擎

    甲骨文攜手Rai Way,強化AI應用與數據安全

    近日,全球領先的軟件巨頭甲骨文與意大利基礎設施服務提供商Rai Way宣布達成重要合作。雙方將攜手在Rai Way分布廣泛的數據中心部署甲骨文的人工智能應用系統,為企業客戶帶來前所未有的服務體驗與安全保障。
    的頭像 發表于 07-27 17:19 ?2195次閱讀

    SensiML開源AutoML解決方案-Piccolo AI發布

    SensiML強大的Analytics Studio軟件開發工具的開源版本-Piccolo AI發布了!Piccolo AI遵循AGPL許可,面向個人開發者、研究人員和AI愛好者,旨在將AutoML
    的頭像 發表于 07-22 16:53 ?786次閱讀

    甲骨文在AI革命中逆襲成功

    在人工智能革命的浪潮中,甲骨文公司意外地取得了顯著的成功。這家由拉里·埃里森創立的軟件巨頭,其訂閱云產品已被OpenAI等公司選定為構建大語言模型的支柱。
    的頭像 發表于 06-17 17:14 ?655次閱讀

    軟件巨頭SAP宣布收購WalkMe

    近日,全球知名的德國企業軟件公司SAP SE宣布了一項重大收購計劃,以15億美元的價格全資收購數據分析服務商WalkMe。此次交易以每股14美元的價格進行,較WalkMe周二的收盤價溢價高達45%,顯示了SAP對WalkMe的高度認可與信心。
    的頭像 發表于 06-06 10:36 ?764次閱讀

    Snowflake洽談收購Reka AI,進軍生成式AI領域

    軟件巨頭Snowflake近日傳出消息,正在與初創公司Reka AI洽談收購事宜,預計收購金額將超過10億美元。此舉標志著Snowflake正積極布局生成式AI服務領域,以擴大其技術影響力與市場份額。
    的頭像 發表于 05-20 09:29 ?676次閱讀

    MathWorks與NVIDIA攜手革新醫療技術工作流

    在醫療科技領域,軟件定義工作流正迎來新的突破。全球知名的數學計算軟件巨頭MathWorks與圖形處理器領導者NVIDIA近日宣布達成深度合作,將MATLAB?軟件成功集成至NVIDIA的Holoscan平臺。
    的頭像 發表于 05-11 10:17 ?386次閱讀

    施耐德電氣欲收購美國軟件巨頭Bentley Systems

    近日,施耐德電氣(SBGSF.US)官方發布聲明,證實公司正在與知名的工程軟件公司Bentley Systems(BSY.US)展開談判。此消息一經傳出,立刻引起了市場及投資者的廣泛關注。
    的頭像 發表于 04-20 14:57 ?1366次閱讀

    IBM將在營銷部門裁員 裁員潮似乎沒有退潮跡象

    ·克里希納(Arvind Krishna)曾表示將使用人工智能取代近8000個工作崗位。 包括亞馬遜、谷歌等巨頭都有實施裁員,此外在2024年我們還看到有很多的科技巨頭裁員,比如美國云計算軟件巨頭
    的頭像 發表于 03-13 14:19 ?683次閱讀

    新思科技:預計第二財季營收利潤雙雙超出華爾街預期

    近期,新思科技宣布將花費現金和股票共350億美元收購CAE工業軟件巨頭Ansys。首席執行官Sassine Ghazi表示已開始進行審批申請,并表示至今“未遇阻礙”。
    的頭像 發表于 02-22 11:16 ?557次閱讀

    德國工業軟件巨頭SAP宣布重組計劃

    德國工業軟件巨頭SAP近日宣布了一項2024年20億歐元(約21.7億美元)的重組計劃,該計劃將對8,000名員工產生影響,旨在為人工智能時代重新調整團隊和運營。
    的頭像 發表于 01-25 17:27 ?1030次閱讀

    德國企業軟件巨頭SAP宣布裁員8000人

    德國企業軟件巨頭SAP公布了重組計劃;其中就包括裁減約8000名員工。目前SAP有大約10.8萬名全職員工,此次重組將影響到7%的員工。 同時計劃在2024年SAP將“進一步加大對關鍵戰略增長領域
    的頭像 發表于 01-24 14:14 ?1.3w次閱讀

    四家國際光學巨頭掀起收購潮

    來源:光電匯OESHOW,謝謝 編輯:感知芯視界 萬仞 2024年初,光子領域專家炬光科技、光學軟件巨頭新思科技、AMS Technologies、大型跨國集團公司牛津儀器,這四家國際光學巨頭強勢
    的頭像 發表于 01-18 09:36 ?688次閱讀
    主站蜘蛛池模板: 99久久国产综合色| 国产在线高清亚洲精品一区| 美女白虎穴| 最新在线黄色网址| 欧美夜夜噜2017最新| 高h肉肉乳共妻| 亚洲免费网站在线观看| 老司机午夜影院试看区| yellow在线中文| 小箩莉奶水四溅小说| 久久久久九九| 不用播放器的黄| 亚洲精品视频免费看| 年轻的的小婊孑2中文字幕| 国产www视频| 尹人久久大香找蕉综合影院| 日韩AV无码一区二区三区不卡毛片 | 憋尿调教绝望之岛| 亚洲an天堂an在线观看| 毛片在线播放网址| 国产精品99久久久久久AV| 影音先锋色av男人资源网| 日韩欧美视频一区二区在线观看 | 嘟嘟嘟影院免费观看视频| 亚洲熟女片嫩草影院| 日本高清天码一区在线播放| 精品人妻伦一二三区久久AAA片| qvod在线观看| 一个人视频日本在线观看| 日韩视频中文在线一区| 牢记永久免费网址| 国产亚洲精品99一区二区 | 国产精品丰满人妻AV麻豆 | 色多多污污在线播放免费| 久久五月综合婷婷中文云霸高清| 超级碰碰青草久热国产| 中文字幕成人在线观看| 亚洲高清视频在线| 日韩欧美中文字幕一区| 绿巨人www在线观看| 好男人的视频在线观看|