色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何正確建立自己的機器學習項目集

電子工程師 ? 來源:lq ? 2018-12-31 11:58 ? 次閱讀

面試機器學習方面的工作時,在簡歷的個人項目那塊,你會寫什么?建模?做機器學習項目?項目數據從哪兒來?在 SharpestMinds 創始人 Edouard Harris 介紹的兩個成功例子中,人家是從基礎的收集數據開始一步步做項目的:目標明確,做到極致。

我是一名物理學家,在 YC startup 工作。我們的任務是幫應屆生找到自己的第一份機器學習工作。

要找到第一份機器學習工作,你要做的一件事就是建立自己的機器學習項目集(portfolio)。現在,我來告訴你答案。

你可能會奇怪為什么這很重要,那是因為招聘經理通常會通過你的履歷來了解你,如果你沒有履歷,個人項目就是最接近的替代品。

因為職業原因,我見過數百份個人項目的案例,有做得極好的,也有做得極差的。我將向你展示兩個極好的案例。

全力以赴型

接下來要說的是一件真實的故事,只不過隱私起見我改了主人公的名字。

公司 X 使用 AI 提醒雜貨店何時該訂購新的庫存。我們這邊有個學生——Ron,很想去 X 公司工作,所以他建立了個人項目,該項目完全是針對去該公司面試用的。

我們通常不建議這樣對著一家公司全力以赴做準備。這有點冒險。不過,像 Ron 這樣真的非常想去這家公司就另當別論了。

紅色邊框標出了缺失項。

Ron 剛開始把手機貼到購物車上。然后,他推著購物車在過道來回走動,同時用相機記錄。他在不同的雜貨店做了 10 到 12 次。

回到家后,Ron 開始建立一個機器學習模型。他的模型發現了雜貨店貨架上的空缺點:貨架上缺少玉米片(或其他東西)的位置。

Ron 在 GitHub 上實時建立了他的模型,完全公開。每天,他都會改進他的 repo(提高準確率,并在他的 repo 的 README 中記錄項目變化。)

當 X 公司意識到 Ron 正在這樣做時,X 公司很感興趣,而且不止是感興趣,事實上,X 公司有點緊張。他們為什么會緊張?因為 Ron 在不知不覺中,在幾天內復制了他們專有技術堆棧的一部分。

當然,Ron 所做的遠遠不夠完美:X 公司已經投入了比 Ron 多幾個數量級的資源來解決這個問題。但由于太相似,他們很快就叫 Ron 將他的 repo 私有化。

X 公司的技術在同行業中名列前茅。盡管如此,在 4 天內,Ron 的項目得到了 X 公司首席執行官的直接個人關注。

飛行員項目

以下是另一個真實故事:

Alex 是一名歷史專業大學生,主修俄語(真的),同時他對機器學習感興趣。更為不同尋常的是,盡管他從未編寫過 Python 代碼,但他還是決定學習它。

Alex 選擇通過構建實用項目來學習。他決定建立一個分類器,以檢測戰斗機飛行員是否在飛機上失去意識。Alex 希望通過觀察飛行員的視頻來發現這一點。他知道一個人很容易通過觀察,在一名飛行員失去知覺時告訴他,所以 Alex 認為機器也應該可以做到。

這是 Alex 在幾個月中所做的事情:

Alex 的 G-force 誘導失去意識探測器的演示。

Alex 在 YouTube 上下載了從駕駛艙中拍攝的飛行員駕駛飛機的所有視頻片段(大約數十個)。

接下來他開始標記數據。Alex 構建了一個 UI,讓他可以滾動瀏覽數千個視頻幀,按一個按鈕表示「有意識」,另一個按鈕表示「無意識」,并自動將該幀保存在正確標記的文件夾中。這個標記過程非常非常無聊,花了他很多天時間。

Alex 為圖像構建了一個數據管道,可以將飛行員從駕駛艙背景中剪裁出來,使他的分類器更容易專注于飛行員。最后,他建立了他的意識喪失分類器。

在他做所有這些事情的同時,Alex 也在社交活動中向招聘經理展示他的項目快照。每當他拿出他的項目并在手機上展示時,他們會問他是如何做到的,他如何建造管道,以及如何收集數據。但他們從來沒有詢問他的模型準確率(低于 50%)。

當然,Alex 也計劃提高其準確率,但在動手之前就被錄用了。結果證明,公司更看重他項目的視覺效果以及他在數據收集過程中表現出的瘋狂與智慧,而不是他的模型的準確率。

他們之間的共同點

Ron 和 Alex 為什么如此成功?因為他們做對了以下四件事:

他們沒有在建模上浪費太多精力。我知道這聽起來很奇怪,但對于今天的很多用例來說,建模是一個已經解決的問題。在實際工作中,除非你做的是最前沿的研究,否則你的時間 80%~90% 都會花在清洗數據上。你的個人項目又怎能例外?

他們自己收集數據。正因為如此,他們得到的最終數據比 Kaggle 或 UCI 數據庫中的數據更混亂。但也正是這些混亂的數據提高了他們處理混亂數據的能力。比起從學術服務器上下載數據,這種做法讓他們能夠更好地理解自己的數據。

他們將做出的東西可視化。所謂面試,并不是說由一位無所不知的裁判對你的能力做出客觀的評估,而是將你自己推銷給另一個人。人是視覺動物。如果你掏出手機向面試官展示你的作品,那么你要確保自己做的東西看起來有趣,這點非常值得。

他們的所作所為看起來確實有點瘋狂。正常人不會用膠帶把自己的手機綁在購物車上。正常人也不會花那么長時間從 YouTube 上裁剪飛行員視頻。什么人才會做這種事?那些不顧一切完成目標的人才會這么干。公司最想雇傭的就是這種人。

Ron 和 Alex 的所作所為可能看起來太夸張,但實際上,這和你在真正的工作中要做的事差不多。這就是要點:當你沒有做某事的工作經驗時,招聘經理會看你做過的和某事相類似的經歷。

幸運的是,這種程度的項目你只要做一兩次就好——Ron 和 Alex 就在所有的面試中重復使用之前準備的項目。

因此,如果用一句話來概括偉大 ML 項目的秘密的話,那就是:用一個有趣的數據集來構建一個項目,這個數據集需要很大的努力來收集,并且盡可能地在視覺上有影響力。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 分類器
    +關注

    關注

    0

    文章

    152

    瀏覽量

    13180
  • 機器學習
    +關注

    關注

    66

    文章

    8408

    瀏覽量

    132572

原文標題:舉兩個栗子:如何正確建立個人的機器學習項目集

文章出處:【微信號:DBDevs,微信公眾號:數據分析與開發】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    深度學習中開發和測試的定義

    多少由你來決定。但請不要武斷地認為測試分布和訓練分布是一致的。盡可能地選擇你最終期望算法能夠正確處理的樣本作為測試,而不是隨便選擇一個你恰好擁有的訓練
    發表于 11-30 16:58

    建立開發和測試(總結)

    指標進行優化。? 當需要考慮多項目標時,不妨將它們整合到一個表達式里(比如對多個誤差指標取平均),或者設定滿意度指標和優化指標。? 機器學習是一個高度迭代的過程:在出現最終令人滿意的方案之前,你可能要
    發表于 12-14 10:56

    機器學習入門篇:一個完整的機器學習項目

    機器學習項目入門篇:一個完整的機器學習項目
    發表于 05-11 14:47

    Deeplearningai結構化機器學習項目

    Deeplearningai 結構化機器學習項目 Week2 6-10
    發表于 05-18 15:12

    什么是機器學習? 機器學習基礎入門

    工程師在數據收集過程中使用標簽對數據進行分類數據收集和標記是一個耗時的過程,但對于正確處理數據至關重要。雖然機器學習領域有一些創新,利用預先訓練的模型來抵消一些工作和新興的工具來簡
    發表于 06-21 11:06

    11個機器學習開源項目

    隨著機器學習越來越受到開發者關注,出現了很多機器學習的開源項目,在本文列舉的11個機器
    發表于 02-14 14:25 ?2818次閱讀

    2018年度最熱門的機器學習開源項目

    在過去的一年中,我們比較了8,800多個開源機器學習項目,從中挑選出前30名,這個極具競爭力的排行榜,精選了2018年1月到12月期間發布的最佳開源機器
    的頭像 發表于 12-19 10:01 ?2514次閱讀

    機器學習應用及數據

    本文介紹了包括圖像分類、交易預測、情感分類、推薦系統、股票預測等在內的若干個機器學習應用及數據
    的頭像 發表于 04-21 11:01 ?4099次閱讀

    機器學習的知識產權問題

    要構建用于維護的機器學習(ML)模型,必須收集并標記正確的訓練,選擇正確的架構和訓練參數以實現算法精度和速度的優化平衡,并投入計算時間來訓
    發表于 04-08 11:19 ?1509次閱讀

    機器學習算法使用機器來了解給定的數據

    機器學習一詞經常與AI互換使用,盡管有明顯的區別。機器學習算法使用機器來了解給定的數據
    的頭像 發表于 09-16 17:05 ?2223次閱讀

    如何才能正確的構建機器學習的模型

    組織構建一個可行的、可靠的、敏捷的機器學習模型來簡化操作和支持其業務計劃需要耐心、準備以及毅力。各種組織都在為各行業中的眾多應用實施人工智能項目。這些應用包括預測分析、模式識別系統、自主系統、會話
    發表于 01-11 19:25 ?14次下載

    使用TensorFlow建立深度學習機器學習網絡

    教你使用TensorFlow建立深度學習機器學習網絡。
    發表于 03-26 09:44 ?18次下載

    機器學習必學的Python代碼示例

    機器學習必學的Python代碼示例
    發表于 06-21 09:35 ?14次下載

    PyTorch如何訓練自己的數據

    PyTorch是一個廣泛使用的深度學習框架,它以其靈活性、易用性和強大的動態圖特性而聞名。在訓練深度學習模型時,數據是不可或缺的組成部分。然而,很多時候,我們可能需要使用自己的數據
    的頭像 發表于 07-02 14:09 ?1648次閱讀

    如何理解機器學習中的訓練、驗證和測試

    理解機器學習中的訓練、驗證和測試,是掌握機器學習
    的頭像 發表于 07-10 15:45 ?3814次閱讀
    主站蜘蛛池模板: 91综合久久久久婷婷| 国产无遮挡色视频免费观看性色 | 日韩欧美一区二区中文字幕 | 婷婷开心激情综合五月天| 久久精品免费电影| 国产精品一国产精品免费| 97视频免费在线观看| 亚洲中文久久精品AV无码| 色婷婷国产精品视频一区二区三区| 久久青青草原精品国产软件| 国产电影无码午夜在线播放| 99久久精品6在线播放| 亚洲色视在线观看视频| 婷婷五月久久丁香国产综合| 欧美深夜0000XXXX疯狂| 老太婆性BBWBBW| 久久99热狠狠色AV蜜臀| 国产私拍福利精品视频| 国产爱豆剧果冻传媒在线| c了瑜伽老师嗷嗷叫一节课视频| 在线 自拍 综合 亚洲 欧美| 亚洲精品九色在线网站| 无码一区二区三区| 肉蒲团从国内封禁到日本成经典| 男总裁憋尿PLAY灌尿BL| 蜜芽一二三区| 老师你奶真大下面水真多| 国产午夜福利伦理300| 父亲猜女儿在线观看| 超碰免费视频caoporn| a毛片基地免费全部视频| 97精品在线播放| 在线成人精品国产区免费| 亚洲欧美精品无码大片在线观看| 午夜免费小视频| 亚洲AV日韩AV欧美在线观看网| 日韩hd高清xxxⅹ| 日日噜噜夜夜狠狠视频| 色婷婷五月综合中文字幕| 色尼玛亚洲综合| 四虎免费影院|