色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

假設(shè)不懂?dāng)?shù)據(jù)科學(xué),如何解決問(wèn)題?

zhKF_jqr_AI ? 來(lái)源:未知 ? 作者:李倩 ? 2018-10-10 09:09 ? 次閱讀

編者按:MIT博士、Salesforce前SVP、數(shù)據(jù)科學(xué)家Rama Ramakrishnan提醒,在從事數(shù)據(jù)科學(xué)項(xiàng)目時(shí),養(yǎng)成首先創(chuàng)建基線的良好習(xí)慣,迅速交付價(jià)值,避免自我欺騙。

準(zhǔn)備解決一個(gè)數(shù)據(jù)科學(xué)問(wèn)題時(shí),你可能很想單刀直入,直接開(kāi)始創(chuàng)建模型。

別這么做。首先創(chuàng)建一個(gè)常識(shí)基線。

常識(shí)基線是指,假設(shè)你不懂?dāng)?shù)據(jù)科學(xué),你會(huì)如何解決這個(gè)問(wèn)題。假設(shè)你對(duì)監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、聚類、深度學(xué)習(xí)之類一無(wú)所知。現(xiàn)在問(wèn)問(wèn)你自己,如何解決手頭的問(wèn)題?

對(duì)于經(jīng)驗(yàn)豐富的從業(yè)者而言,首先創(chuàng)建常識(shí)基線是常規(guī)操作。

他們會(huì)首先思考數(shù)據(jù)和問(wèn)題,發(fā)展某種關(guān)于什么能使解決方案更好的直覺(jué),以及考慮一些需要避免的地方。他們會(huì)和商業(yè)終端用戶討論,這些用戶之前可能通過(guò)手工方式解決這個(gè)問(wèn)題。

有經(jīng)驗(yàn)的從業(yè)者會(huì)告訴你,常識(shí)基線不僅實(shí)現(xiàn)起來(lái)很簡(jiǎn)單,而且常常難以打敗。即使數(shù)據(jù)科學(xué)模型確實(shí)戰(zhàn)勝了這些基線,優(yōu)勢(shì)也可能很小。

直銷郵件

讓我們來(lái)看三個(gè)例子,從一個(gè)直銷的例子開(kāi)始。

你為一家服裝零售商工作,手頭有一個(gè)顧客數(shù)據(jù)庫(kù),其中包括了去年從你處買過(guò)東西的每個(gè)顧客的信息

你希望給一些顧客發(fā)郵件,宣傳最新的春裝,預(yù)算可以支持給數(shù)據(jù)庫(kù)中的100000名顧客發(fā)送郵件。

你應(yīng)該選擇哪100000個(gè)呢?

你大概已經(jīng)在打算創(chuàng)建一個(gè)訓(xùn)練集和一個(gè)測(cè)試集,并訓(xùn)練一些監(jiān)督學(xué)習(xí)模型了。也許是隨機(jī)森林或梯度提升。甚至是深度學(xué)習(xí)。

這些都是很強(qiáng)大的模型,你的工具箱也應(yīng)該常備這些。但是,先問(wèn)自己一個(gè)問(wèn)題:“如果這些方法都不存在,我必須靠自己的小聰明解決這個(gè)問(wèn)題,那么我該如何挑選出這100000個(gè)顧客?”

常識(shí)告訴你,應(yīng)該選擇那些最忠誠(chéng)的顧客,畢竟,他們是最可能對(duì)郵件感興趣的人。(不過(guò),其實(shí)這個(gè)問(wèn)題也可以從增量建模(Uplift Modeling)的角度考慮,可能不管你發(fā)不發(fā)郵件,最忠誠(chéng)的顧客總是傾向于到你這兒買東西,反而是給不那么忠誠(chéng)的顧客發(fā)郵件,增量更高。)

那么,你將如何衡量忠誠(chéng)度呢?直觀地說(shuō),忠誠(chéng)顧客傾向于多購(gòu)買,多花錢。所以你可以計(jì)算每位顧客去年在你那里花了多少錢,到你那里買過(guò)多少次東西?

如此計(jì)算之后,查看下結(jié)果,你會(huì)發(fā)現(xiàn)它很好地描述了忠誠(chéng)度。但是你也注意到,這樣會(huì)選中那些在上半年很忠誠(chéng)、下半年“失蹤”的客戶。

通過(guò)查看顧客在你處的最近購(gòu)買情況,可以修正這一問(wèn)題。如果花費(fèi)和購(gòu)買頻率相似,那么昨天在你處買東西的顧客,價(jià)值比11個(gè)月前購(gòu)買過(guò)的顧客要高。

總結(jié)一下,你為每位顧客計(jì)算:

過(guò)去12個(gè)月在你處的花銷

過(guò)去12個(gè)月在你處發(fā)生的交易數(shù)量

上一次交易到現(xiàn)在有幾周

你可以基于上面的三個(gè)測(cè)度排序顧客列表:

測(cè)度轉(zhuǎn)換為10分制(十分位)

選中其中的前100000名顧客。

恭喜!你剛剛發(fā)現(xiàn)的是價(jià)值很高的RFM(Recency-Frequency-Monetary)啟發(fā)式算法,直銷領(lǐng)域久經(jīng)考驗(yàn)的主力算法。

萬(wàn)一你好奇R、F、M中哪個(gè)最重要,據(jù)研究R最重要。

RFM方法易于創(chuàng)建,易于解釋,易于使用。最妙的是,它出人意料地有效。有經(jīng)驗(yàn)的直銷從業(yè)者會(huì)告訴你,即使當(dāng)更復(fù)雜的模型戰(zhàn)勝RFM的時(shí)候,兩者之間的差距也比你想象的要小得多,讓你懷疑是否有必要構(gòu)建復(fù)雜模型。

推薦系統(tǒng)

接下來(lái),我們來(lái)看一個(gè)推薦系統(tǒng)的例子。

你工作的服裝零售商有一家電商網(wǎng)站,需要你創(chuàng)建產(chǎn)品推薦區(qū)域,該區(qū)域?qū)@示在首頁(yè)上。

服裝推薦需要個(gè)性化——如果訪問(wèn)者之前訪問(wèn)過(guò)你的站點(diǎn),你需要基于歷史數(shù)據(jù)推薦符合他們口味的商品

有些書(shū)整本都在討論這一主題,而GitHub上也有許多專門為此開(kāi)發(fā)的庫(kù)。你是不是應(yīng)該直接開(kāi)始應(yīng)用矩陣分解(點(diǎn)擊閱讀)?

到了一定時(shí)候你大概應(yīng)該嘗試下矩陣分解,但剛開(kāi)始你不應(yīng)該直接應(yīng)用矩陣分解。你首先應(yīng)該創(chuàng)建一個(gè)常識(shí)基線。

向訪問(wèn)者展示相關(guān)商品的最簡(jiǎn)單的方案是什么?

暢銷商品!

是的,它們并不是個(gè)性化的。但是暢銷商品之所以是暢銷商品,正是因?yàn)橛凶銐虻脑L問(wèn)者購(gòu)買了它們。所以從這個(gè)意義上說(shuō),很大可能至少相當(dāng)一部分訪問(wèn)者會(huì)對(duì)這些商品感興趣,即使這些商品并不是根據(jù)訪問(wèn)者的興趣定制的。

此外,不管怎么說(shuō),你都需要準(zhǔn)備好顯示暢銷商品,畢竟你需要向沒(méi)有數(shù)據(jù)的初次訪問(wèn)者展示一些東西。

選中暢銷商品很簡(jiǎn)單。確定一個(gè)時(shí)間窗口(最近24小時(shí)、最近7天、……),確定一項(xiàng)測(cè)度(利潤(rùn)、訪問(wèn)量、……),確定計(jì)算周期(每小時(shí)、每日、……),編寫(xiě)查詢請(qǐng)求并加以自動(dòng)化。

并且你可以調(diào)整這一基線,稍稍加上一點(diǎn)個(gè)性化。比如說(shuō),如果記住了訪問(wèn)者上次訪問(wèn)站點(diǎn)瀏覽的商品類別,那么你可以直接從這一具體類別中選出暢銷商品(而不是選出所有類別的暢銷商品),在推薦區(qū)域展示。例如,上次訪問(wèn)時(shí)瀏覽過(guò)女裝類別的訪問(wèn)者,可以向她展示暢銷女裝。

需要澄清的是,上面描述的“調(diào)整”涉及開(kāi)發(fā)工作,因?yàn)槟阈枰坝涀 辈煌L問(wèn)會(huì)話的信息。但是,如果你計(jì)劃創(chuàng)建、交付基于模型的個(gè)性化推薦,那么這些收集信息的開(kāi)發(fā)工作是免不了的。

定價(jià)優(yōu)化

最后一個(gè)例子是零售定價(jià)優(yōu)化。

作為一個(gè)服裝零售商,你販賣季節(jié)性商品——例如,毛衣——在季節(jié)末,需要清庫(kù)存,以便為下一季的商品留出空間。服裝業(yè)對(duì)此的標(biāo)準(zhǔn)做法是減價(jià)促銷。

如果折扣太小,最后時(shí)刻你將不得不以廢品回收的價(jià)格出清積壓的季節(jié)性商品。如果折扣太大,季節(jié)性商品會(huì)很快售罄,但是你損失了賺取更多金錢的機(jī)會(huì)。

在服裝行業(yè),平衡這兩者的藝術(shù)稱為清倉(cāng)優(yōu)化或減價(jià)優(yōu)化。

有大量關(guān)于如何使用數(shù)據(jù)科學(xué)技術(shù)建模和求解這一問(wèn)題的文獻(xiàn)(例如,牛津價(jià)格管理手冊(cè)的第25章,利益申明:這書(shū)是我寫(xiě)的)。但是讓我們首先考慮下如何創(chuàng)建一個(gè)常識(shí)基線。

想象一下,手頭有100單位的毛衣,這一季還有4周。每周可以調(diào)一次價(jià),也就是說(shuō)你有4次出手調(diào)整的機(jī)會(huì)。

你應(yīng)該從本周就開(kāi)始減價(jià)嗎?

好吧,首先考慮下,你覺(jué)得如果維持價(jià)格不變,下面4周可以賣掉多少單位毛衣?

我們?nèi)绾喂烙?jì)這一數(shù)值?最簡(jiǎn)單的做法是看看上一周賣了多少。

假定上一周賣了15單位。如果接下來(lái)4周和上一周情況差不多,那么我們將賣出60單位,到了季節(jié)末會(huì)積壓40單位。

不妙。明顯需要減價(jià)。

零售商有時(shí)使用折扣階梯,八折、七折、六折……最簡(jiǎn)單的做法是首先邁上折扣階梯的第一階,也就是下周開(kāi)始八折促銷。

快進(jìn)一周。比方說(shuō)賣掉了20單位,剩下80單位和3周。假設(shè)剩下3周維持相同的賣出率(例如,20單位每周),總共將賣出60單位,季節(jié)末仍將積壓20單位。所以你需要在折扣階梯上往下走一階,下周開(kāi)始增加促銷力度,改為七折出售。

以此類推,在每周重復(fù)以上策略,直到季節(jié)末。

取決于賣出率對(duì)折扣的響應(yīng)程度,不同的商品可能遵循不同的折扣路徑。比如,相比下圖中的商品A,商品B需要更大力度的折扣刺激。

這一常識(shí)基線可以通過(guò)非常簡(jiǎn)單的if-then邏輯實(shí)現(xiàn)。和上面的個(gè)性化推薦例子一樣,我們也可加以調(diào)整(例如,之前我們直接使用上一周的銷售單位數(shù)“預(yù)測(cè)”未來(lái)幾周的銷售量,但是我們也可以轉(zhuǎn)而使用前幾周的平均銷售量)。

搞定了基線之后,你可以勇往直前,釋放數(shù)據(jù)科學(xué)的全部火力。但是不管你做了什么,都需要將所得結(jié)果與基線進(jìn)行比較,從而精確地評(píng)估工作的回報(bào)。

結(jié)語(yǔ)

在很多問(wèn)題上,古老的二八法則仍然適用。常識(shí)基線經(jīng)常能夠讓你以很快的速度取得80%的價(jià)值。

隨著越來(lái)越多數(shù)據(jù)科學(xué)技術(shù)的應(yīng)用,你將看到更高的價(jià)值,但價(jià)值增長(zhǎng)的速度越來(lái)越慢。取決于具體情況,你當(dāng)然可以決定使用一個(gè)復(fù)雜方案榨取最后一點(diǎn)價(jià)值。不過(guò)你應(yīng)該在很清楚增加的成本和收益的前提下才這么做。

常識(shí)基線能從根本上保護(hù)你避免理查德·費(fèi)曼提到的著名危險(xiǎn):

首要原則是,你千萬(wàn)不能愚弄自己,最容易被愚弄的人是你自己。

創(chuàng)建數(shù)據(jù)科學(xué)模型可能是一個(gè)非常享受的過(guò)程,你很容易哄騙自己,你所創(chuàng)建的復(fù)雜、傾注了很多心血、精心調(diào)整的模型(從成本/收益角度上而言)更好,而實(shí)際上并沒(méi)有那么好。

常識(shí)基線能夠迅速交付價(jià)值,也能避免自我欺騙。請(qǐng)養(yǎng)成首先創(chuàng)建基線的好習(xí)慣。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:數(shù)據(jù)科學(xué)項(xiàng)目的第一步:創(chuàng)建常識(shí)基線

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    [4.1]--4.1數(shù)據(jù)科學(xué)流程(1)

    數(shù)據(jù)科學(xué)
    jf_75936199
    發(fā)布于 :2023年04月05日 00:33:44

    [4.2]--4.2數(shù)據(jù)科學(xué)流程(2)

    數(shù)據(jù)科學(xué)
    jf_75936199
    發(fā)布于 :2023年04月05日 00:35:23

    [5.1]--5.1數(shù)據(jù)科學(xué)技術(shù)體系框架

    數(shù)據(jù)科學(xué)
    jf_75936199
    發(fā)布于 :2023年04月05日 00:37:14

    Python數(shù)據(jù)科學(xué)速查表

    Python數(shù)據(jù)科學(xué)速查表
    發(fā)表于 11-25 21:18

    思考驅(qū)動(dòng)創(chuàng)新,創(chuàng)新驅(qū)動(dòng)發(fā)展:基于假設(shè)(Assumption)的思考技術(shù)

    的推理能力,以戰(zhàn)術(shù),來(lái)支撐戰(zhàn)略。【本文內(nèi)容】1. 創(chuàng)新的源頭:假設(shè)(Assumption)&假定(Hypothesis) 無(wú)論在商業(yè)決策上、產(chǎn)品設(shè)計(jì)方面或科學(xué)技術(shù)上,假設(shè)性的想法,都扮演非常重要
    發(fā)表于 12-21 10:23

    如何培養(yǎng)<龍傳人>的科學(xué)創(chuàng)新思考技術(shù)

    前言我提出一項(xiàng)假設(shè)科學(xué)創(chuàng)新能力式微的原因是:缺乏假設(shè)性思考習(xí)慣。于是提出一項(xiàng)激發(fā)創(chuàng)新的策略:推廣溯因推理(Abductive),培養(yǎng)下一代習(xí)慣于假設(shè)性思維。
    發(fā)表于 12-28 09:45

    S32K144 lpuart1收不到slave IC的響應(yīng)數(shù)據(jù)何解決?

    大家好,我使用 S32K144 LPUART1 模塊通過(guò) CAN 收發(fā)器向從 IC 發(fā)送控制命令,從 IC 響應(yīng)數(shù)據(jù)到 MCU,MCU 無(wú)法接收響應(yīng)數(shù)據(jù)(0x7A,0XC7 和 0x81),我按照演示項(xiàng)目配置 lpuart,但是測(cè)試結(jié)果是一樣的。我不知道原因以及如
    發(fā)表于 03-21 06:32

    基于橢圓假設(shè)的電子羅盤(pán)誤差補(bǔ)償方法

    研究了一種智能電子羅盤(pán)的誤差補(bǔ)償問(wèn)題。把誤差的形成過(guò)程假設(shè)為從圓到橢圓的變化過(guò)程(橢圓假設(shè)) ,其逆過(guò)程就是誤差補(bǔ)償?shù)倪^(guò)程。研究了基于橢圓假設(shè)求解誤差系數(shù)算法和誤差
    發(fā)表于 06-22 11:55 ?41次下載

    編程能力是一種解決問(wèn)題的能力

    編程能力是一種解決問(wèn)題的能力。如果問(wèn)題沒(méi)能被很好地解決,知道再多也沒(méi)用。 編程能力是一種運(yùn)用機(jī)器解決問(wèn)題的能力。首先是要判斷問(wèn)題在什么程度上可被機(jī)器解決,比如理論計(jì)算機(jī)科學(xué)會(huì)告訴我們什么可做
    發(fā)表于 10-12 10:52 ?0次下載

    10年后,數(shù)據(jù)科學(xué)家會(huì)像當(dāng)年的網(wǎng)管一樣,成為歷史嗎?

    3年后,更高級(jí)別的工具將越來(lái)越多地減少對(duì)基礎(chǔ)技術(shù)的專業(yè)知識(shí)的要求。這些工具的不僅簡(jiǎn)化了數(shù)據(jù)科學(xué)家的工作流程、提升了工作效率,更重要的是降低了入行門檻,及時(shí)沒(méi)學(xué)過(guò)數(shù)據(jù)科學(xué)的人,
    的頭像 發(fā)表于 03-05 08:45 ?2635次閱讀

    什么是科學(xué)假設(shè)?什么是統(tǒng)計(jì)假設(shè)?什么又是機(jī)器學(xué)習(xí)假設(shè)呢?

    說(shuō)的專業(yè)些,這個(gè)叫做函數(shù)逼近。就是說(shuō)我們想找到一個(gè)接近于我們目標(biāo)函數(shù)(我們假設(shè)它存在)的方程,可以滿足在問(wèn)題定義域里所有觀測(cè)結(jié)果都可以從輸入映射到輸出結(jié)果。
    的頭像 發(fā)表于 03-16 10:02 ?7808次閱讀

    什么是數(shù)據(jù)科學(xué)數(shù)據(jù)科學(xué)的入門教程說(shuō)明

    本文檔的主要內(nèi)容詳細(xì)介紹的是什么是數(shù)據(jù)科學(xué)數(shù)據(jù)科學(xué)的入門教程說(shuō)明
    發(fā)表于 04-10 08:00 ?1次下載
    什么是<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>科學(xué)</b>?<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>科學(xué)</b>的入門教程說(shuō)明

    企業(yè)如何解數(shù)據(jù)科學(xué)家短缺詳細(xì)方法什么

     隨著企業(yè)以數(shù)據(jù)為中心的文化,以做出決策和規(guī)劃,數(shù)據(jù)科學(xué)家對(duì)全球企業(yè)的重要性日益增加。但是企業(yè)無(wú)法足夠快地聘請(qǐng)數(shù)據(jù)科學(xué)家,因?yàn)楹细窈蜻x人仍然
    的頭像 發(fā)表于 04-18 10:31 ?3478次閱讀

    假設(shè)檢驗(yàn)|第六章:原假設(shè)和備擇假設(shè)

    從t檢驗(yàn)到回歸分析,甚至是DOE中,大家都可以看到P值的身影。P值對(duì)于很多朋友來(lái)說(shuō),可以說(shuō)是又愛(ài)又恨。而在我看來(lái),要想準(zhǔn)確地使用P值,我們首先要理解兩個(gè)概念:原假設(shè)和備擇假設(shè)。 P值與原假設(shè) 利用
    的頭像 發(fā)表于 11-07 15:44 ?4057次閱讀

    傅里葉變換有多偉大?傅里葉變換告訴我們?nèi)?b class='flag-5'>何解決問(wèn)題

    傅里葉變換有多偉大?傅里葉變換告訴我們?nèi)?b class='flag-5'>何解決問(wèn)題? 傅里葉變換是一種數(shù)學(xué)工具,它可以將一個(gè)函數(shù)分解成一系列振幅和相位的頻率,這些頻率在某些領(lǐng)域 (如信號(hào)處理、圖像處理和物理學(xué)等)中被廣泛
    的頭像 發(fā)表于 09-07 16:14 ?914次閱讀
    主站蜘蛛池模板: 视频专区亚洲欧美日韩| 99re6久久在热线视频| 亚洲妈妈精品一区二区三区| 伊人久久网国产伊人| 99re这里只有精品视频| 国产精品久久久久AV麻豆| 久久国产乱子伦精品免费M| 欧美14videosex性欧美成人| 无遮挡h肉3d动漫在线观看| 中国xxxxx| 国产精品av| 免费观看的毛片| 亚洲 日韩 自拍 视频一区| 97精品在线观看| 国产看黄网站又黄又爽又色| 蜜臀AV99无码精品国产专区| 性色AV一区二区三区咪爱四虎| 97人人爽人人爽人人人片AV| 国产精自产拍久久久久久蜜| 两个奶被男人揉了一个晚上| 天天躁日日躁狠狠躁AV麻豆 | 巨爆乳中文字幕爆乳区| 手机在线亚洲日韩国产| 在线免费视频国产| 国产噜噜噜精品免费| 欧美精品华人在线| 亚洲三级在线观看| 高h乱一受多攻男男| 美女厕所撒尿ass| 亚洲mv在线观看| 成人国产精品免费网站| 久久夜色精品国产亚州AV卜| 无码欧美毛片一区二区三在线视频 | 亚洲精品无码午夜福利在线观看| A级毛片无码久久精品免费| 精品熟女少妇AV免费观看| 色翁荡熄月月| china中国gay偷拍| 久久亚洲高清观看| 亚洲精品成人a| 嘟嘟嘟WWW在线观看视频高清|