色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

數據科學家需要知道的5個基本統(tǒng)計概念,如何才能最有效地應用它們

電子工程師 ? 來源:未知 ? 作者:李倩 ? 2018-11-07 10:57 ? 次閱讀

對于數據科學的藝術,統(tǒng)計學可以說是一個強大的工具。從高層次的角度來看,統(tǒng)計是利用數學對數據進行技術分析。一個基本的可視化,如條形圖,可以給你提供一些高級的信息,但是通過統(tǒng)計學,我們可以以一種更加以信息驅動和更有針對性的方式來操作數據。所用到的數學方法能幫助我們對數據形成具體的結論,而不是去靠猜測。

通過使用統(tǒng)計學,我們可以更深入、更細致地了解我們的數據到底是如何構造的,并基于這種結構,我們如何最佳地應用其他數據科學技術來獲取更多的信息。現(xiàn)在,我們來看看數據科學家們需要知道的5個基本統(tǒng)計概念,以及如何才能最有效地應用它們!

統(tǒng)計特征

統(tǒng)計特征可能是數據科學中最常用的統(tǒng)計概念。這通常是你在研究數據集時應用的第一種統(tǒng)計技術,包括偏差、方差、平均值、中位數、百分位數等。這一切都相當容易理解并在代碼中實現(xiàn)!看看下面的圖表。

一個簡單的箱型圖

中間的那條線是數據的中位數。由于中位數對離群值的魯棒性更強,因此中位數比平均值用得更多。第一個四分位數本質上是第25百分位數,表示數據中25%的點低于這個值。第三個四分位數是第75百分位數,表示數據中75%的點都低于這個值。最小值和最大值表示數據范圍的上、下端。

一個箱型圖完美地闡述了我們能用基本統(tǒng)計特征做什么:

當框圖很短時,它意味著許多數據點是相似的,因為在小范圍內有許多值

當框圖很長時,它意味著許多數據點是完全不同的,因為這些值分布在一個較廣的范圍內

如果中值更接近底部,那么我們知道大多數數據的值更低。如果中值更接近頂部,那么我們知道大多數數據都有更高的值。基本上,如果中值線不在方框中間,那么它就表示數據有偏斜。

是否有長尾?這意味著你的數據有很高的標準差和方差,說明這些值是分散的,高度不同。如果你在盒子的一邊有長尾而在另一邊沒有,那么你的數據可能只在一個方向上有很大的變化。

所有這些信息都來自一些簡單的統(tǒng)計特征,并且很容易計算!當你需要對數據進行快速而有效的查看時,請嘗試這些方法。

概率分布

我們可以將概率定義為某個事件發(fā)生的概率百分比。在數據科學中,通常在0到1之間進行量化,0表示我們確信不會發(fā)生,1表示我們確信它會發(fā)生。概率分布是一個函數,表示實驗中所有可能值的概率。請看下面的圖表。

均勻分布是我們在這里展示的3個分布中最基本的。它只有一個值,這個值只出現(xiàn)在某個范圍內,而超出這個范圍的任何值都是0。這在很大程度上是一種“開關”分布。我們也可以把它看作是一個有兩個類別的分類變量:0或其他值。你的分類變量可能有多個非0的值,但我們仍然可以把它想象成多個均勻分布的分段函數。

正態(tài)分布,通常被稱為高斯分布,由均值和標準差定義。均值在空間上平移分布,標準差控制分散程度。與其他分布的重要區(qū)別(比如泊松分布)是,其所有方向上的標準差都是一樣的。因此,對于高斯分布,我們知道數據集的平均值以及數據的發(fā)散程度(例如,它是廣泛分布的還是高度集中在少數幾個值)。

泊松分布與正態(tài)分布相似,但增加了偏斜因子。在偏態(tài)值較低的情況下,泊松分布會像正態(tài)分布一樣向各個方向均勻發(fā)散。但當偏度值較大時,我們的數據在不同方向的發(fā)散會不同;在一個方向,它將非常分散,在另一個方向,它將高度集中。

雖然有很多的分布可以深入研究,但這3個已經給我們帶來了很多價值。我們可以用均勻分布快速地看到和解釋分類變量。如果我們看到一個高斯分布便知道有很多算法在默認情況下都能很好地處理高斯分布,所以我們應該這樣做。有了泊松分布,我們會發(fā)現(xiàn)必須特別小心選擇一種對空間發(fā)散的變化具有魯棒性的算法。

降維

降維這個術語很容易理解。我們有一個數據集,希望減少它的維數。在數據科學中,它是特征變量的數量。請看下面的圖表。

降維

立方體代表我們的數據集,它有三個維度,總共有1000個點。雖然1000個點的計算在今天很容易處理,但是對于更大的范圍我們仍然會遇到問題。然而,僅僅從二維的角度來看我們的數據,例如從立方體的一邊,我們可以看到,從這個角度劃分所有的顏色是很容易的。通過降維,我們可以將三維數據投射到二維平面上。這有效地將我們需要計算的點數減少了100,大大節(jié)省了計算量!

另一種降維方法是特征剪枝。有了特征剪枝,我們可以刪除對分析不重要的任何特征。例如,在研究數據集之后,我們可能會發(fā)現(xiàn),在10個特性中,有7個特性與輸出的相關性很高,而其他3個特性的相關性很低。那么,這3個低相關特性可能不值得計算,不過我們只能根據分析在不影響輸出的情況下將它們刪除。

當前用于降維的最常見的技術是PCA,它本質上是創(chuàng)建了特征的向量表示,顯示它們對輸出有多重要,比如他們的相關性。PCA可以用于上面討論的兩種降維方式。在此教程中可以了解到更多信息。

過采樣與欠采樣

過采樣和欠采樣是用于分類問題的技術。有時,我們的分類數據集可能會嚴重傾斜到一邊。例如,類1有2000個樣本,但類2只有200個。這將對很多我們常用于建模并預測的機器學習技術帶來影響!但過采樣和欠采樣可以與之對抗。請看下面的圖表。

欠采樣與過采樣

在上圖的左邊和右邊,我們的藍色類比橙色類擁有更多的樣本。在這種情況下,有兩個預處理選項可以幫助我們的機器學習模型的訓練。

欠采樣意味著我們將只從多數類中選擇一部分數據,只使用與少數類樣本數相同的數量。這個方案應當保證采樣后類別的概率分布與之前相同。操作很容易,我們只是通過取更少的樣本來平衡數據集!

過采樣意味著我們將創(chuàng)建少數類的副本,以便擁有與多數類相同的樣本。創(chuàng)建副本時應當保證少數類的分布不變。這個方案中,我們只是把我們的數據集變得更均衡,并沒有得到更多的數據!

貝葉斯統(tǒng)計

為了充分理解為什么我們要使用貝葉斯統(tǒng)計,需要首先了解頻率統(tǒng)計不足的地方。頻率統(tǒng)計是大多數人聽到“概率”這個詞時會想到的統(tǒng)計方法。它應用數學來分析某些事件發(fā)生的概率,具體來說,我們使用的數據都是先驗的。

我們看一個例子。假設給你一個骰子然后問你擲出6的概率是多少,大多數人會說1 / 6。確實,如果我們做頻率分析,會通過一些數據比如某人擲骰子10000次,然后計算每個數字出現(xiàn)的頻率;大概是1 / 6!

但如果有人告訴你,給你的那個骰子是被改造過的并且落地后總會是6的那面朝上呢?頻率分析只考慮了先驗的數據,并沒有考慮骰子被改造過這個因素。

貝葉斯統(tǒng)計確實考慮到了這個問題,可以用貝葉定理來說明這一點:

貝葉斯定律

方程中的概率P(H)基本上就是頻率分析;表示根據之前的先驗數據,事件發(fā)生的概率是多少。方程中的P(E|H)被稱為似然,本質上是根據頻率分析得到的信息的條件下,我們得到的結論是正確的概率。例如,滾動骰子10000次,而前1000次全部得到6,你會開始肯定,骰子是被改造過的!P(E)是實際結論成立的概率。如果我告訴你,骰子是改造過的,你能相信我并說它是真的嗎?

如果我們的頻率分析很好那么就會有一定的權重說明:是的,我們對6的猜測是正確的。與此同時,我們考慮了改造骰子的事實,它是否為真,同時基于它自己的先驗和頻率分析。從方程的布局可以看出,貝葉斯統(tǒng)計考慮了所有的因素。當你覺得之前的數據不能很好地代表未來的數據和結果時,就使用它。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7080

    瀏覽量

    89175
  • 數據科學
    +關注

    關注

    0

    文章

    165

    瀏覽量

    10078

原文標題:數據科學家需要知道的 5 個基本統(tǒng)計學概念

文章出處:【微信號:DBDevs,微信公眾號:數據分析與開發(fā)】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    TI科學家談浮點DSP未來發(fā)展

    TI科學家談浮點DSP未來發(fā)展 自十多年前浮點數字信號處理器(DSP)誕生以來,便為實時信號處理提供了算術上更為先進的備選方案。不過,定點器件至今仍是業(yè)界的主流--當然低成本是主要原因。定點DSP每
    發(fā)表于 11-03 15:18

    科學家研制可在黑暗中使用的細菌發(fā)電生物電池

    促使細胞內發(fā)生化學反應。科學家已經清楚,細菌會對礦物質和金屬產生影響,但這是首次證實它們可以直接釋放電流。在這方面可能有其他種類的細菌比我們當前采用的細菌做得更加出色。未來的生物電池將在沒有太陽能
    發(fā)表于 12-03 12:41

    科學家建新設備將光束變固體 可用于研制量子計算機

    更進一步地分析和探究之外,還將有助于他們最終制造出量子計算機。  為了制造出最新設備,研究人員制造出了一結構,由包含有1000億原子的超導材料組成,科學家們采用工程學方法,使這1000億
    發(fā)表于 09-28 10:34

    科學家推出多種波動描記傳感器

      美國得克薩斯大學的科學家們最新一項研究結果表明,人們很快將根據腸子的波動情況當場揭穿騙子的謊言。  該大學的科研小組還認為,將來有一天,以記錄心臟活動為主的多種波動描記器將極大地提高其工作質量
    發(fā)表于 10-24 11:40

    如何有效地盤活閑置的頻譜資源?

    ;另一方面,已經分配或指配給現(xiàn)有很多無線業(yè)務的頻譜卻在時間和空間上存在不同程度的閑置。那么,如何有效地盤活那些閑置的頻譜資源,解決這一制約無線通信發(fā)展的新瓶頸?美國科學家Joseph Mitola博士提出了認知無線電(CR)的概念
    發(fā)表于 08-02 08:21

    AI人才炙手可熱 數據科學家和機器學習工程師出現(xiàn)大缺口

    Culbertson說數據科學家是最熱門的AI職缺,AI需要輸入大量的高品質數據才能發(fā)揮效用,數據
    發(fā)表于 03-03 11:13 ?1043次閱讀

    通往數據科學家的崎嶇道路

    如果你曾經查看過數據科學家的崗位要求,你就知道它的職責范圍有多廣。有的數據科學家致力于自然語言處理、計算機視覺、深度學習,有的則從事A/B測
    的頭像 發(fā)表于 07-26 09:17 ?2587次閱讀

    哪些才是對數據科學家最迫切的技能呢?

    AngelList提供的是列出數據科學家崗位的公司數而不是崗位數。我把AngelList從所有分析里面排除掉了,因為其搜索算法似乎按照OR型的邏輯搜索進行,沒有辦法改成AND。如果你尋找的是“數據
    的頭像 發(fā)表于 11-19 18:14 ?3073次閱讀

    什么是數據科學家需要認證嗎?

    得以清晰化。”Fleming指出,IBM目前雇傭了大約1.5萬名被定義為數據科學家的技術人員,預計數據科學家人數的增長速度超過其雇員總數的增長速度。
    的頭像 發(fā)表于 02-14 09:41 ?6622次閱讀

    數據科學家與機器學習工程師怎么區(qū)分

    們只有統(tǒng)計學的時候,這個世界顯得更加簡單,但簡單并不總是科學的。而除了世界對數據科學家的需求程度以外,數據
    的頭像 發(fā)表于 05-18 11:24 ?3239次閱讀

    數據科學家常犯的10編程錯誤

    數據科學家是“比軟件工程師更擅長統(tǒng)計學,比統(tǒng)計學家更擅長軟件工程的人”。
    的頭像 發(fā)表于 05-24 14:50 ?2683次閱讀

    采訪資深數據科學家:成為數據科學家應具有的品質

    作為一門逐漸成熟的新興領域,與數據科學相關的很多領域開始變得備受青睞,比如數據工程,數據分析以及機器學習和深度學習。數據
    的頭像 發(fā)表于 06-30 11:28 ?2328次閱讀

    什么是數據科學家的最佳編程語言?

    每個數據科學學習者都最常問的問題:“ 什么是數據科學家的最佳編程語言?”。
    的頭像 發(fā)表于 07-05 11:32 ?2523次閱讀

    深入研究數據科學家使用的常見統(tǒng)計和分析技術

    數據科學技術如今已在許多組織中占有一席之地,數據科學家正迅速成為以數據為中心的組織最受歡迎的角色之一。
    的頭像 發(fā)表于 01-14 16:09 ?2004次閱讀

    面向工程師和科學家的大數據

      為了有效地利用大數據的優(yōu)勢,工程師和科學家需要可擴展的工具,例如 MATLAB,以提供對用于存儲和管理
    的頭像 發(fā)表于 10-06 07:52 ?655次閱讀
    主站蜘蛛池模板: xxxx88| 精品极品三大极久久久久| 久久久精品成人免费看| 一级黄色香蕉视频| 久久久久综合网久久| 中文字幕久久熟女人妻AV免费| 男人把女人桶到高潮嗷嗷叫| 耻辱诊察室1一4集动漫在线观看| 桃花论坛POWERED2019| 国产在线观看www鲁啊鲁免费| 一起洗澡的老师免费播放| 男人J放进女人P全黄网站| 国产69精品久久久久乱码韩国| 亚洲色欲色欲WWW在线成人网| 伊人最新网址| 欧美成ee人免费视频| 国产精品日本一区二区在线播放| 亚洲欧美日韩人成| 欧美亚洲国产专区在线| 国产乱子影视频上线免费观看| 在线免费观看a视频| 日韩做A爰片久久毛片A片毛茸茸| 国产精品野外AV久久久| 最近2018年手机中文字幕| 色美妞论坛| 美娇妻的性奴史1一4| 优菈的乳液狂飙天堂W98| 人妻超级精品碰碰在线97视频| 好吊妞国产欧美日韩视频| 99热免费精品店| 亚洲免费人成在线视频观看| 琪琪色原网站ying| 九九热国产视频| 古代荡乳尤物H妓女调教| 中文无码字慕在线观看| 玩50岁四川熟女大白屁股直播| 麻豆国产人妻欲求不满| 国产免费久久精品国产传媒| 99热在线观看精品| 伊人久久大香线蕉综合电影网 | jk白丝袜美女被男人桶|