三位統計學家在Nature上發布公開信,號召科學家放棄追求“統計學意義”,這封公開信一周之內吸引了超過800名研究人員共同簽署。大學里好不容易聽懂的統計學,會變成一件沒“意義”的事情嗎?
統計學白學了?
最新一期Nature雜志發表了三位統計學家的一封公開信,他們號召科學家放棄追求“統計學意義”,并且停止用統計學中常見的P值作為判斷標準。
一般認為P≤0.05或者P≤0.01就有顯著性差異,研究就有統計意義。
統計學上無顯著的結果并不能“證明”零假設;統計上顯著的結果也沒有“證明”某些其他假設。事實真的是這樣嗎?
他們的這篇文章名為《科學家們起來反對統計學意義》(Scientists rise up against statistical significance)。
標題猶如戰斗檄文一樣令人振奮。在文章發出不到24小時,就有250多人簽名支持,一周之內吸引了超過800名研究人員共同反對。
大學里好不容易聽懂的統計學,會變成一件沒“意義”的事情嗎?
為什么要放棄統計學意義的概念?
幾代人以來,研究人員一直被警告說:統計上不顯著的結果并不能“證明”零假設(即假設各組之間沒有差異,或者某個處理方法對某些測量結果沒有影響)。統計上顯著的結果也不能“證明”其他一些假設。這種誤解用夸大的觀點扭曲了文獻,而且導致了一些研究之間的沖突。
因此,三位統計學家提出一些建議,讓科學家們不至于成為這些誤解的犧牲品。
首先明確必須停止的事:永遠不應該僅僅因為P值大于閾值(如0.05)就得出“沒有差異”或“沒有關聯”的結論;或者,僅僅因為置信區間包含0就得出這樣的結論。
同時,我們也不應該斷定兩項研究之間存在沖突,只因為其中一項研究的結果具有統計學意義,而另一項則沒有。這些錯誤浪費了研究工作,誤導了政策決策。
例如,考慮一系列對消炎藥意外效果的分析。由于他們的研究結果在統計學上不顯著,一組研究人員得出結論說:暴露在這些藥物中與新發房顫(最常見的心律紊亂)“無關”,并且這些結果與之前的一項研究結果相反,而之前的研究結果具有統計學意義。
現在,讓我們看看實際的數據。研究人員描述了他們的統計不顯著的結果,發現風險比為1.2。他們還發現95%的置信區間跨越了從微不足道的風險降低3%到非常顯著的風險增加48%(P = 0.091)。研究人員從較早的具有統計學意義的研究中發現,風險比同樣為1.2。這項研究更加精確,其風險區間在9%到33%之間(P = 0.0003)。
當區間估計包含嚴重的風險增加時,得出結論認為統計上不顯著的結果顯示“無關聯”是荒謬的;同樣荒謬的是,聲稱這些結果與先前研究中顯示相同觀察效果的結果相反。然而,這些常見的實踐表明,依賴統計意義上的閾值會誤導我們。
謹防錯誤結論
這些錯誤以及類似的錯誤普遍存在。對數百篇文章的調查發現,統計上不顯著的結果被解釋為“沒有差異”或“沒有影響”的約有一半。
2016年,美國統計協會在《美國統計學家》上發表聲明,警告誤用統計意義和P值。本月,《美國統計學家》雜志又發表了40多篇關于“21世紀的統計推斷:一個沒有P<0.05的世界”的論文。編輯們在介紹這期特刊的時候謹慎地說,“不要說’統計意義重大’”。
《美國統計學家》雜志最新報道
三位統計學家也同意這一點,并呼吁放棄整個統計意義的概念。
停止使用非黑即白的P值,800多研究者同意
這三位統計學家寫完《科學家們起來反對統計學意義》(Scientists rise up against statistical significance)一文草稿之后,邀請了其他人閱讀,并表示如果人們同意三人的觀點,就簽上自己的名字。
沒想到這篇文章得到了諸多人的贊同,在最初的24小時內,就有250人簽了名。一星期后,共收到800多份簽名,簽名者包括來自50多個國家的統計學家、臨床和醫學研究人員、生物學家和心理學家,除南極洲沒人以外,所有大洲都有人簽名。
一名倡導者稱,這是“對統計意義輕率測試的外科手術式打擊”,也是“一個為更好的科學實踐發聲的機會”。
同時,三位統計學家也強調,他們不是在呼吁禁止P值。不是說P值不能在某些特定的應用程序中用作決策標準,而是他們與過去幾十年的許多其他研究結果一樣,呼吁停止以傳統的二分法使用P值——來決定結果是反駁還是支持一項科學假設。
避免這種“二分法”的一個原因是,所有的統計數據,包括P值和置信區間,都會隨著研究的不同而自然地發生變化,并且往往變化非常大。事實上,單憑隨機變化就能很容易導致P值的巨大差異,遠遠不止落在0.05閾值的任何一側。例如,即使研究人員可以對一些真實的效果進行兩次完美的復制研究,每次都有80%的機會達到P < 0.05,那么其中一個得到P < 0.01,另一個得到P > 0.30也就不足為奇了。無論P值是大是小,都需要謹慎。
問題不在于統計,而在于人和認知:把結果分成“統計顯著性”和“統計非顯著性”,讓人們認為以這種方式分配的項目是截然不同的。同樣的問題也可能出現在任何涉及二分法的統計替代方法中,無論是頻域法、貝葉斯法還是其他方法。
不幸的是,科學家和期刊編輯們錯誤地認為,超過統計意義的臨界值就足以證明一個結果是“真實的”,這導致他們對這類結果給予了特權,從而扭曲了文獻。統計上有意義的估計值在大小上向上偏倚,而且可能偏差的幅度很大,而統計上不顯著的估計值是向下偏倚的。
因此,任何側重于統計學意義的估計的討論都是有偏見的。最重要的是,對統計意義的嚴格關注鼓勵研究人員選擇一些數據和方法,這些數據和方法對于某些期望的結果具有統計顯著性(或者僅僅是可發表的),或者對于不期望的結果沒有統計顯著性,例如藥物的潛在副作用,從而使結論無效。
預先登記研究和承諾公布所有分析的所有結果可以大大減輕這些問題。然而,即使是預先登記的研究結果也可能因分析計劃中始終未作決定而產生偏差。即使是出于好意,這也會發生。
放棄了統計學意義,我該怎么辦?
Nature在2014年的一篇文章中,討論了P值并不像許多科學家所假設的那樣可靠,當時文章引起了業界很大反響,由此引發了后來美國統計協會在2016年警告濫用統計意義和P值。
如果研究人員確實放棄了統計學意義,他們應該做些什么呢?
三位統計學家認為:我們必須學會接受不確定性。
一種實用的方法是將置信區間重新命名為“兼容區間”(compatibility intervals),并以避免過度自信的方式解釋它們。具體地說,建議作者描述區間內所有值的實際含義,特別是觀察到的效果和極限。在這樣做時,他們應該記住,考慮到用來計算區間的統計假設,區間極限之間的所有值都與數據合理地兼容。因此,在區間中挑出一個特定的值(例如null值)沒有任何意義。
當談到兼容間隔時,請記住四件事:
首先,僅僅因為區間給出了與數據最相容的值,在給定假設條件下,并不意味著區間外的值是不相容的;它們只是兼容性較差。事實上,區間外的值與區間內的值沒有本質上的區別。因此,說區間表示所有可能的值是錯誤的。
其次,根據假設,并不是所有的值都與數據一致。點估計值(point estimate)是最兼容的,接近它的值比接近極限的值更兼容。這就是為什么我們敦促作者討論點估計,即使他們有一個大的P值或一個大的區間,以及討論該區間的極限。
第三,與0.05的閾值一樣,用于計算區間的默認95%本身也是一種任意約定。它基于這樣一種錯誤的想法,即計算出的區間本身有95%的幾率包含真實值,同時還有一種模糊的感覺,即這是一個自信決策的基礎。根據應用程序的不同,可以調整不同的級別。而且,就像在抗炎藥物的例子中一樣,如果把區間估計施加的二分法當作一種科學標準來對待,區間估計可能會使統計顯著性的問題長期存在。
最后,也是最重要的一點,要謙虛:兼容性評估取決于用于計算區間的統計假設的正確性。在實踐中,這些假設受制于相當大的不確定性。使這些假設盡可能清晰,并測試你可以測試的假設,例如通過繪制數據并擬合替代模型,然后報告所有結果。
無論統計數據顯示什么,都可以為你的結果提出理由,但要討論一系列可能的解釋,而不僅僅是你喜歡的那些。推論應該是科學的,而不僅僅是統計的。背景證據、研究設計、數據質量和對潛在機制的理解等因素往往比P值或區間等統計度量更重要。
同時,三位統計學家呼吁消除統計意義,并將置信區間作為兼容性區間,這并不是萬靈藥。盡管它將消除許多不好的實踐,但它很可能引入新的問題。因此,監測文獻中的統計濫用應該是科學界目前的一項優先事項。
但是,當原始研究和復制研究的結果高度一致時,消除分類將有助于阻止過分自信的斷言、“沒有區別”的不合理聲明和關于“復制失敗”的荒謬聲明。濫用統計意義對科學界和那些依賴科學建議的人造成了很大的危害。P值、區間和其他統計度量都有它們的位置,但現在是統計意義消失的時候了。
這也并不意味著大學的統計學白上了。研究人員可以從教育自己對統計的誤解開始,最重要的是在每項研究中從多個角度考慮不確定性。從邏輯、背景知識和實驗設計應與P值和類似指標一起考慮,以得出結論并確定其確定性。
在確定使用哪種方法時,研究人員還應盡可能地關注實際問題。對于使用統計數據的最佳方式而言,在抽象理論上給予否定的人,在提出具體情景時,往往會給予肯定的結果。
簡而言之,要持懷疑態度,選擇一個好問題,并嘗試以多種方式回答它。畢竟,接近事實需要很多數字。
最后,介紹一下這三位統計學家。
Valentin Amrhein,瑞士巴塞爾大學的動物學教授;
Sander Greenland,加州大學洛杉磯分校的流行病學和統計學教授;
Blake McShane,伊利諾伊州埃文斯頓西北大學的統計學方法學家和營銷學教授。
-
數據
+關注
關注
8文章
7067瀏覽量
89108 -
科學家
+關注
關注
0文章
35瀏覽量
11253 -
統計
+關注
關注
1文章
19瀏覽量
13514
原文標題:大學統計學白上了?800多科學家聯名反對“統計學意義”,P值該廢了
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論