四虎免费网址,亚洲快插,中文字幕亚洲一区二区v@在线

隨著計算機系統在各領域（例如醫療、教育、政府機關）的應用，正確預測并理解這些設備的因果影響是非常重要的。沒有A/B測試，建立在模式識別和相關性分析上的傳統的機器學習方法，是不足以解釋因果推理的。

與用來預測的機器學習庫類似，微軟研究院推出的DoWhy是一種引起因果思考和分析的Python庫，它提供了一個統一的界面進行因果推理，并對許多假設進行自動測試，讓非專業人士也能進行推理。該成果在最近舉辦的KDD 2018上做出了展示，以下是論智對其進行的大概介紹。

在《告別曲線擬合：因果推斷和do-Calculus簡介》一文中我們講到，因果推斷區分了人們可能想要估計的兩種條件分布。在機器學習中，我們通常只會估計一種分布，但在某種情況下，我們可能也需要估計第二種。因果推斷關注的是一些基礎問題，它能幫我們回答“如果我們對x做了什么，那……”的問題，而這些問題通常需要對照試驗和明確的干預措施來解決。

幾十年來，社會科學和生物醫學中，因果推斷方法的使用十分廣泛。隨著計算機在我們的工作和日常生活中所占比例越來越大，因果關系問題在計算機科學中的重要性也不斷增加。為了解決這個廣泛的問題，我們推出了一個新的軟件庫——DoWhy（名稱來源于Judea Pearl的do-calculus）。除了為常見的因果推斷方法提供一個程序設計界面，DoWhy的設計還是為了顯示常被忽略的因果分析假設。所以，DoWhy的特點之一就是會讓潛在的假設更容易理解。另外，DoWhy可以進行敏感度分析和其他魯棒性檢查。我們的目的是讓人們關注他們在對因果推斷做假設時的思考而不是其中的細節

過去幾年對因果推斷的研究，讓我們產生了創造DoWhy的想法，不論是估計推薦系統的影響，還是預測可能的成果，都對此有所啟發。在每項研究中，我們總會重復以下步驟：找到正確的辨別策略、設計最合適的估計器、檢查魯棒性，每次都要從頭開始。有時，面對大量有關因果推理的材料，進行實證推理就非常困難。想要理解我們的假設并證明它們，是很有挑戰性的工作。

所以我們思考，能否創建一個軟件庫，通過簡單的界面進行因果推斷。但不幸的是，因果推斷取決于對未知數量的估計，這也是因果推斷的基本問題。與監督學習不同，我們無法從現有的測試集中得出客觀的評估，所以，在因果推斷中無法建立即時可用的方法。例如，對任何方法來說，例如新的算法或醫療處理過程，人們可以觀察當他們被干預時發生了什么，或不被干預時會發生什么，但無法同時觀察兩種情況。所以，因果分析和數據生成過程中的假設有著重要的關系。

為了達到我們的目標，我們明白假設應該是因果推斷庫中最重要的因素。我們在設計DoWhy時考慮了兩個指導原則——讓因果假設易于理解，同時測試預測對違反假設的魯棒性。

首先，DoWhy對辨別（identification）和估計（estimation）做了區分。對因果效應進行標人需要對數據生成過程做假設，同時還要從虛擬表示中具體說明目標被估量。估計過程完全是數據問題，所以辨別過程是最耗時的。為了正式表示假設，DoWhy利用貝葉斯圖模型框架，從中用戶可以詳細了解他們想知道的東西，更重要的是，知道他們此前不知道的有關數據生成過程的事。對于估計，我們提供了基于潛在輸出框架的方法，例如匹配、分層和輔助變量。使用DoWhy時還有一個“愉悅”的副作用，那就是你會發現看似分散的圖模型和潛在輸出框架其實是互通對等的。

將對因果影響的辨別和估計區分開

然后，一旦做出了假設，DoWhy會提供魯棒性檢測和敏感性檢查，來檢查估計的可靠性。由于潛在的假設多種多樣，你可以測試估計是如何變化的，例如，通過加入一個新的干擾項或用“安慰劑”進行替換。不論哪種方法，DoWhy庫都會基于圖模型的假設自動檢查得出的估計的有效性。不過我們依然知道自動檢測不完美。所以，DoWhy會著重對輸出進行解讀。在分析的任何階段，你都可以查看未經測試的假設、經過辨認的被估量以及得出的估計（如果有的話）。

在四行代碼中進行因果推斷。DoWhy的簡單運行

未來，我們期待在庫里增加更多特征，包括支持更多的估計和敏感性的方法，以及與其他可用的估算軟件進行互通。

Jupyter notebook：causalinference.gitlab.io/dowhy/

阅读全文

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴