隨著計算機系統在各領域(例如醫療、教育、政府機關)的應用,正確預測并理解這些設備的因果影響是非常重要的。沒有A/B測試,建立在模式識別和相關性分析上的傳統的機器學習方法,是不足以解釋因果推理的。
與用來預測的機器學習庫類似,微軟研究院推出的DoWhy是一種引起因果思考和分析的Python庫,它提供了一個統一的界面進行因果推理,并對許多假設進行自動測試,讓非專業人士也能進行推理。該成果在最近舉辦的KDD 2018上做出了展示,以下是論智對其進行的大概介紹。
在《告別曲線擬合:因果推斷和do-Calculus簡介》一文中我們講到,因果推斷區分了人們可能想要估計的兩種條件分布。在機器學習中,我們通常只會估計一種分布,但在某種情況下,我們可能也需要估計第二種。因果推斷關注的是一些基礎問題,它能幫我們回答“如果我們對x做了什么,那……”的問題,而這些問題通常需要對照試驗和明確的干預措施來解決。
幾十年來,社會科學和生物醫學中,因果推斷方法的使用十分廣泛。隨著計算機在我們的工作和日常生活中所占比例越來越大,因果關系問題在計算機科學中的重要性也不斷增加。為了解決這個廣泛的問題,我們推出了一個新的軟件庫——DoWhy(名稱來源于Judea Pearl的do-calculus)。除了為常見的因果推斷方法提供一個程序設計界面,DoWhy的設計還是為了顯示常被忽略的因果分析假設。所以,DoWhy的特點之一就是會讓潛在的假設更容易理解。另外,DoWhy可以進行敏感度分析和其他魯棒性檢查。我們的目的是讓人們關注他們在對因果推斷做假設時的思考而不是其中的細節
過去幾年對因果推斷的研究,讓我們產生了創造DoWhy的想法,不論是估計推薦系統的影響,還是預測可能的成果,都對此有所啟發。在每項研究中,我們總會重復以下步驟:找到正確的辨別策略、設計最合適的估計器、檢查魯棒性,每次都要從頭開始。有時,面對大量有關因果推理的材料,進行實證推理就非常困難。想要理解我們的假設并證明它們,是很有挑戰性的工作。
所以我們思考,能否創建一個軟件庫,通過簡單的界面進行因果推斷。但不幸的是,因果推斷取決于對未知數量的估計,這也是因果推斷的基本問題。與監督學習不同,我們無法從現有的測試集中得出客觀的評估,所以,在因果推斷中無法建立即時可用的方法。例如,對任何方法來說,例如新的算法或醫療處理過程,人們可以觀察當他們被干預時發生了什么,或不被干預時會發生什么,但無法同時觀察兩種情況。所以,因果分析和數據生成過程中的假設有著重要的關系。
為了達到我們的目標,我們明白假設應該是因果推斷庫中最重要的因素。我們在設計DoWhy時考慮了兩個指導原則——讓因果假設易于理解,同時測試預測對違反假設的魯棒性。
首先,DoWhy對辨別(identification)和估計(estimation)做了區分。對因果效應進行標人需要對數據生成過程做假設,同時還要從虛擬表示中具體說明目標被估量。估計過程完全是數據問題,所以辨別過程是最耗時的。為了正式表示假設,DoWhy利用貝葉斯圖模型框架,從中用戶可以詳細了解他們想知道的東西,更重要的是,知道他們此前不知道的有關數據生成過程的事。對于估計,我們提供了基于潛在輸出框架的方法,例如匹配、分層和輔助變量。使用DoWhy時還有一個“愉悅”的副作用,那就是你會發現看似分散的圖模型和潛在輸出框架其實是互通對等的。
將對因果影響的辨別和估計區分開
然后,一旦做出了假設,DoWhy會提供魯棒性檢測和敏感性檢查,來檢查估計的可靠性。由于潛在的假設多種多樣,你可以測試估計是如何變化的,例如,通過加入一個新的干擾項或用“安慰劑”進行替換。不論哪種方法,DoWhy庫都會基于圖模型的假設自動檢查得出的估計的有效性。不過我們依然知道自動檢測不完美。所以,DoWhy會著重對輸出進行解讀。在分析的任何階段,你都可以查看未經測試的假設、經過辨認的被估量以及得出的估計(如果有的話)。
在四行代碼中進行因果推斷。DoWhy的簡單運行
未來,我們期待在庫里增加更多特征,包括支持更多的估計和敏感性的方法,以及與其他可用的估算軟件進行互通。
Jupyter notebook:causalinference.gitlab.io/dowhy/
-
微軟
+關注
關注
4文章
6645瀏覽量
105113 -
機器學習
+關注
關注
66文章
8470瀏覽量
133672 -
python
+關注
關注
56文章
4821瀏覽量
85573
原文標題:KDD 2018 | 微軟推出用于因果推斷的Python庫——DoWhy
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
中石化(大連)石油化工研究院有限公司選購我司熱重分析儀

浪潮信息與智源研究院攜手共建大模型多元算力生態
安謀科技與智源研究院達成戰略合作,共建開源AI“芯”生態

天馬與武進南大未來技術創新研究院達成戰略合作
一種基于因果路徑的層次圖卷積注意力網絡

藍思科技將新增昆山創新研究院,重點服務蘋果
廣東省智能科學與技術研究院選購我司一批熱分析儀設備

摩爾線程攜手智源研究院完成基于Triton的大模型算子庫適配
深度學習常用的Python庫
長沙北斗研究院總部基地正式奠基
上海浦東軟件園榮獲SAP中國研究院“Bamboo Award”2023獎項

本源入榜胡潤研究院2024全球獨角獸榜單!

評論