色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于時空圖概率模型的不確定性衡量介紹

中科院半導體所 ? 來源:APC科學聯盟 ? 2023-08-25 10:18 ? 次閱讀

引言

時空數據是復雜而又多樣化的數據,分析時空數據能為人類天氣預測(如華為盤古大模型)、地質起伏預測、太陽黑子預測、紅綠燈優化調度、共享單車投放規劃等方面帶來重大影響。然而時空數據又是復雜的,體現在其數據的時空變換和空間異質,而其數據分布也極其極端 -- 存在大量的零值,以及數據體現長尾分布。

今天要介紹的便是通過引入Tweedie分布Zero-inflated負二項分布去捕捉零膨脹效應和長尾效應的復雜時空數據,結合時空圖神經網絡,來衡量預測的不確定性。

01

介紹

1.1

不確定性衡量

Uncertainty Qualification

想象一下,當我們踏入人工智能這片廣袤領域,仿佛邁入一片神秘森林,其中充滿了機器智能和前沿科技的奧秘。在這充滿活力的領域中,存在一個至關重要的概念,需要我們一同深入探索,那便是不確定性衡量。或許你正在引導一臺智能計算機學會識別各種動物,像是讓它分辨狗、貓、大象等。但是,當它面對一張全新的動物圖片時,需要做的不僅是做出判斷,還有告訴我們它對自己的判斷有多有信心,這個信心便是——不確定性。

這個過程引發了一個有趣的問題:在計算機模型做出預測時,如何讓我們知道它有多確信這個預測是準確的呢?這涉及到一個核心概念,即模型的不確定性。模型的不確定性涉及它在進行預測時可能出現錯誤或產生不確定結果的程度。這種不確定性可能來源于兩個方面,一個是模型接觸到的數據有限,另一個是模型自身的復雜性導致它無法始終做出準確預測。

首先,我們來考慮模型所面臨的數據不確定性。就如同當你只看過幾張貓和狗的照片后,被要求辨認一種你從未見過的奇特動物一樣,模型也可能在面對全新、未曾接觸過的數據時感到困惑。畢竟,模型所了解的知識來自于它在訓練時接觸到的數據,它難以直接將這些知識應用于陌生情境。這就好比你只見過黑色和白色的狗,突然間面對一只藍色的狗,你也會感到困惑吧?

其次,還有模型本身的不確定性,也就是模型的局限性。假設你要教計算機區分貓和狗,你指示它關注尾巴的長度、耳朵的形狀等特征。但是,如果你給它一張模糊的圖片,它可能無法精確判斷。因為模型并不能像人類一樣從模糊的線索中推斷出合理結論,它可能因為信息不足而做出錯誤預測。

為了克服這些不確定性,研究者們提出了一些方法,使我們能更好地理解模型的預測。例如,模型可以輸出一個預測的置信度,就好像是它告訴你“我對這個預測很有信心”或者“我對這個預測不太確定”。另一種方法是,模型可以輸出一個預測的分布,顯示每個可能結果的概率。這種方法類似于擲骰子,你了解每個面的概率,從而更好地預測結果。

通過這些方法,我們可以更清晰地理解模型預測時的不確定性,就像是在未知的森林中多了一張地圖,幫助我們更自信地踏出每一步。這一概念在醫學、交通、金融等領域都有廣泛應用,讓我們能更明智地利用模型的預測,做出更可靠的決策。

1.2

時空圖神經網絡

Spatial-Temporal Graph Neural Network

時空圖神經網絡是近年來在深度學習領域異軍突起的一項強大工具,為我們理解和處理涉及時空關系的數據開辟了嶄新視角。比方說,我們想分析城市中的交通流量變化,或者預測未來氣象的演變,這些任務涉及到時間和空間的錯綜復雜聯系。時空圖神經網絡就如同一把鑰匙,為我們敞開了探索時空數據的大門。

首先,我們來解釋一下時空數據是什么。時空數據包括了時間和空間信息,比如在不同時間和地點的溫度、交通流量、人口分布等。而時空圖則是一種用來展示時空數據中關系和相互作用的圖結構。在這個圖中,節點代表不同的地點或物體,邊代表它們之間的關聯

時空圖神經網絡是專為處理時空圖數據而設計的深度學習模型。它結合了圖神經網絡和時間序列預測的思想,能夠幫助我們從復雜的時空數據中提取有價值的信息。這些網絡可以捕捉地點之間的關系,同時也能追蹤隨時間變化的模式,這樣我們就能更準確地預測未來、分析趨勢,甚至優化決策。

舉個例子來說,想象一個城市的交通系統。每個路口可以被視為一個節點,而車輛在不同時刻穿越這些路口則形成了邊。時空圖神經網絡可以學習交通流量在不同路口、不同時間之間的變化規律,這有助于城市規劃者更好地優化交通流動,減少擁堵。

這種網絡結構在很多領域都有廣泛應用。在氣象學中,時空圖神經網絡可以分析全球各地的氣象數據,幫助氣象學家更精準地預測氣候變化。在醫療領域,它可以處理醫療設備產生的時空數據,用于疾病預測和診斷。在金融領域,它可以分析不同市場之間的關系,幫助投資者做出更明智的決策。

1.3

概率模型

在數據分析的舞臺上,我們時常會面對一些特殊情況,這些情況使得傳統統計方法不再足夠。其中兩種常見情形分別是長尾數據零膨脹數據。這些數據背后隱藏著復雜的分布特征,傳統統計模型可能難以妥善應對。而此時,概率模型如 Zero-inflated負二項分布Tweedie分布 就發揮了關鍵作用。

長尾數據意味著數據分布中存在著許多數值較小但數量龐大的極端值,這些值往往對模型產生重大影響。比如,分析社交媒體上的點贊數或銷售數據中的銷售量時,傳統的均值和方差等統計量可能無法完全揭示分布的特性。

零膨脹數據則是數據中零值的數量遠超預期的情況。舉例而言,當我們分析醫療保險索賠數據時,大部分人可能沒有提出索賠,導致數據中有大量的零值。然而,傳統模型可能因為其假設與實際情況不符而表現不佳。

長尾和零膨脹效應在時空數據上體現極為明顯,以 O-D flows數據(任意兩地在任意事件的車流量值)為例:

276b4bf2-4266-11ee-a2ef-92fbcf53809c.png27b0f580-4266-11ee-a2ef-92fbcf53809c.png

可以看到在SLD_60min, SLD_15min, SLD_5min這三個數據集上,零值幾乎占據了大多數,而大于2的情況所占比例非常少,又明顯體現了“長尾”的特點。

為了更好地解決這些問題,Zero-inflated負二項分布Tweedie分布應運而生。

Zero-inflated 負二項分布可以看作是兩種分布的結合體:負二項分布(用于計數數據的離散分布)和零膨脹分布(用于描述數據中零值較多的情況)。這種分布適用于數據中不僅存在大量零值,還可能出現較大值的情形。利用這個模型,我們能夠更精確地捕捉數據分布的特點,從而更好地進行預測和分析。

Tweedie 分布則屬于廣義線性模型中的概率分布,適用于處理長尾數據和零膨脹數據。其特點之一是廣泛適用范圍,能夠應對連續數據、離散數據、混合數據等多種情況。通過調整Tweedie分布的參數,我們可以更好地擬合實際數據的分布。

這些概率模型在解決長尾數據和零膨脹數據問題上發揮了重要作用。它們不僅有助于更精確地描述和理解特殊類型數據,還為數據分析和預測提供了更強大的工具。醫療、金融、社會科學等領域都廣泛應用這些模型,為數據分析帶來了更多可能性。

02

算法介紹

2.1

分布介紹

負二項分布(Negative Binomial Distribution)

負二項分布是統計學上一種離散概率分布,用于描述在重復試驗中獲得固定數量的成功所需的獨立失敗次數的分布。這個分布經常用來描述不定次數的成功事件,例如在多次投擲硬幣直到獲得一定數量的正面朝上為止。

與二項分布不同,二項分布描述的是進行固定次數試驗中成功次數的分布,而負二項分布則關注在獲得固定數量成功之前所需的試驗次數。負二項分布在許多實際場景中都有應用,比如在金融中用于分析投資成功前的失敗次數,或者在生物學中用于研究實驗成功前需要多少次不成功的嘗試。這個分布提供了一種數學工具,幫助我們理解和解釋各種隨機事件中的概率分布。

滿足以下條件的稱為負二項分布:實驗包含一系列獨立的實驗,每個實驗都有成功、失敗兩種結果,成功的概率是恒定的,實驗持續到n次不成功,n為正整數。切換到我們的時空數據中,成功即數據非0,失敗即數據為0。

其概率分布如下:

27c2c832-4266-11ee-a2ef-92fbcf53809c.png

這里的 n 和 p 是模型參數,分別表示成功的次數和單次失敗的概率。

零膨脹負二項分布(Zero-InflatedNegative

Binomial Distribution)

然而,現實世界中的數據通常會出現許多零觀測值。零值的激增加劇了負二項分布參數的學習。因此,引入了一個新的參數來學習零值膨脹率,從而得到了零膨脹負二項分布

零膨脹負二項分布(Zero-Inflated Negative Binomial Distribution,簡稱ZINB 分布)是一種概率統計學中的概率分布,用于處理數據中存在大量零值的情況,同時考慮了負二項分布的特性。

在現實世界的數據中,往往會有很多零值的存在,這可能是因為某些特定原因導致的。例如,在社交媒體上的點贊數量中,很多帖子可能沒有被點贊,導致數據中存在許多零值。然而,傳統的負二項分布在處理這種情況時可能表現不佳,因為它無法很好地捕捉到數據中的零值特征。

ZINB 分布的引入就是為了更好地處理這種零值問題。它結合了兩個部分:一個用于描述零值的部分,另一個用于描述非零值的部分。具體而言,ZINB分布中引入了一個額外的參數,用于表示數據中零值的膨脹程度。在生成數據時,有的概率產生零值,而有的概率遵循負二項分布生成非零值。這樣,ZINB分布能夠更準確地刻畫存在零值的數據特征,并在建模和分析過程中更加適用。

其概率分布如下:

27cfeeea-4266-11ee-a2ef-92fbcf53809c.png

在負二項分布的基礎上,考慮了零值的加權。這里的pi即為零膨脹系數。

ZINB 分布在許多領域的數據分析中都有應用,特別是在處理存在大量零值的數據集時,如社交媒體數據、醫療數據等。通過引入零膨脹參數,ZINB 分布幫助我們更好地理解和解釋這些特殊類型的數據,并提供了更準確的分析工具。

Tweedie 分布

負二項分布是對零值做了一定的處理,但不能適用于極度零值的情況;因此通過引入新參數來對零值做加權,加強了模型魯棒性。然而,有過多零值的出現,就一定會有長尾效應的產生,因此如何建模長尾效應也是一個值的考慮的問題 —— Tweedie 分布

27e90a7e-4266-11ee-a2ef-92fbcf53809c.png

圖源知乎用戶:一直學習一直爽

Tweedie分布是一種概率統計學中的廣義線性模型,用于建模和分析具有復雜分布特征的正數數據。這種分布在描述連續、離散和混合數據等多種數據類型時都具有應用價值。Tweedie分布由一系列的特殊情況組成,包括正態分布、伽馬分布、泊松分布等。它的靈活性使得它能夠適應各種數據分布的特點,而不需要對每種特定情況進行單獨的建模。Tweedie分布的參數化形式取決于兩個主要參數:指數參數和離散參數。指數參數決定了數據的分布形狀,離散參數則控制了數據的離散程度。通過適當地選擇這些參數,可以使Tweedie分布擬合多種數據類型,包括長尾數據和零膨脹數據。

Tweedie分布的概率密度函數如下:

280cf6be-4266-11ee-a2ef-92fbcf53809c.png

這里一共有三個參數:離散系數, 指數系數和模型均值。

在實際應用中,Tweedie分布廣泛用于處理存在多樣性和復雜性的數據集,如保險索賠數據、金融時間序列數據、生態學數據等。通過使用Tweedie分布,我們能夠更好地捕捉和解釋數據的分布特征,從而進行更精確的分析、建模和預測。

綜上所述,為了更好地建模時空圖的某一個時間點的某一個地理點的數據以及其不確定性,我們采用二參數模型(NB)三參數模型(ZINB和Tweedie)來計算模型的不確定性。

2.2

時空圖神經網絡介紹

如何建模每個分布的參數成為了一個棘手的問題,但在時空數據上,我們可以采用時空圖神經網絡來建模。

而為了學習這些參數,我們使用了時空圖神經網絡(STGNN)——這個神經網絡的設計有點像是在解謎,它通過一個時間編碼器和一個空間編碼器來學習參數的值。

具體而言:時間編碼器使用了一種叫做門控循環單元(GRU)的技術,類似于人類大腦中的一些運作方式,來處理數據中的時間信息。

28176c20-4266-11ee-a2ef-92fbcf53809c.png

GRU 計算公式

而空間編碼器則使用了圖注意力網絡(GAT),就好像在數據之間建立了一種連接關系,幫助我們更好地理解數據之間的關聯性。

28242758-4266-11ee-a2ef-92fbcf53809c.png

GAT 計算公式

其STGNN網絡框架如下:

284355e2-4266-11ee-a2ef-92fbcf53809c.png

圖來自知乎用戶:Lucia

通過這個特殊的時空圖神經網絡,我們能夠更準確地學習數據模型中的參數(二參數、三參數等),基于該參數構建結果分布,從而更好地分析數據,做出更可靠的預測。這就像是在解謎一樣,不斷優化網絡,讓我們的數據分析變得更加精準和有用。

2.3

模型訓練指導函數

作者采用最大似然函數方法來指導模型訓練。

最大化似然函數是一種在統計學和概率論中常用的方法,用于找到最適合數據的參數值,以便使得數據出現的概率最大化。

讓我們用一個簡單的例子來解釋這個概念。假設你有一堆骰子擲出的數據,你想要找出這個骰子是均勻的還是有偏的。你知道這個骰子有6個面,但你不知道每個面出現的概率。你可以用一個參數來表示每個面出現的概率,然后構建一個概率模型。

現在,你有了一些實際擲骰子得到的數據,比如說你投了100次骰子,記錄下每次的結果。你的目標是找到一個參數,使得在這個參數下,投出這100次骰子的概率最大化。

這就是最大化似然函數的思想。似然函數表示的是,在給定參數的情況下,觀察到實際數據的概率。你要做的就是調整參數,使得這個概率最大化,也就是讓觀察到的數據在模型下出現的概率最大化。

最大化似然函數是一種尋找最優參數的方法,它在許多領域都有應用,從機器學習到統計分析。通過找到最適合數據的參數,我們能夠更好地理解數據的規律,從而做出更準確的預測和決策。這個方法就像是在拼圖,我們不斷嘗試不同的拼法,以找到最符合實際情況的模型。

ZINB 最大似然函數

289c1fd8-4266-11ee-a2ef-92fbcf53809c.png

其中, , 均為通過STGNN學習所得,不斷得優化該函數,能達到模型的訓練目的。

Tweedie 最大似然函數

28a80168-4266-11ee-a2ef-92fbcf53809c.png

其中, , 均為通過STGNN學習所得,不斷得優化該函數,能達到模型的訓練目的。






審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 處理器
    +關注

    關注

    68

    文章

    19259

    瀏覽量

    229653
  • 編碼器
    +關注

    關注

    45

    文章

    3638

    瀏覽量

    134427
  • 神經網絡
    +關注

    關注

    42

    文章

    4771

    瀏覽量

    100715
  • 人工智能
    +關注

    關注

    1791

    文章

    47183

    瀏覽量

    238264
  • Gru
    Gru
    +關注

    關注

    0

    文章

    12

    瀏覽量

    7477

原文標題:基于時空圖概率模型的不確定性衡量

文章出處:【微信號:bdtdsj,微信公眾號:中科院半導體所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    如何創造可信任的機器學習模型?先要理解不確定性

    。 在談到人工智能安全、風險管理、投資組合優化、科學測量和保險時,人們都會提到「不確定性(uncertainty)」的概念。下面有幾個人們言語中涉及不確定性的例子: 「我們想讓機器學習模型知道它們不知道的東西。」 「負責診斷病人
    發表于 01-10 10:42 ?999次閱讀
    如何創造可信任的機器學習<b class='flag-5'>模型</b>?先要理解<b class='flag-5'>不確定性</b>

    去嵌入和不確定性是否使用了正確的設置

    大家好,所以我遇到的問題是確定用于測試夾具糾錯過程的適配器特征的不確定性。我們將使用適配器及其s2p文件對測試夾具中的所有信號路徑進行路徑表征,然后移除以進行性能測試。這個過程在不確定性計算器中被
    發表于 09-27 15:47

    E8364C PNA的不確定性和跟蹤是什么?

    在中斷后,我回到網絡分析儀,并提出一個簡單的問題。我正在閱讀E8364C PNA的數據表,并遇到了E8364C PNA,不確定性和跟蹤,但沒有解釋這些術語。我的猜測是,不確定性是與公認標準相比的誤差
    發表于 10-18 17:03

    是否可以使用全雙端口校準中的S11不確定性來覆蓋單端口校準的不確定性

    我們一直在使用Agilent VNA不確定度計算器電子表格,讓我們了解我們測量的設備的不確定性。有關單端口校準的問題:目前您必須從電子表格中選擇您的VNA(帶寬和平均值),然后選擇校準類型(全雙端口
    發表于 12-29 16:32

    N5531S TRFL不確定性

    我正在嘗試使用N5531S(選擇550傳感器)測量接收器系統測量0到-130dBm的絕對功率水平,然后計算它的不確定性。安捷倫的應用筆記已經提到,不確定度可以使用公式+/-計算(功率計范圍2-4
    發表于 02-19 15:40

    測試系統不確定性分析

    測試系統不確定性分析
    發表于 09-18 09:19

    傅里葉變換與不確定性看了就知道

    傅里葉變換與不確定性
    發表于 12-30 06:41

    基于RFID技術的供應鏈管理項目存在哪些不確定性

    基于RFID技術的供應鏈管理項目存在哪些不確定性?項目嵌入的實物期權類型有哪幾種?
    發表于 05-28 07:08

    運算放大器的開環電壓增益有哪些不確定性

    運算放大器的開環電壓增益的值有多大?運算放大器的開環電壓增益有哪些不確定性?如何去解決?
    發表于 07-19 09:11

    不確定性關聯分類與人才資源配置的研究

    采用關聯規則分類的方法,根據個人所在的行業和崗位的不同,對管理勝任力相關數據進行分類。結合不確定性問題,用概率來表示勝任力的隸屬度,使對管理勝任力素質的分類更
    發表于 07-08 15:36 ?12次下載

    考慮模型參數不確定性的航天器姿態機動控制

    考慮模型參數不確定性的航天器姿態機動控制_李隆
    發表于 01-07 18:21 ?0次下載

    一種求解動態及不確定性優化問題的新方法

    一種求解動態及不確定性優化問題的新方法_劉曉
    發表于 01-07 18:56 ?0次下載

    基于云模型可靠性數據不確定性評價

    使用云模型能表示數據不確定性的特點,將SFT的相關概念進行云化。將其中云化系統故障概率分布對在某因素影響下可靠性數據生成的云模型特征參數Ex、En和He進行求導。
    發表于 01-17 17:39 ?1次下載

    如何用不確定性解決模型問題

    再比如,你想搭建一個模型,要在一系列動物圖片中預測哪種動物會吃掉你。假設你在訓練時給模型提供的都是獅子和長頸鹿的照片,現在模型看到了一張僵尸照片。由于之前它沒有見過僵尸,所以這里的不確定性
    的頭像 發表于 09-07 09:45 ?5268次閱讀

    科技云報到:數字化轉型,從不確定性確定性的關鍵路徑

    科技云報到:數字化轉型,從不確定性確定性的關鍵路徑
    的頭像 發表于 11-16 16:52 ?317次閱讀
    科技云報到:數字化轉型,從<b class='flag-5'>不確定性</b>到<b class='flag-5'>確定性</b>的關鍵路徑
    主站蜘蛛池模板: 国产精品久久久久久久久久影院 | 老色哥网站| 久久亚洲电影www电影网| 51无码人妻精品1国产| 手机在线观看无码日韩视频| 久久操韩国自偷拍| 国产精品青青草原app大全| 1a级毛片免费观看| 野花香HD免费高清版6高清版| 欧美一级情欲片在线| 久久久久久久网| 国产在线高清视频无码不卡| 国产av免费观看日本| RUNAWAY韩国动漫免费官网版 | 在线观看永久免费网站| 亚洲成人综合在线| 午夜看片网| 婷婷亚洲五月色综合久久| 人妻 中文无码 中出| 女王黄金vk| 秋霞电影网视频一区二区三区| 麻豆高清区在线| 男人被绑着强行摸j| 蜜桃视频无码区在线观看| 麻豆AV无码精品一区二区| 久久亚洲伊人中字综合精品| 久久99r66热这里有精品| 久久re视频这里精品09免费| 精品粉嫩BBWBBZBBW| 久久影院毛片一区二区| 美女穿丝袜被狂躁动态图| 嗯啊不要老师| 肉色无边(高h)| 亚洲 成人网| 印度12 13free| A国产一区二区免费入口| 被黑人做的白浆直流| 国产美女影院| 快播看黄片| 忘忧草秋观看未满十八| 亚洲国产精品第一影院在线观看|