區塊鏈分析中的過度擬合是怎么一回事

當與區塊鏈數據集一起使用時，機器學習模型往往會過度擬合。什么是過度擬合，如何解決？

使用機器學習來分析區塊鏈數據集的想法乍一看非常吸引人，但它充滿了挑戰。在這些挑戰中，缺少標記的數據集仍然是應用機器學習方法到區塊鏈數據集時需要克服的最大困難。

這些限制導致許多機器學習模型使用非常小的數據樣本進行訓練和過度優化，從而導致一種稱為過度擬合的現象。今天，我想深入探討一下區塊鏈分析中的過度擬合問題，并提出一些解決方法。

過度擬合被認為是現代深度學習應用中最大的挑戰之一。從概念上講，當模型生成的假設過于針對特定數據集而導致無法適應新數據集時，就會發生過度擬合。

理解過度擬合的一個有用的類比是將其視為模型中的幻覺。本質上，當一個模型從數據集中推斷出不正確的假設時，它就會產生幻覺/過度擬合。

自從早期的機器學習以來，已經有很多關于過度擬合的文章，所以我不認為有任何聰明的方法來解釋它。在區塊鏈數據集的情況下，過度擬合是缺乏標記數據的直接結果。區塊鏈是大型的、半匿名的數據結構，在這種結構中，所有東西都用一組公共結構表示，比如交易、地址和區塊。

從這個角度來看，區塊鏈記錄的限定信息是最少的。是交易、轉賬還是付款？是個人投資者的錢包還是交易所的冷錢包？這些限定詞對于機器學習模型是必不可少的。

假設我們正在創建一個模型來檢測一組區塊鏈中的交換地址。這個過程需要我們使用現有的區塊鏈地址數據集來訓練模型，我們都知道這些數據集并不常見。如果我們使用EtherScan或其他來源的小數據集，模型可能會過度擬合并做出錯誤的分類。

使過度擬合如此具有挑戰性的一個方面是，很難在不同的深度學習技術中推廣。卷積神經網絡傾向于形成與遞歸神經網絡不同的過擬合模式，而遞歸神經網絡又不同于生成模式，這種模式可以外推到任何類型的深度學習模型。

具有諷刺意味的是，過度擬合的傾向與深度學習模型的計算能力成線性關系。由于深度學習代理可以生成復雜的假設，而且幾乎不需要任何成本，因此過度擬合的傾向就會增加。在機器學習模型中，過度擬合是一個持續的挑戰，但在處理區塊鏈數據集時，它幾乎是一個給定的問題。解決過度擬合的明顯方法是使用更大的訓練數據集，但這并不總是可行的。在IntoTheBlock，我們經常遇到過度擬合的挑戰。

在區塊鏈數據集中對抗過度擬合的三個簡單策略

與過度擬合作斗爭的首要原則是認識到它。雖然沒有防止過度擬合的靈丹妙藥，但實踐經驗表明，一些簡單的、幾乎是常識的規則有助于在深度學習應用中防止這種現象。

在已經發布的防止過度擬合的幾十個最佳實踐中，有三個基本的思想包含了其中的大多數。

數據/假設比率

過度擬合通常發生在一個模型產生了太多的假設而沒有相應的數據來驗證它們的時候。因此，深度學習應用程序應該嘗試在測試數據集和應該評估的假設之間保持適當的比例。然而，這并不總是一個選擇。

有許多深度學習算法，如歸納學習，依賴于不斷產生新的，有時更復雜的假設。在這些場景中，有一些統計技術可以幫助估計正確的假設數量，從而優化找到接近正確的假設的機會。

雖然這種方法不能提供準確的答案，但它有助于保持假設數量和數據集組成之間的統計平衡。哈佛大學教授萊斯利·瓦蘭特在他的書中精采地解釋了這一概念。

區塊鏈分析中的過度擬合是怎么一回事

當進行區塊鏈分析時，數據/假設的比例非常明顯。假設我們正在構建一個基于一年區塊鏈交易的預測算法。

因為我們不確定要測試哪個機器學習模型，所以我們使用神經架構搜索（NAS）方法，該方法針對區塊鏈數據集測試數百個模型。

考慮到數據集只包含一年的交易，NAS方法可能會生成一個完全適合訓練數據集的模型。

支持簡單的假設

在深度學習模型中，防止過度擬合的一個概念上瑣碎但技術上困難的想法是不斷生成更簡單的假設。當然！簡單總是更好的，不是嗎？

但在深度學習算法的背景下，有什么更簡單的假設呢？如果我們需要將其歸結為一個量化的因素，我會說深度學習假設中屬性的數量與復雜度成正比。

簡單的假設往往比其他有大量屬性的假設更容易評估，無論是在計算上還是在認知上。

因此，與復雜的模型相比，簡單的模型通常不太容易過度擬合。下一個明顯的難題是如何在深度學習模型中生成更簡單的假設。

一種不太明顯的技術是根據算法的估計復雜度對其附加某種形式的懲罰。這種機制傾向于更簡單、更準確的假設，而不是更復雜、有時更準確的假設。

區塊鏈分析中的過度擬合是怎么一回事

為了在區塊鏈分析中解釋這個概念，讓我們假設我們正在構建一個在區塊鏈中對支付交易進行分類的模型。

該模型使用一個復雜的深度神經網絡生成1000個特征來進行分類。如果應用于較小的區塊鏈，如Dash或Litecoin，該模型很可能會過度擬合。

偏差/方差平衡

偏差和方差是深度學習模型的兩個關鍵估計量。從概念上講，偏差是我們模型的平均預測值與我們試圖預測的正確值之間的差異。高偏差模型對訓練數據的重視程度低，模型過于簡化。它往往會導致訓練和測試數據的高誤差。

或者，方差指的是模型對給定數據點或值的預測的可變性，它告訴我們數據的分布。高方差模型對訓練數據非常重視，對未見過的數據不進行泛化。因此，這樣的模型在訓練數據上表現得很好，但在測試數據上有很高的錯誤率。

偏差和方差如何與過度擬合相關？在超簡單的術語中，概括的藝術可以通過減少模型的偏差而不增加其方差來概括。

在深度學習模型中，定期將生成的假設與測試數據集進行比較并評估結果是一個很好的實踐。如果假設繼續輸出相同的錯誤，那么我們就有一個很大的偏差問題，我們需要調整或替換算法。如果錯誤沒有清晰的模式，那么問題就是不一致，我們需要更多的數據。總而言之：

· 任何低復雜度的模型都會因為高偏差和低方差而傾向于擬合不足。

· 任何高復雜度的模型（深度神經網絡）都會因為低偏差和高方差而傾向于過度擬合。

在區塊鏈分析中，偏差-方差摩擦無處不在。讓我們回到我們的算法，試圖預測價格與許多區塊鏈因素。如果我們使用簡單的線性回歸方法，模型很可能不適合。然而，如果我們使用一個具有小數據集的超級復雜的神經網絡，模型可能會過度擬合。

使用機器學習來分析區塊鏈數據是一個非常新興的領域。因此，大多數模型都遇到了機器學習應用程序的傳統挑戰。

過度擬合是區塊鏈分析中無處不在的挑戰之一，其根本原因是缺乏標記數據和訓練過的模型。沒有什么神奇的解決方案可以解決過度擬合的問題，但是本文中列出的一些原則已經被證明對IntoTheBlock是有效的。

責任編輯：Ct

閱讀全文

機器學習(130423) 機器學習(130423)
區塊鏈(104688) 區塊鏈(104688)

AD9544工作狀態都正常，沒有輸出，請問是怎么回事？

AD9544的系統時鐘顯示Stable, 參考時鐘也可以識別，DPLL顯示頻率和相位都已經鎖定，就是沒有輸出，事件報錯為No solution exists. Output excluded from solution，請問各位大神是怎么一回事?

2018-08-01 06:53:20

CAN總線是什么？CAN總線具有哪些特點

端口復用和端口重映射是一回事嗎？CAN總線是什么？CAN總線具有哪些特點？

2021-11-08 06:48:46

DXP中怎么做等長？間距怎么設置，PCB小白請教

因為第一次做等長線處理，業務不熟練，在網上也看了各類教程，單實際畫的時候又是另外一回事，能請各位大神幫我指出圖中的問題點嗎？萬分感謝，你那個有具體的指導建議就更完美了！

2019-08-07 16:07:29

ESP32-D0WDQ6經常會出現wifi連接斷開然后復位的狀況是怎么回事？

使用的芯片為ESP32-D0WDQ6使用的平臺為vscode使用esp-idf版本為1.3.0參考的例程為fast_scan出現問題的打印日志如附件所示，經常會出現wifi連接斷開然后復位的狀況請問有人知道是怎么一回事嗎？

2023-02-15 07:23:49

Keil軟件仿真STM32時出現錯誤是怎樣一回事

Keil軟件仿真STM32時出現錯誤是怎樣一回事？怎樣去解決這個問題？

2021-11-10 06:23:02

M453VG6AE中ISP Flash和LDROM是不是一回事？它們基地址分別是什么？

M453VG6AE芯片中 ISP Flash 和 LDROM 是不是一回事？它們基地址分別是什么？

2024-01-17 06:31:10

MOV中的8位圖立即數是怎么一回事

MOV中的 8位圖立即數,是怎么一回事 0xF0000001是怎么來的A:是循環右移,就是一個 0—255 之間的數左移或右移偶數位的來的,也就是這個數除以 4一直除, 直到在 0-255的范圍內它是整數就說明是可以的！

2022-10-13 14:11:51

MOV中的8位圖立即數是怎么一回事呢？

MOV中的 8位圖立即數,是怎么一回事 0xF0000001是怎么來的A：是循環右移。就是一個 0—255 之間的數左移或右移偶數位的來的，也就是這個數除以 4一直除，直到在 0-255的范圍內它是整數就說明是可以的!

2023-02-17 15:02:50

MOV中的8位圖立即數是怎么回事 0xF0000001是怎么來的

請教:MOV中的 8位圖立即數,是怎么一回事 0xF0000001是怎么來的

2016-07-27 22:03:03

PROTEL中畫PCB陣列怎樣設置，圓形陣列，矩形陣列分別如何操作，菜鳥請教高手

我是個新手，畫PCB時不知道如何設置陣列參數，每次設置與畫出來的根本不是一回事，跪求高手解答！

2010-10-21 22:19:39

RT-Thread Studio工程文件帶有感嘆號這個是怎么一回事

RT-Thread Studio 工程文件帶有感嘆號，這個是怎么一回事，如何去除感嘆號？

2022-11-30 10:11:23

SFUD庫看不到初始化spi1的GPIO的代碼是怎么一回事

SFUD庫看不到初始化spi1的GPIO的代碼是怎么一回事？

2022-07-29 10:39:35

[原創]這個是怎么一回事，新手請教？

;nbsp; Phoenix Technologies Ltd. Wistron J865P-2主板，很垃圾的機子，請問升級BIOS怎么升，版本都檢測不了，高手請指教一下

2010-11-13 01:34:01

ch582 RF_PHY例程死機是怎么一回事？

使用ch582 想最終實現的結果是2.4G和藍牙外設共存，但發現把peripheral例程和RF_PHY歷程合并之后就會死機，經測試單獨RF_PHY歷程只要拷入了peripheral例程中的Profile文件夾內容在接收的時候就跑不了了，發送可以動，這是怎么一回事？

2022-09-20 07:18:15

pin map對應問題

新手想請教一下各位大神，集成庫中的pin map到四十怎么一回事，到底是怎么一一對應的，這個問題我一直沒搞明白，還望大家解解惑，感激不盡

2017-05-12 10:50:37

protues 用555仿真報錯

如圖改變電阻和電容，有時又不會報錯但輸出不對呀，這是怎么一回事？？？求解。。。。。

2013-04-20 00:01:44

spi.c和24l01.c的問題如何解決

原子的24l01實驗為什么在spi.c中配置極性為1在24l01.c配置極性為0，而且相位也是不同，這是怎么一回事，程序到底執行哪兒呢？

2020-05-29 04:35:38

tf卡啟動燒寫dp2lvds閃光出錯是怎么一回事

tf卡啟動，燒寫dp2lvds閃光出錯？這是怎么一回事呢？求解

2021-12-31 06:05:50

wifi模塊子函數為什么最后要返回一個指向棧內存的指針strx

在此檢查子函數模塊中，定義了指向棧內存的指針，為什么最后要返回一個指向棧內存的指針strx。這明顯不符合c語言的標準啊，明顯的錯誤啊，請問是怎么一回事？

2019-04-28 09:55:55

為什么不能將乘法器用作調制器或者混頻器

為什么不能將乘法器用作調制器或混頻器？它們不是一回事嗎？

2021-04-06 06:24:22

什么是PYNQ？

什么是PYNQ？PYNQ就是通過Python語言直接對FPGA進行編程嗎？PYNQ和PYNQ-Z2是一回事嗎？PYNQ-Z2是否支持傳統開發方式？要到哪里學習PYNQ知識呢？

2021-02-24 07:02:56

代碼在未開優化和-o1的條件下可以跑出正確結果，但是-o2和-o3條件下同樣的輸入輸出結果出錯，這是怎么一回事？

麻煩請教一下：我們的代碼在未開優化和-o1的條件下是可以跑出正確結果，但是-o2和-o3條件下同樣的輸入輸出結果出錯，這是怎么一回事？謝謝大家！

2018-07-11 07:47:39

使用stm32時看不到flash中的初始化變量值是怎么一回事呢？

使用stm32時看不到flash中的初始化變量值是怎么一回事呢？

2022-12-01 07:33:35

關于Davinci與C6-Integra的區別

問一個弱弱的問題，Davinci與C6-Integra是一回事么？它們有什么區別和聯系呢？

2018-06-21 12:11:05

關于ICT測試的疑問

請問ICT測試和飛針測試是一回事嗎？如果要做ICT測試，是不是在畫板子的時候就要留好測試點？

2017-09-23 11:36:39

關于電路中的地線、零線、火線的區別

本帖最后由 gk320830 于 2015-3-7 08:11 編輯我在看電路時，對電路中的地線、零線、火線的概念比較模糊。地線和零線是一樣的嗎？火線、零線、地線到底是怎么一回事？在電路中三角形的地和四條橫杠地是一樣的么，還有GND。請大俠指教，不勝感激！

2013-11-26 09:43:24

冷卡層壓技術

冷卡層壓技術怎么一回事?

2014-07-01 10:10:48

單片機中斷

`單片機中斷是怎么一回事呀`

2012-09-22 22:16:15

發那科

發那科機器人搬運是怎么一回事

2017-05-27 22:52:22

聽說可以借助掃描儀設計電路板，不知道是怎么一回事

聽說可以借助掃描儀設計電路板，不知道是怎么一回事

2013-02-26 10:26:20

基礎語法語法問題

求解一個基礎語法問題，reg[3][0]和reg[3:0]是一回事嗎？本人小白，還請各位朋友解惑

2017-11-23 18:25:04

大眾汽車對開關的設定操作

大眾汽車對開關的設定操作，在內部電路究竟是怎么一回事呢、

2014-03-04 01:46:06

大學生電子設計大賽

自己對電子方面還是有些興趣的，但是感興趣是一回事，真正做又是另一回事，自己對于這一方面還是懂得太少，希望有大神可以提點我一下

2015-08-07 14:58:38

大家都來討論一下元器件降額設計是怎么一回事

大家都來討論一下元器件降額設計是怎么一回事吧各位前輩之前做設計有進行過降額設計嗎？

2016-04-22 15:34:59

嵌入式和單片機是不是一回事

今天在qq群里，有個看起來資歷豐富的前輩問了一個問題，嵌入式和單片機是不是一回事，這個問題提的很好。對于嵌入式方向領域，我最近一直也在想這些底層基礎的概念問題。然而在網上查找一些前輩的回答，概念太過

2021-10-27 07:30:41

開關磁阻電機和交流磁阻同步電機是一回事嗎？

大家好，最近項目中遇到一款德國的KAISER無勵磁磁阻同步電機，花了一段時間研究后，還是有幾個基本的概念沒有搞明白： 1.開關磁阻電機和交流磁阻同步電機是一回事嗎？ 2.各自的控制器是什么呢？普通的變頻器能實現嗎？

2024-01-10 06:35:40

急急急

我想問一下回滯充電電壓是怎么一回事，很急，在線等，謝謝幫忙解答一下。

2016-01-05 15:46:00

感應電動機和異步電動機有何區別

「異步電動機」和「感應電動機」其實就是一回事。

2021-09-06 06:32:59

我有個文件無法開啟

如標題我的之前的文件無法開啟不知道是怎麼一回事希望能幫助我

2012-06-01 20:54:52

新人求教，電動汽車雙電源系統。

電動汽車雙電源系統是怎么一回事，麻煩大神詳細解釋一下。

2014-05-12 20:11:01

有什么方法關閉XC8在代碼中引入的故意破壞行為嗎？

除了可能為許可證付費之外，還有什么方法可以關閉XC8在代碼中引入的故意破壞行為嗎？沒有在自由編譯器上優化代碼是一回事，這很好，但是我很難理解為什么有意破壞代碼是合法的，更不能接受。有沒有辦法破壞破壞行為？

2019-09-29 07:33:01

永磁同步電機速度環程序運行問題

我這的速度環程序，在調試運行時主程序始終在第一行，停止調試后就會跳到一個數碼管驅動芯片的程序，有老哥知道是怎么一回事嗎，能幫忙分析一下原因嗎

2021-04-27 20:43:19

求教 MPU3050如何確定其slaveaddress,這和who am i的默認值0x68是一回事么？謝謝了

求指教求教 MPU3050如何確定其slaveaddress,這和who am i的默認值0x68是一回事么？謝謝了

2016-11-08 10:38:04

求教LabVIEW 圖片控件運行速度太慢問題~~

這是怎么一回事？這是我的程序圖1、一維數組中包含描繪點的坐標，2、通過數組索引組合成簇輸出給繪制點控件，3、然后通過圖片顯示控件顯示描繪的店。4、繼續下一循環描點流程~~可是出來的圖要么是寥寥幾個

2015-11-29 16:09:01

法拉第圓筒是怎么一回事

法拉第圓筒是怎么一回事啊？？？求詳細的解說...

2011-07-30 14:40:35

照明光源頻閃是怎么回事？

照明光源頻閃是怎么回事？照明光源的頻閃并不是現在學術上的一個新發現，所謂無頻閃也不是現在技術上的一個新突破，只不過近期被部分制燈廠商炒得沸沸揚揚。那么，照明光源的頻閃到底是怎么一回事？它對眼睛到底有何影響？

2019-07-24 07:53:20

用PROTUES仿真430中斷程序會報錯

我用IAR寫的一個430的單片機的中斷程序，并且用PROTURS進行仿真，但是就是不知道是什么原因，只要加上中斷，仿真就不能進行，會產生報錯，后來從網上找了一個程序，還是同樣的結果，遇到中斷就會報錯，求教大神們，這是怎么一回事?趕緊不盡

2014-07-21 18:47:10

用multisim仿真Max295濾波器后無輸出是為什么？

電路如下，應該是沒問題的，但就是無輸出，請問這是怎么一回事

2018-04-16 13:02:37

電路設計

本帖最后由 gk320830 于 2015-3-5 18:24 編輯求各位大神指教泵浦升壓電路是怎么一回事，怎么設計

2014-04-13 15:52:10

藍牙中的拓撲結構有散射網，MESH網是同一回事嗎？

在藍牙的學習中，有講到藍牙的拓撲結構，包含微微網和散射網，其中散射網是微微網的拓展網絡設備數量的，請問散射網和MESH網是不是一回事，謝謝

2020-03-15 19:38:00

請問一下數碼管陽極顯示和共陽極是一回事嗎？

本帖最后由 eehome 于 2013-1-5 09:43 編輯請問一下數碼管陽極顯示和共陽極是一回事嗎？

2012-12-03 11:21:32

請問KVA和KW是不是一回事？

KVA 和KW是不是一回事？比如負載時2kw那么我的變壓器的容量需要大于2/cosφ呢？

2023-12-11 07:43:44

請問STM32F4以太網所用的DMA控制器和DMA1、DMA2是一回事嗎？

原子大哥和各位大神，我想問一下，1、STM32F407以太網所用的DMA控制器和和DMA1、DMA2控制器是一回事嗎？2、為什么我在看DMA1、DMA2請求映射（STM32F4xx中文參考手冊）時找不到關于以太網的請求？

2019-07-24 22:59:34

請問ade7880的諧波數據存儲格式3.21是怎么回事

我在處理ade7880的諧波數據時，發現其數據存儲格式是3.21，不太明白是怎么一回事。誰能推薦一些相關資料，我學習和研究一下。出于不入門狀態，請大家幫忙。謝謝先。

2018-09-19 09:51:39

請問電源去耦和電源濾波是一回事嗎？

請問電源去耦和電源濾波是一回事嗎？

2023-04-21 17:42:23

請問芯片中ISP Flash和LDROM是不是一回事？

芯片中 ISP Flash 和 LDROM 是不是一回事？如果不是一回事，以M453VG6AE為例，它們基地址分別是什么？

2023-08-29 08:08:05

超聲波程序中的clock文件和主程序中的Time是怎么一回事？

超聲波程序中的clock文件和主程序中的Time是怎么一回事？

2023-10-08 07:32:01

遇到刪不了的鋪銅了

郁悶啊，剛老板給我一個PCB的圖紙讓我改一下，碰到了刪不了鋪銅，不知道怎么一回事，哪會朋友知道的，怎么刪了它，請指教一下。

2012-11-24 21:26:24

慢速保險絲是怎樣一回事？

慢速保險絲是怎樣一回事？慢速保險絲也叫延時保險絲，它的延時特性表現在電路出現非故障脈沖電流時保持完好而能對長時間的過載提供保護。有些電路在

2009-11-12 09:11:04

822

解析訓練集的過度擬合與欠擬合

在數據科學學科中，過度擬合(overfit)模型被解釋為一個從訓練集(training set)中得到了高方差(variance)和低偏差(bias)，導致其在測試數據中得到低泛化(generalization)的模型。

2018-02-07 17:00:28

7760

區塊鏈6層協議是怎么一回事

區塊鏈系統模型的每一層將會誕生新的工作崗位和新的創業機遇，甚至會出現新的行業巨頭。

2019-07-09 16:18:19

1470

機器人即服務是怎么一回事

機器人即服務是怎么一回事

2019-08-06 16:48:23

1431

區塊鏈的分叉是怎么一回事

而區塊鏈中的系統，我們知道，它是一個人人都可以參與的數據庫，它的代碼是開放的，整個網絡是去中心化的。

2019-10-17 15:56:49

1100

區塊鏈分析中的過度擬合還有什么挑戰

當與區塊鏈數據集一起使用時，機器學習模型往往會過擬合。

2020-02-05 10:35:40

517

手機里的射頻與天線是一回事嗎

手機里的射頻與天線當然不是一回事了。

2021-10-04 12:52:00

8911

封裝檢測是什么意思?封測和封裝是一回事嗎？

封裝檢測是什么意思?封測和封裝是一回事嗎？封裝檢測指的是對電子元件封裝的檢測，以確保元件的質量和可靠性。在電子元件的制作過程中，首先要將對電路有特定功能的元器件封裝，通常是將芯片放入塑料或金屬外殼

2023-08-24 10:41:51

1658

SMT生產過程中拋料是怎么一回事呢？具體需要怎么解決？

在SMT工廠，生產過程中經常會遇到拋料的情況，甚至有時候拋料會非常嚴重，影響到生產效率，那么拋料是怎么一回事呢？具體需要怎么解決？

2024-01-24 10:42:46

373

電機和馬達是一回事嗎馬達和電機有什么區別

電機和馬達是一回事嗎馬達和電機有什么區別電機和馬達是一回事嗎？電機和馬達是同一個名詞的不同表達方式。在一些地區，特別是中國，人們更傾向于使用“電機”來指代電動機，而在其他地區則更常用“馬達

2024-02-03 09:19:26

908

已全部加載完成

搜索歷史

區塊鏈分析中的過度擬合是怎么一回事

評論