本期為大家帶來eIQ Time Series Studio工具使用攻略-輸入文件格式的介紹。
時間序列數據與視覺和語音數據不同。視覺數據通常由三個或一個通道組成,每個通道具有固定的寬度和高度。語音數據則始終保持一個或兩個通道,輸入為麥克風波形。時間序列數據通常來自一個或多個傳感器,通道的數量是不同的,例如:
原始傳感器數據可以有不同的采樣率,如何選擇最佳采樣率?
原始傳感器數據輸出是按照時間順序并連續的。如何更好地將連續數據分割成段數據?
視覺和語音數據是人類可理解的,而時間序列數據則以浮點格式呈現,難以直接閱讀和理解。
因此算法設計與視覺和語音AI/ML有所不同。
為了了解時間序列數據,以3軸加速度傳感器的數據樣本為例:
可以從圖表中得到:
傳感器有三個通道,分別命名為C1、C2、C3軸,大多數傳感器可能只有一個通道。
一個采樣點包含每個通道的一個數據點,由 C1、C2、C3 組成。
一個采樣時間窗口包含多個按時間順序排列的采樣點,順序為 C1 C2 C3 C1 C2 C3…C1 C2 C3。
整個數據集由多個隨機順序的時間窗口組成。
同一傳感器的每個通道都在相同的采樣率下運行,因此所有通道的數據規模都是相同的。
連續數據:
硬件傳感器始終按時間順序以連續格式輸出原始數據,見下圖:
建議用戶按上述格式保存連續的原始數據,并確保每行代表一個時間增量,建議使用空格作為分隔符。逐行加載數據時按時間順序執行。
分段數據:
工具支持分段數據輸入,用戶可以自行處理數據或通過"Data Logging"采集連續數據并通過"Data Intelligence"進行數據分析并保存為分段數據。以下圖表解釋了分段數據的格式。
每一行作為一個樣本,樣本點按通道順序排列。
多個按行排序的樣本組成一個訓練數據集,用于算法研究。
逐行分割的數據樣本可以保持隨機,但里面的每個樣本必須保持時間順序。
可以選擇多個數據文件作為一種類型導入工具進行訓練和測試,數據加載器會自動合并。
Time SeriesStudo 數據格式
需要用戶導入正確的數據集,工具僅支持CSV文件格式,數據集以分段格式保存,數據間以:空格,逗號,Tab, 分號隔開,對于不同的訓練任務,請按照以下指南導入適當的CSV格式文件。
異常檢測&分類算法:
數據文件格式:每行一個樣本,包含所有通道數據,樣本由分隔符(空格、逗號、tab和分號)分隔。這是一個數據文件示例,其中包含 m+1個樣本,每個樣本有 n+1個采樣點,每個采樣點的數據包含 3 個通道(x、y 和 z)。
對于異常檢測,必須導入兩類數據文件:正常樣本和異常樣本文件。每個類必須加載至少一個數據文件。
對于分類項目,必須導入 n (n>=1) 類數據文件。每個類必須加載至少一個數據文件。
異常檢測和分類需要導入不同類別的樣本數據文件,為了得到可信的訓練結果,最好保持各個類別的樣本數量總體平衡。
回歸算法
數據文件格式:每行一個樣本,包含所有通道數據,樣本之間用分隔符(空格、逗號、制表符和分號)分隔。前 k+1 (k 是Input/Outputtargets參數值,在創建回歸項目時設置,k >= 0)列是要預測的目標值。這是一個數據文件示例,中包含 m+1個樣本,每個樣本有 n+1個采樣點,每個采樣點的數據包含 3 個通道(x、y 和 z)和 k+1個目標。
-
傳感器
+關注
關注
2551文章
51084瀏覽量
753432 -
算法
+關注
關注
23文章
4612瀏覽量
92870 -
數據格式
+關注
關注
0文章
30瀏覽量
8893 -
Studio
+關注
關注
2文章
190瀏覽量
28682
原文標題:eIQ Time Series Studio工具使用攻略-輸入文件格式
文章出處:【微信號:NXP_SMART_HARDWARE,微信公眾號:恩智浦MCU加油站】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論