有人說,智能手機就如同一部竊聽器,無論你開機或者關機,它都會無時不刻地監聽著用戶的一舉一動,而隨著車聯網的發展,汽車會越來越智能化,就像是一部“裝著四個輪子的手機”,可想而知,智能車輛上的信息安全問題可能比智能手機更加嚴重。比如車輛的定位信息、相機所記錄下的路端畫面、車艙內的乘客錄音錄像等等,這些數據作為智能車發展的“燃料劑”,既是不可或缺的,又需要去避免敏感數據的泄露風險。
政府監管部門也開始關注到了智能車的數據風險,比如去年10月發布的《汽車數據安全管理若干規定(試行)》規定就提到車上攝像頭所采集到的人臉、車牌等信息需要進行匿名化處理,意味著車上產生的敏感信息必須要進行脫敏處理。筆者也了解到,自動駕駛發展至今,數據脫敏處理在今年引起了大部分主機廠的重點關注。
那么,數據脫敏具體指的是什么?又是如何進行數據脫敏?數據脫敏在自動駕駛的應用中又面臨什么樣的挑戰?
一、何謂數據脫敏
1.1 數據脫敏的定義
一般來說,數據脫敏技術指的是在對敏感數據進行處理的過程中,通過數據變形(將數據變成模型想要的結構,如1234->1**4)的方式來降低數據的敏感程度的一種數據處理技術。
有時候,數據脫敏也會有一些相近的概念,比如去標識化、匿名化及假名化,但數據脫敏與去標識化和匿名化的相關技術本質上是沒有任何區別的,而假名化則是匿名化和去標識化的一種技術實現方式。
總的來說,在一定層面上,去標識化、匿名化及假名化,都可以歸為數據脫敏。
在大數據時代下,數據脫敏技術并不是什么新鮮技術,它在其它領域中已經被廣泛應用,比如政務、金融、醫療、電信等。
在自動駕駛領域,中汽協發布的《汽車傳輸視頻及圖像脫敏技術要求與方法》也定義了數據脫敏,其主要指通過一定方法在車端數據處理設備上消除原始環境數據中的敏感信息,使得信息主體無法被識別或者關聯,且處理后的信息不能被復原,同時保留目標環境業務所需的數據特征或內容的數據處理過程。
為了讓讀者更好地理解,我們以人臉脫敏為例做個解釋:數據脫敏就是將人臉的關鍵信息隱去或者模糊化(通俗點說,就是在臉部打了個馬賽克),甚至不能讓別人通過其它關聯信息(比如習慣性出沒的地方、本人所穿的衣服等等)來識別出這個人“具體是誰”,并且整個過程是不可逆的,但該人臉的基礎語義信息仍然存在,即自動駕駛系統還是能識別出“這是一個人”。
1.2? 數據脫敏的類型
從數據脫敏的類型來看,主要可分為靜態數據脫敏和動態數據脫敏。
靜態數據脫敏指的是數據的管理方將數據抽取進行脫敏處理后,下發給下游環節,供下游隨意取用和讀寫,脫敏后數據與生產環境相隔離,滿足業務需求的同時保障生產數據庫的安全,例如自動駕駛車輛的系統開發、仿真測試等。
動態數據脫敏指的是數據使用方直接訪問生產數據的使用場景,其特點為在處理敏感數據時,需要實時進行脫敏,并且也可以實時修改脫敏規則。
兩者最大的區別在于,靜態數據脫敏是在脫離數據生產環境后進行的,而動態數據脫敏則是直接在數據生產環境中進行的。
在智能汽車的行駛過程中,車上的大部分敏感數據的產生及處理都是實時的,所以,在自動駕駛領域中,數據脫敏主要是采取動態數據脫敏。
1.3? 自動駕駛中數據脫敏的痛點
在中央計算平臺的趨勢下,智能汽車產生的敏感數據量會比手機更大,甚至無法估量。以感知為例,車端的傳感器越來越多,傳感器的性能也越來越好,這就造成整個感知系統能夠獲取到的數據也會越來越豐富。
李浩文說:“如今單車的智能化水平越來越高,從某種意義上來說,車輛實際上已經具備了一定的地圖測繪能力”。
也就是說,如果一輛自動駕駛車輛跑完全中國的道路,在某種程度上,它就能夠把一張中國地圖繪制下來,而這里面必然會包含大量的敏感地理位置信息、道路標識信息甚至個人隱私等。
這還僅僅只是感知系統帶來的敏感數據,但自動駕駛系統又何止感知這一塊。不同的系統會有不同的敏感數據產生,并且數據的格式也會非常多樣化,這些都會造成日后數據脫敏難度的增加。
面對如此大規模的敏感數據,行業早期在數據應用方面,做得并不規范。
在行業發展初期,車企在數據的采集、存儲、處理等過程中,沒有做到任何數據脫敏措施,數據在采集前是否征得用戶允許、數據資產的歸屬問題等始終處于未解決的狀態。。
第一,數據的確權問題非常嚴重。
行業早期階段,車企認為車內外的數據都是車企自己的資產,并且車上獲取的數據可以被傳輸到自己的私有云中。
第二,整個數據運轉流程不規范。
用戶在車內的信息(如視頻、音頻等)是在不經允許的情況下被采集,或者是在用戶不知情的狀態下,默認勾選了數據采集的“同意選項”。再者,整個車聯網系統缺少數據的保護意識,容易被黑客入侵,造成用戶的隱私信息被盜竊。 歸根結底,造成行業內數據應用不規范的主要原因是數據脫敏相應的政策法規不成熟導致的。
雖然,近兩年,從國家法規層面到行業標準層面,智能汽車數據脫敏的相關政策頻繁出臺。值得注意的是,如《汽車數據安全管理若干規定(試行)》,除了列舉出了6大類敏感數據外,也規定了敏感數據處理的標準原則,例如車內處理原則、默認不收集原則等,這些規定讓行業對智能汽車的數據脫敏有了大致的方向。
表:數據脫敏相關政策的進展情況(按發布機構層級劃分)
?
個別政策法規對敏感數據進行了劃分,明確了具體哪些數據屬于敏感數據。直至中汽協在今年8月發布的《汽車傳輸視頻及圖像脫敏技術要求與方法》,該行業標準細化了對于車外的人臉、車牌的脫敏技術細節。但縱觀這些政策法規,現階段的政策法規僅屬于一種大的框架,并沒有嚴格地去定義如何去做數據脫敏、又該脫敏到什么程度。
再者,人臉和車牌僅僅是自動駕駛系統中感知環節所產生的敏感數據,而感知環節產生的敏感數據又不僅限于這些數據。甚至,在定位、決策、控制環節中,車輛也會產生大量的敏感數據,比如道路定位信息、車輛的操控習慣等等,而針對這些數據,行業內目前并沒有相關政策或者技術標準要求的出臺。
不少專家也提到,現階段關于數據脫敏的政策法規相對比較粗淺,各家主機廠都是在一個大的框架下去完善自己的數據管理規范。
關于數據脫敏的技術要求和方法的出臺時間,張亞楠說:“目前還在制定當中,預計很快就會面世。” ? ?
二、如何進行數據脫敏
那么,了解了何為數據脫敏后,智能汽車中具體是如何進行數據脫敏的?在數據脫敏的過程中,又需要注意哪些事項?
關于數據脫敏的具體步驟,某主機廠信息安全工程師介紹道:“數據脫敏主要處于數據全生命周期的處理環節,首先,技術人員需要對數據做好分類分級,并把敏感數據識別出來,要確定哪些數據屬于敏感數據字段;其次,需要確定具體的脫敏策略;再者,將制定好的脫敏方案給到執行者,執行設定好的脫敏方案;最后,在數據脫敏執行完畢后,對于整個數據的執行過程也會有一些審計工作。”
? 2.1? 敏感數據的分類分級
既然數據脫敏的第一步是要先對敏感數據進行分類分級,但智能汽車上所產生的數據龐大且復雜,那么,在理清楚這些數據資產時,就需要整理出一份數據資產的目錄清單。
那么,哪些數據是敏感數據?又該按照什么樣的邏輯或者標準來進行分類分級? 從宏觀層面來看,敏感數據主要可分為3類:結構化數據、非結構化數據及半結構化數據。
結構化數據是指可通過二維表結構來表達和實現的數據,比如銀行賬號、身份證號碼、手機號、日期等;
非結構化數據是指數據結構不規則或不完整,沒有預定義的數據模型,比如圖像、聲音、文本等;
半結構化數據是指介于完全結構化數據和完全無結構的數據之間的數據,比如HTML文檔、JSON、XML等。
但智能汽車上的數據量非常大,數據類型也非常雜,不能單純以這三個維度來對敏感數據進行分類分級。
某主機廠信息安全工程師說:“國內的《網絡安全法》提出了數據需要做到分類分級,隨后出臺的《數據安全法》也更加明確數據需要做到分類分級,但各行各業的數據類型比較豐富,國內沒有一個統一的標準去對數據進行分類分級, 2021年,汽車行業內出臺了《車聯網信息服務 數據安全技術要求》對數據分類分級做出了一定標準,但它并不是一個強制性標準。” ?
圖:《車聯網信息服務數據安全技術要求》中數據分類標準
李浩文也提到,智能汽車領域未來必然會有更細的數據分類分級規范,但現階段已出臺的規范也僅僅做到概念級的建設指引,恐怕對于主機廠來說,僅憑這些標準來做一些實操工作,其難度會有些大。
結合多位專家的觀點來看,智能汽車行業目前尚未形成細化的數據分類分級標準,主機廠需要根據自身的實際業務需求,從不同場景、不同功能等維度出發,去做敏感數據的分類。
同時,在分類完后,主機廠仍需要根據不同等級的敏感程度,對數據進行分級(如一般、重要、敏感),并對不同級別采取不同的脫敏策略。
2.2? 選擇合適的脫敏策略
在梳理完數據資產后,又該如何選擇脫敏策略?
脫敏規則指的是在原始脫敏算法的基礎上,將一種或者多種脫敏算法進行組合,并應用于特定場景下的敏感數據,而脫敏策略指的是在不同場景下選擇怎樣的的脫敏規則。
表:脫敏算法、脫敏規則、脫敏策略概念示例
在智能汽車行業中,目前還沒有形成統一的脫敏技術規范,各家主機廠在采用相關技術或策略時,都借鑒了一些已出臺的信息安全相關標準規范,如《信息安全技術個人信息去標識化指南》。
一方面,不同類型的數據所對應的脫敏算法和脫敏策略都不同。 根據《汽車傳輸視頻及圖像脫敏技術要求與方法》中的介紹,非結構化數據(如人臉、車牌)一般采用的是統一色塊的脫敏算法,即用統一色塊對視頻中每一幀中的人臉和車牌位置信息進行替換,通過色塊替換直接擦除原圖上像素級別數據,確保擦除后的數據信息不可逆和不可復原。 ?
圖:人臉脫敏示意圖
?而掩碼、取整等脫敏算法主要用于車主的身份信息、自車的車牌號、車控數據等結構化數據。以車主的個人姓名為例,需要應用映射技術(Hashing)將車主名“張三”變為對應的hash值“456684923”。 ?
圖:部分結構化數據相關的脫敏算法示例
(數據來源:《數據脫敏技術的探究與實現》)
另一方面,為了滿足特定場景的需求,更多地是需要有針對性且多樣化的脫敏算法和脫敏策略。
在不同的場景下,車輛的感知系統所獲取到的敏感信息是不同的,比如在高速場景下,自車感知系統獲取到的敏感信息大部分是前方車輛的車牌,那需要對這些車牌采用統一色塊的脫敏算法;而在城區場景下,除了前方車牌需要脫敏外,可能還會有很多行人和周邊建筑物信息等敏感數據,需要對人臉采用統一色塊的脫敏算法的同時,也要給敏感建筑信息采用偏轉的脫敏算法。
也就是說,面對不同的場景特性,敏感數據的差異就會導致脫敏策略的不同。此外,脫敏策略不僅僅是采用一種脫敏算法,而是會采用兩種以上的脫敏算法。
王建偉說:“在不同的場景下,數據脫敏相關供應商一定會給主機廠提供很多模型,主機廠會根據不同的場景、不同的業務需求、不同的監管要求來做針對性的處理。” 總的來說,脫敏策略的選擇必然不是“一招吃遍天下”,而是需要針對不同數據、不同業務場景等,做有針對性的開發。
2.3? 讓脫敏對自動駕駛系統的影響最小化
自動駕駛的首要原則是安全,而數據脫敏是否會造成過度脫敏,從而影響自動駕駛系統整體的安全水平,又如何讓脫敏對自動駕駛系統的影響最小化?
首先,數據脫敏的最終目的是減少或消除敏感信息,從而減小數據安全帶來的風險,而不是阻礙自動駕駛的發展,敏感數據在進行脫敏后仍然需要保留目標的基礎語義信息。
李浩文說:“車輛在采集完數據后,數據并不一定需要存儲或者傳輸到后端,自動駕駛系統只需要識別出前方目標物具體是什么,根本沒必要識別出目標物中的人的面部特征、年齡甚至性別,或者這輛車是什么品牌、車型或車身細節。”
其次,現階段先感知融合、再做數據脫敏是較為可行的方案。 如果數據是先融合后再脫敏,不僅不會降低融合的效果,也可以減少時延的影響。
此外,融合后甚至可以直接銷毀敏感信息,減少不必要的存儲空間占用,但從感知到控制的整個過程中,由于數據未脫敏,數據傳輸過程需要加入一些數據加密的措施,這對加密算法的強度要求較高,最終會導致數據處理難度會加大。
如果數據是先脫敏后再融合,自動駕駛系統對敏感信息的保護難度會降低很多,但也會影響自動駕駛系統的算法訓練。
另外,若要先做數據脫敏,傳感器在獲取數據時就需要先對敏感數據進行脫敏,而這意味著需要對傳感器芯片做一定改造(比如加入某些安全芯片或者植入某些特定算法),這會造成傳感器功耗上升,從而降低傳感器的耐久性。 相反,在域控制器上處理數據脫敏,可以使用安全芯片(配有相應算法)或者SDK(數據脫敏軟件包),讓整個數據脫敏更加標準化,這對相關軟硬件架構的影響是最小的。
劉天宇說:“理論上來說,傳感器芯片或者域控制器處理都可以做數據脫敏,只要算力能夠滿足要求即可。
一般來說,我們建議是在域控制器上處理,這樣可以避免對傳感器芯片的改造,而且域控制器能夠使用傳感器獲取的原始數據進行融合,然后再進行脫敏處理,可以實現對自動駕駛系統的干擾最小化。” 綜合來看,先做感知融合、再做數據脫敏的方案是對整個自動駕駛系統的影響是最小的,也是較為可行的方案。
2.4? 數據在全生命周期中需要加密
通常來說,數據脫敏僅在數據處理環節出現,但實際上,數據脫敏其實在數據的整個生命周期中都是存在的。
數據的全生命周期包括采集、傳輸、存儲、使用、共享、銷毀。如果主機廠先做融合再去做脫敏,那數據也會經歷傳輸、存儲等,要么數據是直接脫敏后再去傳輸或者存儲,要不然在些環節中數據也是有一定的安全風險。 王建偉說:“數據從某個ECU到域控制器的過程中,在每個數據處理節點都會伴隨著一定的被攻擊的風險,所以每個節點都需要做加密處理來保證數據的安全,并且還需要做整個車聯網的身份認證。
再者,未來車內無線通信可能會逐漸增多,比如通過藍牙、WiFi及UWB的方式,而這種通信方式是最容易被黑客攻擊的。” 李浩文說:“加密算法在應用上不像數據脫敏算法那么豐富,它嚴格遵循的是數學方法,而最常用的則是對稱加密、非對稱加密和摘要算法等,并且通常情況下,密鑰長度會與加密強度呈正相關。”
針對不同類型的數據,在加密策略的選擇上也是有區別的。某主機廠信息安全工程師說:“對于一些不敏感的數據,只需要采用一些弱的加密;對于一些非常敏感的數據,比如車控的數據或者藍牙鑰匙信號,可能需要采取較強的加密措施。”
三、自動駕駛數據脫敏的市場格局 ? ?
3.1? 玩家類型
數據脫敏的主要玩家是主機廠和第三方數據服務商,并且主機廠會是數據脫敏業務的主導方。
(1)主機廠
優勢:主機廠業務部門會更了解自身業務,在法律法規的指導下,區分哪些是敏感數據,哪些是非敏感數據。
李浩文說:“對于主機廠來說,通常情況下數據脫敏是需要從內部做起的,某些主機廠的整個自動駕駛系統都是自己寫的,或者至少是由相關供應商提供,如果工作到位的話,是很容易識別哪些數據是敏感數據。對于數據脫敏算法,業內的相關公開方案也有很多,這并不是難點。” 挑戰:數據脫敏所面對的數據量非常龐大,是一個系統性的大工程,需要大量技術人員,而主機廠相關人員儲備不足。
李浩文繼續說道:“當前,某些主機廠確實缺少相應的復合型人才,比如那些能理解數據脫敏的法律條文,也能夠對照條文將敏感數據一一梳理出來的人才。再者,現階段主機廠也確實人手不夠,或者缺少數據梳理工作,所以主機廠才需要第三方數據服務商來幫助他們梳理數據資產。” 再者,一些主機廠認為,若將敏感數據交由第三方服務商處理,可能存在數據泄露的風險。
(2)第三方數據服務商(比如木衛四科技、信大捷安、中汽數據等)
優勢:專業性較強,有一定的人才儲備。 第三方的數據服務商無論是在專業能力上,還是在技術人才的儲備上,都會優于主機廠。他們在其它行業內有過豐富的數據脫敏項目經驗,相關脫敏技術的應用熟練度也較高。 挑戰:第三方在為主機廠提供數據脫敏服務時,還需要做一些脫敏模型的二次開發。
某主機廠信息安全工程師說:“第三方數據安全廠商在其他行業,如政務、金融行業,可以做一些常見的數據字段類型的脫敏業務(如姓名、身份證號、手機號等),但汽車行業,車端的數據類型非常多,比如車內語音圖像數據、車控數據、環境感知數據等等。
所以,智能汽車上會有一些新的數據類型,對于這些數據,數據安全廠商可能沒有現成的方案可以直接適配,需要對現有的數據進行人工打標簽,再對脫敏工具進行二次開發和調試。”
3.2? 商業模式
目前,主機廠在數據脫敏業務上缺人也缺經驗,所以仍然會選擇以外部合作為主,那么,具體合作模式是什么樣?
首先,第三方數據服務商會連同tier1(比如T-box、傳感器等供應商)為主機廠提供咨詢服務,幫助其梳理數據資產,并給出咨詢方案。
王建偉說:“主機廠也不會直接去向第三方數據服務商進行采購,還是會先去找自己的零部件供應商或者tier 1(畢竟數據最終還是這些零部件產生的),告訴他們對于數據脫敏業務的需求細節,包括需要做到什么樣的脫敏效果,同時會給與零部件供應商或者tier 1幾個可供選擇的第三方數據服務商。” 其次,在給出咨詢方案后,第三方數據服務商也會提供相應的軟硬件產品:安全芯片+數據脫敏SDK,而這些都會集成在T-box上,一同提供給主機廠。
其中,安全芯片主要是針對汽車的信息安全,提供相應密鑰或者數據保護算法的硬件產品,可應用于T-BOX、數字車鑰匙、V2X等; 數據脫敏SDK是指集成了脫敏算法,預留脫敏數據輸入和輸出接口的軟件開發包。算法SDK一般具有一定的兼容性,多種圖片格式可以做轉化,劉天宇說。 關于對數據脫敏SDK的理解,李浩文說:“數據脫敏SDK作為附屬軟件,它并不是獨立存在的,一般跟自動駕駛的主程序或者其它數據處理程序融合在一起,往往以庫的形式存在,就好比是微信軟件中的某一個細分功能。
并且,數據脫敏SDK內部的脫敏策略都是可配置甚至在線升級調整的,就如自動駕駛的主程序一樣,它也會定期升級。” 最后,在盈利模式上,第三方數據服務商通過收取咨詢服務費及出售軟硬件產品來獲取收益。
四、數據脫敏在自動駕駛應用中的挑戰
4.1? 敏感數據來源的多樣化
自動駕駛車端的敏感數據會來自于自動駕駛系統的感知、定位、決策、控制各個環節。
比如在感知系統中,傳感器可不止是相機。其它的傳感器也同樣會有一些敏感信息出現。以FMCW激光雷達為例,除了可以獲取到一些測速測距的深度信息外,激光雷達甚至可以配合其它傳感器,實現三維的實時建圖。當前,炙手可熱的4D毫米波雷達,相比于傳統的毫米波雷達來說,它具備了如同激光雷達的一樣的點云生成能力,并能夠獲取到物體的高度信息,比如橋墩的高度信號等。
一方面,不同類型的傳感器會帶來不同的敏感數據;另一方面,不同類型的傳感器所能提供的敏感數據等級也略有不同。
相機帶來的是幀圖像的數據格式,而激光雷達和毫米波雷達帶來的則是點云形式的數據格式,在數據脫敏時,必須要在理解傳感器的前提下,才可能更好地處理敏感數據。
即使同一類型的傳感器,由于來自不同供應商,傳感器帶來的數據格式也有可能不同,需要對它們各自的數據分別進行脫敏處理。
一般來說,相機所能獲取到的敏感數據量會多于激光雷達,更多于毫米波雷達,而數據敏感程度上,相機的數據敏感程度也更高于其它二者。 ?
表:各傳感器之間的敏感數據情況
雖然,《汽車傳輸視頻及圖像脫敏技術要求與方法》對人臉和車牌的脫敏處理做了一定的規范,比如圖片的大小、清晰度等,但對于其它類型的數據或者其它傳感器所帶來的敏感數據,行業內并沒有做出任何指引規范,各家主機廠也都是處于摸索中,或者干脆就不去關注這方面。
4.2? 數據脫敏的程度較難把控
敏感數據到底需要脫敏到什么程度,才可以真正實現敏感信息的完全脫敏?同時,數據脫敏是否會由于過度脫敏而造成某些關鍵信息的損失?
以人臉或者車牌的脫敏為例,相關的規定也做出了一定的約束,從技術上來說,要把這類圖像脫敏到“剛剛好”,或許并不會有很大的難點,但事物之間是有一定的聯系存在的,當數據量級達到一定程度時,也可以通過某些信息來推斷出某人的個人信息。 李浩文說:“雖然通過脫敏技術對某個人的人臉進行了脫敏處理,但還是可以從他的衣服、步態或者他個人經常性出沒的位置等交叉信息,來推斷出他的個人信息。再比如,我們在做手機號碼的脫敏時,會常去把中間4位號碼隱去,但那也只有1萬種排列組合的可能性,數據仍然有被推演出的風險。”
4.3? 車端硬件性能的占用
智能汽車上的硬件性能非常有限,也非常寶貴,那么算力在保證自動駕駛系統安全運行的同時,是否也會滿足數據脫敏的需求?對此,筆者在與各個專家進行了探討,專家們的結論各不同,形成了兩種不同的答案。
先給出結論:短期內,數據脫敏不會對車端的硬件造成過多的性能占用,但長期方向上,隨著敏感數據的不斷增加,數據脫敏對車端硬件性能的占用可能會成為一個挑戰。
從短期來看,如果只做圖像脫敏處理,對于帶有浮點運算的SoC芯片來說,脫敏對硬件的消耗并不大。
目前的脫敏規范僅限于車外的人臉及車牌信息,對于其它的敏感數據是否要進行脫敏,甚至如何進行脫敏,其實并沒有相關標準出臺,這也在一定程度上將車輛上所需脫敏的數據范圍縮小到了一個當前算力所能承受的范圍內。 根據已落地的項目經驗,劉天宇說:“以高通8155芯片為例,部署脫敏算法后,CPU占用率低于10% (不需要使用GPU算力),其余占用資源為:模型參數量<3M、FLOPS<5G、運行ROM< 30MB、運行RAM<100MB、運行CPU<10kDMIPS。” 從長期來看,隨著敏感數據的定義不斷明朗化及中央計算的電氣架構趨勢下,車端敏感數據的范圍會被擴大,同時如果大量的數據都集中在中央控制器上處理,現有的SoC性能未必能在保證自動駕駛系統正常運行的情況下,再去處理數據脫敏,顯然到那時候就需要更多的算力支持。
審核編輯:劉清
評論