亚洲精品一区二区久久久久,一级特黄特色aa大片,四虎在线成人免费网站

引自：《智能制造信息安全技術(shù)》（作者：秦志光, 聶旭云, 秦臻）

伴隨著當(dāng)代社會互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展，整個社會也進(jìn)入了大數(shù)據(jù)時代。不論人們承認(rèn)與否，我們的個人數(shù)據(jù)正在不經(jīng)意間被動地被企業(yè)、個人進(jìn)行搜集并使用。個人數(shù)據(jù)的網(wǎng)絡(luò)化和透明化已經(jīng)成為不可阻擋的大趨勢。這些用戶數(shù)據(jù)對企業(yè)來說是珍貴的資源，因?yàn)樗麄兛梢酝ㄟ^數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)從中獲得大量有價值的信息。與此同時，用戶數(shù)據(jù)亦是危險的“潘多拉之盒”，數(shù)據(jù)一旦泄漏，用戶的隱私將被侵犯。在智能制造這一環(huán)境中，其系統(tǒng)本身不僅能夠在實(shí)踐中不斷地充實(shí)知識庫，而且其還具有自學(xué)習(xí)功能，并且具有搜集與理解環(huán)境信息和自身的信息，并且進(jìn)行分析判斷和規(guī)劃自身能力的行為，所以在這一環(huán)境下，大數(shù)據(jù)系統(tǒng)的隱私保護(hù)工作就顯得尤為重要[1]。

「1.大數(shù)據(jù)系統(tǒng)隱私保護(hù)概述」

一個隱私保護(hù)系統(tǒng)包括各種參與者角色（participation role）、匿名化操作（anonymization operation）與數(shù)據(jù)狀態(tài)（data status），它們之間的關(guān)系如圖1所示。在隱私保護(hù)的研究中，有4個數(shù)據(jù)參與者角色。

圖1一個隱私保護(hù)系統(tǒng)中的數(shù)據(jù)參與角色及其操作

（1）數(shù)據(jù)生成者（data generator）：指那些生成原始數(shù)據(jù)的個體或組織，例如病人的醫(yī)療記錄、客戶的銀行交易業(yè)務(wù)。他們以某種方式主動提供數(shù)據(jù)（如發(fā)布照片到社交網(wǎng)絡(luò)平臺）或被動提供數(shù)據(jù)給別人（如在電子商務(wù)、電子支付系統(tǒng)中留下個人的信用卡交易記錄等）。

（2）數(shù)據(jù)管理者（data curator）：指那些收集、存儲、掌握、發(fā)布數(shù)據(jù)的個人或組織。

（3）數(shù)據(jù)使用者（data user）：指為了各種目的對發(fā)布的數(shù)據(jù)集進(jìn)行訪問的用戶。

（4）數(shù)據(jù)攻擊者（data attacker）：指那些為了善意或惡意的目的從發(fā)布的數(shù)據(jù)集中企圖獲取更多信息的人。數(shù)據(jù)攻擊者是一種特殊類型的數(shù)據(jù)使用者。

在大數(shù)據(jù)系統(tǒng)中隱私保護(hù)技術(shù)方面，隱私保護(hù)的研究領(lǐng)域主要關(guān)注基于數(shù)據(jù)失真的技術(shù)、基于數(shù)據(jù)加密的技術(shù)和基于限制發(fā)布的技術(shù)。

基于數(shù)據(jù)失真的技術(shù)，主要通過添加噪聲等方法，使敏感數(shù)據(jù)失真但同時保持某些數(shù)據(jù)或數(shù)據(jù)屬性不變，仍然可以保持某些統(tǒng)計(jì)方面的性質(zhì)。包括隨機(jī)化，即對原始數(shù)據(jù)加入隨機(jī)噪聲，然后發(fā)布擾動后數(shù)據(jù)的方法；第二種是阻塞與凝聚，阻塞是指不發(fā)布某些特定數(shù)據(jù)的方法，凝聚是指原始數(shù)據(jù)記錄分組存儲統(tǒng)計(jì)信息的方法；第三類是差分隱私保護(hù)。

基于數(shù)據(jù)加密的技術(shù)，采用加密技術(shù)在數(shù)據(jù)挖掘過程隱藏敏感數(shù)據(jù)的方法，包括安全多方計(jì)算 SMC，即使兩個或多個站點(diǎn)通過某種協(xié)議完成計(jì)算后，每一方都只知道自己的輸入數(shù)據(jù)和所有數(shù)據(jù)計(jì)算后的最終結(jié)果；還包括分布式匿名化，即保證站點(diǎn)數(shù)據(jù)隱私、收集足夠的信息實(shí)現(xiàn)利用率盡量大的數(shù)據(jù)匿名。

基于限制發(fā)布的技術(shù)，有選擇地發(fā)布原始數(shù)據(jù)、不發(fā)布或者發(fā)布精度較低的敏感數(shù)據(jù)，實(shí)現(xiàn)隱私保護(hù)。當(dāng)前這類技術(shù)的研究集中于“數(shù)據(jù)匿名化”，保證對敏感數(shù)據(jù)及隱私的披露風(fēng)險在可容忍范圍內(nèi)。包括K-anonymity、L-diversity、T-closeness等[2]。

最早被廣泛認(rèn)同的隱私保護(hù)模型是k-匿名，由Samarati和Sweeney在2002年提出，作者正是馬薩諸塞州醫(yī)療數(shù)據(jù)隱私泄露事件的攻擊者。為應(yīng)對去匿名化攻擊，k-匿名要求發(fā)布的數(shù)據(jù)中每一條記錄都要與其他至少k-1條記錄不可區(qū)分（稱為一個等價類）。當(dāng)攻擊者獲得k-匿名處理后的數(shù)據(jù)時，將至少得到k個不同人的記錄，進(jìn)而無法做出準(zhǔn)確的判斷。參數(shù)k表示隱私保護(hù)的強(qiáng)度，k值越大，隱私保護(hù)的強(qiáng)度越強(qiáng)，但丟失的信息更多，數(shù)據(jù)的可用性越低。

然而，美國康奈爾大學(xué)的Machanavajjhala等人在2006年發(fā)現(xiàn)了k-匿名的缺陷，即沒有對敏感屬性做任何約束，攻擊者可以利用背景知識攻擊、再識別攻擊和一致性攻擊等方法來確認(rèn)敏感數(shù)據(jù)與個人的關(guān)系，導(dǎo)致隱私泄露。例如，攻擊者獲得的k-匿名化的數(shù)據(jù)，如果被攻擊者所在的等價類中都是艾滋病病人，那么攻擊者很容易做出被攻擊者肯定患有艾滋病的判斷（上述就是一致性攻擊的原理）。為了防止一致性攻擊，新的隱私保護(hù)模型l-diversity改進(jìn)了k-匿名，保證任意一個等價類中的敏感屬性都至少有l(wèi)個不同的值。t-Closeness在l-diversity 的基礎(chǔ)上，要求所有等價類中敏感屬性的分布盡量接近該屬性的全局分布。(a, k)-匿名原則，則在k-匿名的基礎(chǔ)上，進(jìn)一步保證每一個等價類中與任意一個敏感屬性值相關(guān)記錄的百分比不高于a。

上述隱私保護(hù)模型依然有缺陷，需要不斷地被改進(jìn)，但同時又有新的攻擊方法出現(xiàn)，使得基于k-匿名的傳統(tǒng)隱私保護(hù)模型陷入這樣一個無休止的循環(huán)中。差分隱私（differential privacy, DP）是微軟研究院的Dwork在2006年提出的一種新的隱私保護(hù)模型。該方法能夠解決傳統(tǒng)隱私保護(hù)模型的兩大缺陷：

（1）定義了一個相當(dāng)嚴(yán)格的攻擊模型，不關(guān)心攻擊者擁有多少背景知識，即使攻擊者已掌握除某一條記錄之外的所有記錄信息（即最大背景知識假設(shè)），該記錄的隱私也無法被披露；

（2）對隱私保護(hù)水平給出了嚴(yán)謹(jǐn)?shù)亩x和量化評估方法。正是由于差分隱私的諸多優(yōu)勢，使其一出現(xiàn)便迅速取代傳統(tǒng)隱私保護(hù)模型，成為當(dāng)前隱私研究的熱點(diǎn)，并引起了理論計(jì)算機(jī)科學(xué)、數(shù)據(jù)庫、數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)等多個領(lǐng)域的關(guān)注。

「2.隱私保護(hù)常用算法簡介」

1）K-匿名（K-Anonymity）算法

在大數(shù)據(jù)的時代，很多機(jī)構(gòu)需要面向公眾或研究者發(fā)布其收集的數(shù)據(jù)，例如醫(yī)療數(shù)據(jù)，地區(qū)政務(wù)數(shù)據(jù)等。這些數(shù)據(jù)中往往包含了個人用戶或企業(yè)用戶的隱私數(shù)據(jù)，這要求發(fā)布機(jī)構(gòu)在發(fā)布前對數(shù)據(jù)進(jìn)行脫敏處理。K匿名算法是比較通用的一種數(shù)據(jù)脫敏方法。例如下面兩張表，一張是用戶的會員注冊信息表，一張是對外發(fā)布的醫(yī)療信息表。每一行代表用戶的一條記錄，每一列表示一個屬性。每一個記錄與一個特定的用戶/個體關(guān)聯(lián)，這些屬性可以分為4類。

表1 會員注冊信息表

表2 醫(yī)療信息表

（1）顯示標(biāo)識符（ID）：記錄的唯一標(biāo)識。

（2）準(zhǔn)標(biāo)識符（QI）：較高概率識別記錄的最小屬性集合。

（3）敏感屬性（SA）：需要保護(hù)的信息。

（4）非敏感屬性（NSA）：為保護(hù)用戶的數(shù)據(jù)隱私，通常在發(fā)布之前會刪除顯示標(biāo)識符，但通過準(zhǔn)標(biāo)識符結(jié)合背景知識，也可以獲得一次額外敏感信息。所以通常對準(zhǔn)標(biāo)識符進(jìn)行匿名處理。

K-匿名（K-Anonymity）是Samarati和Sweeney在1998年提出的技術(shù)，該技術(shù)可以保證存儲在發(fā)布數(shù)據(jù)集中的每條個體記錄對于敏感屬性不能與其他的K-1個個體相區(qū)分，即K-匿名機(jī)制要求同一個準(zhǔn)標(biāo)識符至少要有K條記錄，因此觀察者無法通過準(zhǔn)標(biāo)識符連接記錄。

K-匿名的具體使用如下：隱私數(shù)據(jù)脫敏的第一步通常是對所有標(biāo)識符列進(jìn)行移除或是脫敏處理，使得攻擊者無法直接標(biāo)識用戶。但是攻擊者還是有可能通過多個準(zhǔn)標(biāo)識列的屬性值識別到個人。攻擊者可能通過（例如知道某個人的郵編，生日，性別等）包含個人信息的開放數(shù)據(jù)庫獲得特定個人的準(zhǔn)標(biāo)識列屬性值，并與大數(shù)據(jù)平臺數(shù)據(jù)進(jìn)行匹配，從而得到特定個人的敏感信息。為了避免這種情況的發(fā)生，通常也需要對準(zhǔn)標(biāo)識列進(jìn)行脫敏處理，如數(shù)據(jù)泛化等。數(shù)據(jù)泛化是將準(zhǔn)標(biāo)識列的數(shù)據(jù)替換為語義一致但更通用的數(shù)據(jù)。

K-匿名技術(shù)就是每個相等集（或稱為等價組）中的記錄個數(shù)為K個，那么當(dāng)針對大數(shù)據(jù)的攻擊者在進(jìn)行鏈接攻擊時，對于任意一條記錄的攻擊同時會關(guān)聯(lián)到相等集中的其他K-1條記錄。這種特性使得攻擊者無法確定與特定用戶相關(guān)的記錄，從而保護(hù)了用戶的隱私。

K-匿名的實(shí)施，通常是通過概括（generalization）和隱匿（suppression）技術(shù)來實(shí)現(xiàn)。概括（generalization）指對數(shù)據(jù)進(jìn)行更加概括、抽象的描述，使得無法區(qū)分具體數(shù)值。通過降低發(fā)布數(shù)據(jù)的精度，使得每條記錄至少與數(shù)據(jù)表中其他的K-1條記錄具有完全相同的準(zhǔn)標(biāo)識符屬性值，從而降低鏈接攻擊所導(dǎo)致的隱私泄露風(fēng)險。

K-匿名技術(shù)能保證以下3點(diǎn)：

（1）攻擊者無法知道某特定個人是否在公開的數(shù)據(jù)中給定一個人。

（2）攻擊者無法確認(rèn)他是否有某項(xiàng)敏感屬性。

（3）攻擊者無法確認(rèn)某條數(shù)據(jù)對應(yīng)的是哪個人。但從另外一個角落來看，K-匿名技術(shù)雖然可以阻止身份信息的公開，但無法防止屬性信息的公開，導(dǎo)致其無法抵抗同質(zhì)攻擊，背景知識攻擊，補(bǔ)充數(shù)據(jù)攻擊等情況。

k-匿名算法存在著一些攻擊方式：

（1）同質(zhì)化攻擊：某個k-匿名組內(nèi)對應(yīng)的敏感屬性的值也完全相同，這使得攻擊者可以輕易獲取想要的信息。

（2）背景知識攻擊：即使k-匿名組內(nèi)的敏感屬性值并不相同，攻擊者也有可能依據(jù)其已有的背景知識以高概率獲取到其隱私信息。

（3）未排序匹配攻擊：當(dāng)公開的數(shù)據(jù)記錄和原始記錄的順序一樣的時候，攻擊者可以猜出匿名化的記錄是屬于誰。例如如果攻擊者知道在數(shù)據(jù)中小明是排在小白前面，那么他就可以確認(rèn)，小明的購買偏好是電子產(chǎn)品，小白是家用電器。解決方法也很簡單，在公開數(shù)據(jù)之前先打亂原始數(shù)據(jù)的順序就可以避免這類的攻擊。

（4）補(bǔ)充數(shù)據(jù)攻擊：假如公開的數(shù)據(jù)有多種類型，如果它們的k-anonymity方法不同，那么攻擊者可以通過關(guān)聯(lián)多種數(shù)據(jù)推測用戶信息[3]。

2） l-diversity 算法

美國康奈爾大學(xué)的Machanavajjhala等人在2006年發(fā)現(xiàn)了k-匿名的缺陷，即沒有對敏感屬性做任何約束，攻擊者可以利用背景知識攻擊、再識別攻擊和一致性攻擊等方法來確認(rèn)敏感數(shù)據(jù)與個人的關(guān)系，導(dǎo)致隱私泄露。例如，攻擊者獲得的k-匿名化的數(shù)據(jù)，如果被攻擊者所在的等價類中都是艾滋病病人，那么攻擊者很容易做出被攻擊者肯定患有艾滋病的判斷（上述就是一致性攻擊的原理）。為了防止一致性攻擊，新的隱私保護(hù)模型l-diversity改進(jìn)了k-匿名，保證任意一個等價類中的敏感屬性都至少有l(wèi)個不同的值。t-Closeness在l-diversity 的基礎(chǔ)上，要求所有等價類中敏感屬性的分布盡量接近該屬性的全局分布。(a，k)-匿名原則，則在k-匿名的基礎(chǔ)上，進(jìn)一步保證每一個等價類中與任意一個敏感屬性值相關(guān)記錄的百分比不高于a。如果一個等價類里的敏感屬性至少有l(wèi)個良表示（well-represented)的取值，則稱該等價類具有l(wèi)-diversity。如果一個數(shù)據(jù)表里的所有等價類都具有l(wèi)-diversity，則稱該表具有l(wèi)-diversity。

3）t-closeness算法

t-closeness認(rèn)為，在數(shù)據(jù)表公開前，觀察者有對于客戶敏感屬性的先驗(yàn)信念（prior belief），數(shù)據(jù)表公開后觀察者獲得了后驗(yàn)信念（posterior belief）。這二者之間的差別就是觀察者獲得的信息（information gain）。t-closeness將信息獲得又分為兩部分：關(guān)于整體的和關(guān)于特定個體的。

首先考慮如下思想實(shí)驗(yàn)：

記觀察者的先驗(yàn)信念為B0，我們先發(fā)布一個抹去準(zhǔn)標(biāo)識符信息的數(shù)據(jù)表，這個表中敏感屬性的分布記為Q，根據(jù)Q，觀察者得到了B1；然后發(fā)布含有準(zhǔn)標(biāo)識符信息的數(shù)據(jù)表，那么觀察者可以由準(zhǔn)標(biāo)識符識別特定個體所在等價類，并可以得到該等價類中敏感屬性的分布P，根據(jù)P，觀察者得到了B2。

l-diversity其實(shí)就是限制B2與B0之間的區(qū)別。然而，我們發(fā)布數(shù)據(jù)是因?yàn)閿?shù)據(jù)有價值，這個價值就是數(shù)據(jù)整體的分布規(guī)律，可以用B0與B1之間的差別表示。二者差別越大，表明數(shù)據(jù)的價值越大，這一部分不應(yīng)被限制。也即整體的分布Q應(yīng)該被公開。因?yàn)檫@正是數(shù)據(jù)的價值所在。而B1與B2之間的差別，就是我們需要保護(hù)的隱私信息，應(yīng)該被盡可能限制。

t-closeness通過限制P與Q的距離來限制B1與B2的區(qū)別。其認(rèn)為如果P=Q，那么應(yīng)有B1=B2。P、Q越近，B1、B2也應(yīng)越近。

The t-closeness Principle：如果等價類E中的敏感屬性取值分布與整張表中該敏感屬性的分布的距離不超過閾值t，則稱E滿足t-closeness。如果數(shù)據(jù)表中所有等價類都滿足t-closeness，則稱該表滿足t-closeness。

4）差分隱私算法

差分隱私，英文名為differential privacy，顧名思義，保護(hù)的是數(shù)據(jù)源中一點(diǎn)微小的改動導(dǎo)致的隱私泄露問題。圖2為差分隱私處理流程框架。

圖2 差分隱私處理框架流程

「3.面向聚類的隱私保護(hù)方案」

1）面向大數(shù)據(jù)分析的隱私保護(hù)聚類方法

一種面向大數(shù)據(jù)分析的隱私保護(hù)聚類方法，其特征在于，包括以下步驟：

（1）對數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行歸一化處理；

（2）將數(shù)據(jù)集平均分為k個子集，在每個子集中隨機(jī)選擇一個樣本點(diǎn)作為初始中心點(diǎn)；

（3）設(shè)置總隱私預(yù)算ε和最大迭代次數(shù)tm，計(jì)算最小隱私預(yù)算εm和迭代次數(shù)t＝ε/εm，如果t>tm，則采用等差隱私預(yù)算分配方法來分配隱私預(yù)算序列，如果t≤tm，則采用平均隱私預(yù)算分配方法來分配隱私預(yù)算序列，得到隱私預(yù)算序列εp，其中1≤p≤tm；

（4）對于數(shù)據(jù)集中的所有樣本點(diǎn)，分別計(jì)算其到k個中心點(diǎn)的歐氏距離，將樣本點(diǎn)分配給最近的中心點(diǎn)，將數(shù)據(jù)集劃分為k個聚類C＝{C1，C2，…，Ck}；

（5）根據(jù)隱私預(yù)算序列εp中對應(yīng)的項(xiàng)生成拉普拉斯分布的隨機(jī)數(shù)；

（6）對于每一個聚類Cj，其中1≤j≤k，計(jì)算該聚類樣本點(diǎn)數(shù)目num以及樣本點(diǎn)的和向量sum，分別對其添加噪聲得到num′和sum′，上述噪聲為步驟(5)中拉普拉斯分布的隨機(jī)數(shù)；

（7）更新每一個聚類Cj的中心點(diǎn)為sum′/num′，其中1≤j≤k；

（8）計(jì)算誤差平方和，如果本次和前次迭代的誤差平方和的差的絕對值小于設(shè)置閾值或者迭代次數(shù)達(dá)到上限tm，則結(jié)束執(zhí)行，得到聚類結(jié)果，否則轉(zhuǎn)到步驟4繼續(xù)執(zhí)行下一次迭代[4]。

2）隱藏算法NeSDO

為了防止微數(shù)據(jù)敏感性值的泄露，數(shù)據(jù)隱藏的主要思想是通過修改微數(shù)據(jù)部分（或全部）數(shù)值，盡量避免數(shù)據(jù)記錄中屬性值之間出現(xiàn)一對一的映射模式，以降低可能存在的逆推猜測風(fēng)險，這就要求隱藏策略盡量保留數(shù)據(jù)個體間的共性，弱化個體記錄的個性特征。例如基于限制發(fā)布技術(shù)的k-匿名隱藏策略，通過限制所發(fā)布的每條記錄在準(zhǔn)標(biāo)識符屬性上與至少k-1條記錄的準(zhǔn)標(biāo)識符屬性相同，破壞屬性值間的一對一映射關(guān)系，防止敏感微數(shù)據(jù)值的泄露；而聚類分析的目標(biāo)是將數(shù)據(jù)集分成若干聚簇，同一聚簇內(nèi)數(shù)據(jù)對象具有較高的相似性，不同聚簇間的數(shù)據(jù)對象具有較高的相異性，隱藏中如果僅保留數(shù)據(jù)記錄的共性，則隱藏后數(shù)據(jù)聚類后所得聚簇劃分可能變得模糊，從而導(dǎo)致錯誤的聚類結(jié)果。因此，面向聚類的數(shù)據(jù)隱藏中，在保持微數(shù)據(jù)共性的同時，還應(yīng)保持微數(shù)據(jù)關(guān)于聚類的個性特征。

在基于數(shù)據(jù)失真的擾動隱藏中，合成數(shù)據(jù)替換技術(shù)采用人工合成數(shù)據(jù)（通常采用某數(shù)據(jù)分組的統(tǒng)計(jì)信息）對數(shù)據(jù)表中的個體數(shù)據(jù)進(jìn)行置換，由于合成數(shù)據(jù)并不存在于原數(shù)據(jù)表中，這種方法往往能獲得較好的隱私保護(hù)安全性，同時聚類與數(shù)據(jù)表全局與局部的統(tǒng)計(jì)信息也密切相關(guān)，選取合適的數(shù)據(jù)統(tǒng)計(jì)信息有利于聚類可用性的維護(hù)?？紤]分析共性數(shù)據(jù)記錄和個性數(shù)據(jù)記錄特征與其鄰域均值的關(guān)系，用合適的鄰域數(shù)據(jù)記錄均值替換共性數(shù)據(jù)記錄與個性數(shù)據(jù)記錄的各屬性取值，實(shí)現(xiàn)隱藏操作對數(shù)據(jù)記錄關(guān)于聚類的共性特征和個性特征的保持。

阅读全文

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

數(shù)據(jù)

數(shù)據(jù)

+關(guān)注

關(guān)注
8

文章
7259

瀏覽量
91968
機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8505

瀏覽量
134696
大數(shù)據(jù)

大數(shù)據(jù)

+關(guān)注

關(guān)注
64

文章
8960

瀏覽量
140347

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

大數(shù)據(jù)系統(tǒng)隱私保護(hù)關(guān)鍵技術(shù)是什么？

「1.大數(shù)據(jù)系統(tǒng)隱私保護(hù)概述」

「2.隱私保護(hù)常用算法簡介」

「3.面向聚類的隱私保護(hù)方案」

評論

電子發(fā)燒友

搜索歷史

大數(shù)據(jù)系統(tǒng)隱私保護(hù)關(guān)鍵技術(shù)是什么？

「1.大數(shù)據(jù)系統(tǒng)隱私保護(hù)概述」

「2.隱私保護(hù)常用算法簡介」

「3.面向聚類的隱私保護(hù)方案」

評論

電子發(fā)燒友

大數(shù)據(jù)系統(tǒng)隱私保護(hù)關(guān)鍵技術(shù)是什么？