《大數據原理:複雜信息的準備、共享和分析》一一2.8 去標識化
2.8 去標識化
去標識化是去除數據中可能連接該數據對象的公共名稱的信息的過程。在病人記錄這個案例裏,去標識化就是將那些會讓人聯係到病人名字的信息從記錄中去除的過程,這樣做的目的顯而易見。事實上,還有其他信息也需要去除,如病人的聯係地址、出生日期和社會安全號碼。在美國,病人隱私條例裏詳細討論了病人記錄去標識化的問題,並建議把18條記錄條目排除在去標識化之外。33
在進一步討論去標識化之前,必須認識到去標識化不是簡單地從數據對象中移除標識符。事實上,粗暴地將數據對象裏的標識符移除並不明智,會導致數據對象毫無用處,因為,無論是標識化的還是去標識化的數據對象都需要有至少一個標識符。正如在前麵的章節中討論的那樣,標識符可以由單向哈希函數值代替,以保證數據記錄的唯一性。去標識化需要移除那些可能會公開數據對象名稱的信息,這類信息通常指識別信息,但也可能是那些與名稱關聯的信息。所以,我們不要把數據對象的標識符同數據對象中與其公共名稱關聯的信息相混淆。
這似乎違背了我們的直覺,但標識符與去標識化的標識符差別很小,在某些情況下,兩者等價。下麵是雙標識/去標識係統可能的工作方式:
1.收集數據:“Joe Fergusons bank account contains $100.”
2.分配標識符:“Joe Fergusons bank account is 7540038947134.”
3.用標識符取代對象名稱:“7540038947134 contains $100.”
4.一直使用這個阿拉伯數字標識符。
5.不讓任何人知道Joe Ferguson擁有賬號7540038947134。
標識符/去標識化的標識符的雙重使用是一種可靠的技術。瑞士銀行賬戶基本上給每個人分配唯一的賬號(標識符),你可以通過標識符訪問銀行賬戶,標識符不會泄露任何銀行賬戶所有者的身份信息,即它是去標識化的。
標識符的意義告訴你:遇到這個標識符表示它指向同一個對象,而如果遇到兩個不同的標識符那一定是指向兩個不同的對象。而標識符自身不會包含與其公共名稱關聯的信息。
理解去標識化過程僅在數據記錄合理標識化的前提下才能成功是非常重要的,沒有標識化就談不上去標識化。強行對標識程度不高的臨床信息數據集去標識化,會導致數據記錄出現重複、混亂和遺失等情況。
把去標識化過程看成是響應數據分析師查詢消息的一個聯機算法最為合適,下麵給出一個算法流程:
1.數據分析師提出一條大數據資源查詢請求,這個資源包含一些不可共享的敏感信息,除非去標識化了。
2.大數據資源收到查詢請求,檢索出記錄。
3.對檢索出的記錄進行解析,且記錄中所有敏感信息都被刪除,所謂的敏感信息大致包括前麵提到的姓名、地址、出生日期、社會安全號碼等。
4.準備好偽標識序列。偽標識序列有可能由隨機生成器產生,也有可能由原始標識加密而成,又或者是通過單向哈希算法或其他算法生成。
5.原始記錄上被附加了一條事務記錄(即查詢請求),包括偽標識序列、去標識化記錄、事務發生時間以及其他任何與請求實體相關的信息。
6.一條記錄發送給數據分析師,這條記錄由去標識化的記錄及其唯一偽標識符組成。
由於去標識化的記錄及其唯一偽標識符存儲在原始記錄中,因此,當數據分析師後續對這條記錄發出其他請求時,無需重新計算即可得到同樣的反饋。這種常用的數據去標識化方法一般用於對單個記錄或百萬條記錄的操作請求。
現在,你大概會問:“為什麼數據管理員有分配保密記錄的權利,即使記錄已經被去標識化?”這就好像你告訴別人一個秘密,並告訴他不要說出去,你當然不希望有第三個人知曉這個秘密的任何內容。同樣,分享已去標識化的機密信息是荒誕且難以讓人接受的。
我們會在第13章和第14章中討論大數據的合法問題和道德問題。而這裏,讀者需要知道的是,有一些易懂、簡潔的原理可以證明分享去標識化的數據的可行性。
再看看這句話:“Jules Berman has a blood glucose level of 85.(Jules Berman的血糖水平是85。)”這可以稱得上保密記錄,因為,這句話告訴了別人Jules Berman的身體情況。如果隻是短語“glucose level 85”,即刪除了人名,這時該短語就隻是沒有主體的數據了,與“Temperature 98.6”“Apples 2”“Terminator 3”無異,僅是一些不屬於特定主體的原始數據。
通過將某個人或數據對象的信息轉變為不屬於特定對象的信息,去標識化使得數據無害。基於此,美國法規允許無限製地使用這些無害數據進行科學研究。33,34其他一些國家也有類似規定。
最後更新:2017-08-18 14:32:12