閱讀1001 返回首頁    go 阿裏雲 go 技術社區[雲棲]


聯通案例|利用大數據分析,識別電話詐騙個人隱私信息泄露途徑

1.被唿號碼臨界熵的計算


0?wx_fmt=jpeg


電話詐騙具有明顯的特點(見圖1)。據統計,電話詐騙的平均成功率僅為0.28%,即平均要打上357次電話才有可能詐騙成功一次,所以電話詐騙也是個費時費力的“工作”。一般而言,電話詐騙中受其侵害的群體比較廣泛,有些是非特定的,采取順序撥號,有些卻是有明確目標、針對性比較強的。這些有針對性的詐騙,通常都是受害者的個人信息被泄露所引發的,而且詐騙人可能針對已獲取信息為此類群體準備了專門的溝通“腳本”。

0?wx_fmt=png

圖1:電話詐騙唿叫時點與通話時長的分布


為了從被舉報的電話詐騙中,發現有明確目標的“無序”(明顯的吉祥號碼除外)被唿號碼,我們引入了“臨界熵”(marginal entropy)指標,同時采用“滑動窗口法”來計算熵值,進一步挖掘被唿號碼間的關聯。相比以往的“隔斷窗口法”,在處理數據方麵“滑動窗口法”具有明顯的優勢(見圖2)。

0?wx_fmt=png

圖 2: 同一窗口長度下 ,

(a)隔斷窗口法與 (b)滑動窗口法比較


設定“連號”被唿號碼的熵為錨,熵值越大,號碼目的性越強,即號碼“無規則”、“無序”的狀況越嚴重,也就有更大的可能被泄露了個人信息。



2、被唿用戶特征分析


2.1城市功能微網格地圖


自2015年起,中國聯通網絡技術研究院與各省公司合作,實施對全國334個城市的市區功能微網格的劃分與分析。微網格是對有效覆蓋區域進行小範圍區域的劃分,劃分總體原則包括:a)微網格是閉環結構,盡量避免和減少宮格交叉、重疊。b)微網格應考慮地形地貌,以道路、河流為宮格邊界。c)微網格要充分考慮用戶聚集特征(如高校、醫院、家屬院、政府機關、集團客戶等),將用戶特征相似的區域劃分為一個宮格;劃分後的宮格要進行分類和命名,以便後續管理、分析。d)宮格麵積在1km2左右。根據用戶聚集特征,宮格按如表1進行分類。

表1:宮格分類表(包括但不限於此33類)

0?wx_fmt=png


2.2 手機用戶常駐地識別


從運營商角度,分析手機用戶常駐地主要依靠B域話單數據和O域信令數據;兩者都是以基站交叉定位為主,但卻容易受到手機信號在周邊基站間存在乒乓切換等影響,對定位精度有較大幹擾。這裏,我們創新地引入了聯合熵(joint entropy)的相關算法來有效解決這一問題(其中,臨界熵是計算獨立變量的不確定性,而聯合熵是計算有相互影響作用變量的不確定性)。

這樣,從手機用戶的日常個人行為軌跡中,參考時間維度,可以提煉出其主要的常駐地(即居住地和工作地),結合手機實名製信息與城市功能微網格地圖,能夠初步推測其職業身份。過程如圖3所示。

0?wx_fmt=png

 圖 3:(A)某一手機用戶日常活動軌跡;

(B)日間工作與夜間休息兩個關鍵時段的常駐區域.

(C)工作區內更細化的微網格位置對應.


3、個人信息泄露情境分析


利用手機詐騙的投訴與報案數據,將用戶個人信息泄露分為四種情境:情境 I:  被唿手機用戶群體常駐地高度重合,例如,都在同一學校、同一公司辦公大樓或同一政府機關。則這樣的情況,很可能是從本單位泄露了個人信息。當然有可能是有人內應,也有可能是單位信息防護管理不力,被外部黑客攻擊。情境 II : 如果被唿手機用戶群體常駐地不相同,但他們的相關親屬關係人中卻都被發現有常駐地相同的情況,例如用戶的孩子在同一個學校上學,這樣用戶的個人信息就有可能被間接地泄露出去。其中,手機用戶的社會網絡分析技術可以完全發現用戶的較近關係人特征,如住在同一小區、平時通話特點、以及春節節假日活動軌跡高度吻合等(見圖4)。情境III:如果從投訴中心與報案描述中,發現詐騙者甚至知道用戶的身份證號和銀行卡號,那麼我們與中國人民銀行征信中心聯手,可以對這類被唿手機用戶進行銀行賬戶查詢統計,從而發現是否用戶是否在同一銀行開戶,如果發現存在同一銀行開戶情況,則可能是從銀行渠道泄露的信息。如果未發現同一銀行開戶現象,還可以進一步與投訴用戶確認,是否在同一購物網站上開設支付功能。情境IV: 通過以上三種情境篩選,如果仍不能發現被唿用戶間存在明顯的關聯性,那麼,用戶群體中的個人信息泄露可能歸因於其他類的個體化行為,情景較為分散,可能由於個人保護意識不強而引發的信息泄露。采用分層遞進分類(one against rest)法對四種信息泄露情境進行判別過程(如圖5所示),根據兩分原理設定三個判別模型,經ROC麵積法檢驗,模型效果較好(見圖6)。

0?wx_fmt=png

圖4:手機用戶社會網絡關係示意圖


0?wx_fmt=png

圖5:分層遞進分類(one against rest)法


0?wx_fmt=png

圖6:三種模型的ROC曲線下麵積對比(>0.5)



4、大數據分析平台



在判別分析中,涉及到大量的用戶數據去收集、存儲與計算,包括離線數據與實時數據,結構數據與非結構數據,如行為軌跡的圖數據、投訴文本數據等。為了保證執行分析的高效性,我們建立了具有四個層次的大數據分析平台(見圖6左)。第一層是接口層,提供數據的收集匯總服務,數據來源包括運營商與中國人民銀行征信中心,數據涉及用戶手機所產生的相關數據與用戶在銀行的金融賬戶數據等。第二層用來數據處理與計算,包括用戶常駐地圖、社會網絡分析、離線數據與實時數據處理等內容。第三層是資源管理層,采用大數據分布式存儲的HBASE和HDFS文件管理係統,在計算框架方麵采用了Spark技術。相比Hadoop技術,由於Spark利用內存計算,執行效率大為提高。第四是硬件部分,主要包括計算與存儲的物理資源。在此基礎上,在用戶常駐地分析與社會網絡分析方麵,我們采用了多分類器並行迭代算法,並且加入部分有價值的虛擬變量(啞變量),有效提高了常駐地與社會網絡分析模型的精確度(見圖6右部分)

0?wx_fmt=png

原文發布時間為:2017-04-15

本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號

最後更新:2017-05-17 13:34:05

  上一篇:go  蘋果申請加州測試牌照獲批,無人駕駛項目Titan再加速
  下一篇:go  如何用Python畫各種著名數學圖案 | 附圖+代碼