阿裏的攻城獅和程序媛用算法給騙子“畫個像”
開學季,也是電信網絡詐騙的高發季。去年,山東徐玉玉案令人扼腕,盡管不久前,犯罪分子得到了應有的懲罰,但這種悲劇始終是不應該發生。因此,去年10月24日,國務院聯席辦和阿裏巴巴聯合推出了“錢盾反詐平台”,就是為了有效治理猖獗的電信網絡詐騙。
最近,阿裏巴巴安全部算法團隊裕宏與錢盾團隊梅黛共同產出的惡意電話識別論文“DeMalC: A Feature-rich Machine Learning Framework for Malicious Call Detection” 被信息檢索、知識管理和數據庫領域中的頂級ACM會議CIKM 2017收錄。(注:CIKM全稱是The ACM Conference on Information and Knowledge Management,是信息檢索和數據挖掘領域的全球頂級學術會議,由美國計算機協會(ACM)主辦。2017年工業界能夠收錄的論文在全球範圍內僅有24篇。)
得知這一消息,我們第一時間找到了這兩位同學。
裕宏是以“阿裏星”的身份進入阿裏巴巴的(“阿裏星”就是每年最厲害的校招生咯),他擅長進行時間序列的數據挖掘,比如股票、心電圖以及走路的軌跡等。當年,他曾開創一個算法模式比國外的大拿教授的模式提速了10-1000倍。畢業前,他在微軟研究院實習時,又進行過位置和軌跡的相關研究。
梅黛則對數據應用、大數據及機器學習感興趣,目前在錢盾團隊負責欺詐電話的相關數據及算法研究。
實際上,裕宏和梅黛提出了11個能夠辨別一個陌生來電是否為惡意電話的維度,但出於保密及降低對抗幾率的緣故,裕宏和梅黛隻對其中的7個維度進行了介紹。
1、號碼本身的屬性。
例如號碼類型(固話還是移動電話)、運營商(三大運營商+一眾虛擬運營商)、歸屬地等。從事詐騙的團隊往往來自某些固定的區域,這並不是地域歧視,而是真實的現狀。
2、唿入、唿出的頻次和比例。
很簡單,騙子唿出電話的頻次和比例會遠大於唿入電話,這個指標很異常,也非常容易理解。
3、唿入、唿出的時長。
一般人接到騙子電話,會馬上掛斷或者罵一句再掛斷。總之,接到正常電話我們一般不會這麼快就掛。所以,騙子的電話絕大多數具有接通時間極短就結束的特征。
顯然,詐騙號碼,每天都在不停地一個接一個地打電話。然鵝,正常號碼是不會這樣的。裕宏和梅黛告訴我們,詐騙電話來電時間在每天和每周的分布其實都是有規律的。
5、唿出電話的城市位置信息。
剛才說過,一般的私人電話可能隻會和一兩個城市的人通話,而騙子顯然不會。當然有些公司的電話也有這樣的屬性,這個話題後麵再說。
6、唿出電話對方的設備信息。
每部電話都會對應一個獨特的識別碼,這個是可以獲得的。如果一個電話每次唿叫的設備都不同,那麼顯然是不正常的。(這個和剛才的唿出電話城市位置信息有異曲同工的地方)
事實上,撥打的電話之間一般也是有聯係的。比如你的前女友的現男友可能是你的好基友。如果一個電話撥出去的對象,完全沒有任何聯係,也是十分可疑的。
上麵這七個維度,我們從感性的角度給老鐵們做了一下解釋,而具體的算法需要結合七個維度的十億條數據,通過天書一樣的算法,最終給一個電話號碼的“詐騙度”打分。
如果一個電話號碼最後分數很高,比如說90分,這就很可能意味著七個維度中它中槍了六個半,很可能是每天不接電話,反倒給不同城市的不同電話打了1000個,並且這1000個電話機主還互相不認識。這基本就是詐騙無疑了。
總而言之。
正常的電話,大多數唿叫會撥打給固定的幾個人,而詐騙電話呢?
正常的電話,大多會打給固定幾個城市,而詐騙電話呢?
正常的電話,打出去和接進來電話的數量大概相同,而詐騙電話呢?
怎麼樣,是不是有點感覺了?
撥打、接到電話的數量、目標城市、時長、頻率,這些都是不同維度的數據。而這些數據裏麵,隱藏著每一個電話身份的“驚天秘密”。
然而,這裏還隻是講到了7個維度,如果綜合論文裏麵的11個維度來進行判定,那麼就可以更為精準地為騙子“畫個像”。
據悉,這項技術正在部署錢盾當中……
注:錢盾反詐平台是國務院打擊治理電信網絡新型違法犯罪部際聯席會議辦公室與阿裏巴巴集團聯合開發的“反詐神器”,是覆蓋手機端、PC端、Pad端,專業解決用戶資金安全、防信息泄露的技術平台。
本文部分引用微信公眾號“淺黑科技”,原文作者:史中
最後更新:2017-09-11 10:02:25