閱讀389 返回首頁    go 阿裏雲 go 技術社區[雲棲]


宜人貸何林海:社交圖譜在金融反欺詐產品的應用

在今年的「QingCloud Insight 2017」上,麥思博(msup)組織了主題為“AI落地實踐”的專場論壇。宜人貸數據產品經理 何林海 在本場帶來了題為《構建基於社交圖譜關係的反欺詐產品應用》的演講。

何林海在演講中主要分享了欺詐行業麵臨的挑戰和產業鏈式發展、如何快速評估欺詐風險/平台搭建(框架體係)及實現、基於社交知識圖譜的欺詐團夥發現、宜人貸麵向行業的反欺詐解決方案“先知”等內容。

本文為早餐君根據速記整理而成,在不改變講者原意的情況下做了編輯和縮略。特別致謝青雲QingCloud、麥思博(msup)、宜信技術團隊對本文的貢獻。

何林海,目前主要負責宜人貸反欺詐產品的搭建,在做反欺詐之前,主要負責SDK行為數據的采集,收集了大量寶貴的用戶行為數據,目前在公司內各個項目中得到了廣泛使用。 在宜人貸之前,就職於美團數據工程部。

以下為何林海的演講內容。

我是來自於宜人貸的何林海,今天主要分享社交圖譜關係在金融反欺詐產品方麵的應用。

關於宜人貸

宜信公司2012年推出的一款在線金融服務平台。宜人貸通過科技驅動金融創新,為中國優質城市白領人群提供高效、便捷、個性化的信用結款谘詢服務。

2015年12月18日,宜人貸在美國紐約證券交易所上市,成為中國金融科技第一股。截止2017年3月31日,宜人貸累計服務了超過60萬借款用戶,近120萬出借用戶,累計促成借款總額達393億人民幣。




在美國,欺詐主要是由於信用風險而產生,但在國內,很多壞賬是由欺詐產生,中國對於欺詐的懲罰不夠,導致了類似事件頻繁出現。作為一個行業的挑戰,欺詐不僅隻存在於在線P2P領域。

關於欺詐的行業挑戰,舉三個例子。

非銀信貸:行業整體風險偏高,由於門檻較低,滋生了大量團夥欺詐、身份冒用、老賴、多平台借款、黑中介等,帶來巨大經濟損失,壞賬率居高不下。

銀行:開展網絡支付、直銷理財、電商、消費信貸、P2P等創新業務中,和非銀信貸麵臨同樣的問題。

電商:電商領域的在線支付、惡意點擊、廣告監測、黃牛、賬戶安全等方麵麵臨交易欺詐風險。

這些問題是全行業的挑戰,宜人貸麵臨的主要是信貸申請時候的欺詐。

現在大量欺詐已經不再隻是個人作為,而是一種行業性質的行為。我簡單分成三類:上遊、中遊、下遊。

image


上遊,主要是黑產技術服務,能力不遜於技術團隊,力量強悍,積累了豐富的工具使用經驗,包括虛擬模擬資料,做帳單造假等,成員都是計算機高手。

中遊,把惡意注冊的帳號釋放出去,或者是通過交流平台招攬技術人才。另外,由於需要很多資料,到農村收一些大爺大媽的身份證。對他們來說,賺一百塊錢,身份證借用兩天沒什麼關係,實際上這些資料被用來騙貸了。

下遊,有專人用這些資料來做欺詐、盜竊、勒索,甚至用來刷單。




宜人貸如何建立一套快速評估欺詐風險的機製呢?

2014年開始有這些想法,在現有風控體係外,把欺詐風險和信用風險分開做。欺詐風險單獨拎出來,並將對用戶的欺詐風險識別出來。我們建立了一套從數據采集到機器學習,並快速給出欺詐評分的體係。


image


在數據采集時,通過SDK的方式,也就是采集SDK,可以在不同觸點采集到用戶的基本信息,隻要用戶觸達任何一個終端,我們都實時地將這些用戶信息送到SENT EVENTS上。

深度學習以前沒怎麼用,監督類學習是基於欺詐和非欺詐的用戶去做分類,無監督用了知識圖譜的技術。對於單個用戶,每個事件會給出一個評分。

比如,用戶打開APP會得分,因為懷疑安裝了模擬器,用戶進行申請時會給他提醒完善信息。對於優秀用戶,根據他的設備或者關聯出的其他信息,在注冊時給他打一個好的分數。


image

這是對於不同事件進行實時欺詐評分的流程。用戶在設備激活的時候得一個分,注冊的時候得一個分,查看新手引導的時候又得到一個分,這個分會實時變化。每次過來,用戶都會帶上基本信息:設備、IP地址等等,可用作評估風險程度的特征。

image

上麵說到的是反欺詐的基本架構,我們在內部做成一個產品化平台,今天主要介紹一下它的體係,主要基於三個層次。

首先是實時的數據采集,數據采集分幾個部分,第一部分是基於SDK采集相關的用戶行為數據,第二部分是用戶授權的相應個人信息,包括消費數據和通話數據,第三部分是三方數據。

image


其次,我們用到了實時數據處理,基於知識圖譜構建了三個層次,第一個是欺詐評分模型,實時對用戶的每個事件進行評分,第二個是傳統的規則引擎,我們用了一個非常強的規則;第三個是團夥挖掘,這是一個很大的亮點。

前兩點很多公司都在做。針對單個分類的問題,數據決定了模型好壞的上限,模型調的再好,隻是決定效果無限逼近上限。團夥挖掘是基於知識圖譜,把用戶通過圖的方式,挖掘他們之間的關係,把這些(有類似欺詐行為或關係的)用戶拎出來。

在實時欺詐發現階段我們采用產品化的工具,在流程裏通過調查工具,直接給到信審。把每個用戶提報出來,通過這套流程可視化平台,幫助快速理解用戶是否欺詐,我們會做中介發現,把中介找到。第三是團夥監控和預警,把欺詐團夥挖出來。




下麵講講每個部分的具體實現過程。

第一個模塊是基於SDK的實時數據采集,獲取一手數據。我在去年加入了宜人貸,當時就在想,這麼多的用戶行為數據為什麼不用來做反欺詐呢?用戶的淘寶數據、消費數據,以及其他的很多臨時性數據都可以作假,但是用戶的行為數據一般不會去模仿,我們做了一個SDK采集框架,分成三層。

第一部分是數據采集,覆蓋宜人貸所有客戶觸達終端的采集能力,采集用戶行為、設備指紋等相關信息,比如型號、是否模擬器、各項物理層,以及網絡源信息,這部分非常重要,它連接著一些上網軌跡,還有Location,我們發現很多團夥都在一個地點,好幾十個壞用戶聚在一個基站下麵。以上是采集層。

中間是實時數據處理,我們做了一層相應的配置,對於哪些數據是可用的,我們花了很多力氣做數據清洗,剛開始的時候在這方麵踩了不少坑,然後後續實時的時候會做一些數據回填,才達到一個比較好的運算。數據處理層分為離線和實時。實時數據直接灌到知識圖譜裏,離線數據做一些特征處理和建模分析。

在數據應用層,最簡單的就是流量統計分析,分析用戶的行為。其中兩個方麵跟反欺詐有關,一個是反欺詐前置,另一個是流量反作弊,對每個渠道過來的激活都需要做是否作弊的評分。在反欺詐前置方麵,我們會對每個用戶進行實時的欺詐評分。

這是SDK采集的基礎框架。數據采集方麵數據由固定表頭信息+事件信息組成,每條記錄都是一個事件,包含如獲取定位行為、或者設備信息行為、用戶點擊行為、頁麵加載行為。數據發送有些策略:實時發送、滿N條發送、默認15條、失敗重發等等。

采集的內容分為幾個模塊。設備數據主要有手機品牌、手機型號、操作係統、設備ID、App列表。

行為數據主要包括賬號登錄、頁麵進入、按鈕點擊、信息輸入、廣告瀏覽、操作時間等。我們有很多流程,比如,新手機運營商授權的密碼,很多人都記不住,但是欺詐分子一下子就輸入了,他的輸入速度非常可疑,我們通過聚類把這種用戶聚在一起。

位置數據現在主要用四個:GPS、IP、基站信息、WIFI列表。比較精準的是GPS和WIFI,基站大概有100~200米誤差。很多欺詐分子喜歡用代理IP。

基於以上,把用戶實時行為數據采集完之後,對每個用戶會形成一個實時的欺詐評分。


image


這是一個實時預警流程。我們真正用的模型不隻是隻有行為,但是它的權重非常高,我們還用到很多的其他數據,需要用戶授權的一些數據,我們都會放到欺詐的特征裏麵。

我們做了一個FICO評分標準,評分越高用戶信用風險就會越小。此外還有一個規則引擎,我們會發現一些強有力的單條規則,或者多條單一規則組成的策略,對每個預警用戶非常有效。

預警出來會分成兩部分,一部分信用好的就直接拒了,另一部分交給反欺詐調研,形成黑名單。所有流程都是實時的,保證跟業務係統完全解耦,有快的反饋速度,十分鍾放款,就要判斷出他是否是欺詐。

模型訓練,我們有一個好的點給大家分享下,大家可能做過,正負樣本非常不平衡,欺詐領域也有這個問題,我們麵臨的是想要找出一些壞用戶,但很不易。

壞用戶常見的定義就是MOB6裏麵的M3+(逾期三個月),不能把有信用風險的用戶刨除掉,這個用戶不一定是欺詐,他是違約了,但有可能就是沒錢還,要把欺詐跟信用解耦出,可以信用風險的方式做信用定價。我們構建了基於欺詐標注的自動化學習,可疑對實時新增的欺詐標注,快速反饋回模型訓練。




以上是對於識別單個欺詐用戶的應用。接下來談談如何基於知識圖譜判斷欺詐團夥,大家知道團夥其實很難發現,發現了也很難認定。


image


我們采用了兩種方式,第一種是通過無監督的方式,通過聚類的方式找到這些用戶;另外就是通過知識圖譜的方式發現關聯關係。我們的知識圖譜關係網用的是Neo4j。

我們主要應用知識圖譜做了三件事情:疑似中介識別、關聯騙貸團夥識別、團夥監控&預警。關聯騙貸團夥,一個用戶來了之後,對單個用戶的特征評價裏有了非常多的數據,他跟某一個團的關聯關係,他在團裏的關聯特征,比如一度聯係人,和二度的設備聯係有多少,這些是作為單個用戶而言。此外還有對所有用戶的全局搜索,從而發現騙貸團夥。

關於團的定義可以參考以下圖。


image

以下是上線之後的短期效果。

image




宜人貸麵向全行業的一個反欺詐解決方案——先知。

宜人貸CEO對此提出了三項服務要求。第一是數據抓取服務,包括對於淘寶數據、公積金、社保數據抓取的服務,提供給其他行業;第二是反欺詐能力。第三是精準獲客能力。

宜人貸有非常多存量用戶,我們已經投了很多錢去獲取基本用戶,這部分用戶客單價非常高,我們希望把一些不符合宜人貸定位,同時又是優質的客戶,他的風險不高,但是他可能就想借一千塊錢的用戶,這種用戶我們是可以轉出去給其他的平台。

image

我們的反欺詐能力是通用的解決方案。第一,基於SDK采集行為數據;第二,結合全網數據繪製關係圖譜;第三,通過規則+模型實時判斷欺詐用戶;第四,自動對接業務流程。

在產品流程方麵,是基於SaaS的服務,用戶可以在平台上自動完成預警欺詐用戶設定,以及對於預警用戶的處理。同時,這些服務可以對接到自己的業務流程裏去,比如接入了“先知”係統後,對於用戶預警,可以在平台上操作,同時也可以把這些數據通過API的形式對接到自有的信審裏去。

原文發布時間為:2017-08-31
本文作者:Jack
本文來自雲棲社區合作夥伴“AI早餐匯”,了解相關信息可以關注“AI早餐匯”微信公眾號

最後更新:2017-09-01 15:32:23

  上一篇:go  你好嗎好的
  下一篇:go  高紅冰:1個貧困縣連接280個城市 電商減貧潛力巨大