閱讀45 返回首頁    go 阿裏雲 go 技術社區[雲棲]


【圖算法】金融風控實驗__案例_機器學習-阿裏雲

(本文數據為虛構,僅供實驗)

一、背景

本文將針對阿裏雲平台上圖算法模塊來進行實驗。圖算法一般被用來解決關係網狀的業務場景。與常規的結構化數據不同,圖算法需要把數據整理成首尾相連的關係圖譜。圖算法更多的是考慮邊和點的概念。阿裏雲機器學習平台上提供了豐富的圖算法組件,包括K-Core、最大聯通子圖、標簽傳播聚類等。本文的業務場景如下:

下圖是已知的一份人物通聯關係圖,每兩個人之間的連線表示兩人有一定關係,可以是同事關係或者親人關係等。已知“Enoch”是信用用戶,”Evan”是欺詐用戶,計算出其它人的信用指數。通過圖算法,可以算出圖中每個人是欺詐用戶的概率,這個數據可以方便相關機構做風控。

二、數據集介紹

數據源:本文數據為自己生成,用於實驗。具體字段如下:

字段名 含義 類型 描述
start_point 邊的起始節點 string
end_point 邊結束節點 string
count 關係緊密度 double 數值越大,兩人的關係越緊密

數據截圖:

三、數據探索流程

首先,實驗流程圖:

1.最大聯通子圖

最大聯通子圖的功能很好理解,前麵已經介紹了,圖算法的輸入數據是關係圖譜結構的。最大聯通子圖可以找到有通聯關係的最大集合,在團夥發現的場景中可以排除掉一些與風控場景無關的人。本次實驗通過“最大聯通子圖”組件將數據中的群體分為兩部分,並賦予group_id。通過“SQL腳本”組件和“JOIN”組件去除下圖中的無關聯人員。

2.單源最短路徑

通過“單源最短路徑”組件探查出每個人的一度人脈、二度人脈關係等。distance講的是“Enoch”通過幾個人可以聯絡到目標人。如下圖:

3.標簽傳播分類

“標簽傳播分類”算法為半監督的分類算法,原理是用已標記節點的標簽信息去預測未標記節點的標簽信息。在算法執行過程中,每個節點的標簽按相似度傳播給相鄰節點。

調用“標簽傳播分類”組件除了要有所有人員的通聯圖數據以外,還要有人員打標數據。這裏通過“已知數據-讀odps”組件導入打標數據(weight表示目標是欺詐用戶的概率):

通過SQL對結果進行篩選,最終結果展現的是每個人涉嫌欺詐的概率,數值越大表示是欺詐用戶的概率越大。

四、其它

參與討論:雲棲社區公眾號

免費體驗:阿裏雲數加機器學習平台

最後更新:2016-07-05 12:00:09

  上一篇:go 網絡分析__使用手冊(new)_機器學習-阿裏雲
  下一篇:go 回歸算法做農業貸款發放預測__案例_機器學習-阿裏雲