閱讀773 返回首頁    go 機器人


機器人對戰網絡欺詐

文| 陸佳裔

圖| zoe

本文已獲第一財經周刊授權,未經允許不得轉載

欺詐自古有之,到了互聯網上,欺詐的行業更為集中,並且形成了一條產業鏈。上遊是黑客,他們通過挖掘平台的漏洞、編寫木馬入侵客戶的終端獲得數據,中遊是購買數據的欺詐團夥,下遊是黑色產業鏈的各種周邊組織,它們洗錢、收卡、販賣身份等。

勐獁反欺詐在做的,就是在互聯網平台上從海量的用戶中揪出那些有異常行為的欺詐分子,向商家發出預警。勐獁反欺詐是一家提供SaaS服務,以保護企業互聯網及移動業務安全為目標的數據技術公司,通過抓取互聯網上用戶的行為軌跡,使用這些大數據去分析。

“過去判斷好人和壞人,要聽其言和觀其行,在互聯網上,行為數據則提供了大量的信息讓人判斷對方是不是他聲稱的那個好人。”勐獁反欺詐的創始人張克告訴《第一財經周刊》。

勐獁把分析的過程交給了機器— 你可能並不知道這些數據各自代表了什麼,但是機器自動跟蹤分析後,根據模型在不同點位的分布,能自動發現異常的情況,並予以預告和提醒。就像給企業的風控安上了一連串烽火台,機器學習成了那些看不見的哨兵。

這些欺詐分子大多出現在遊戲、O2O和互聯網金融等平台,在張克看來,離錢越近越危險。張克曾在思科擔任SaaS產品總監,後來跳槽到移動網絡廣告公司Madhouse成為DSP事業部負責人。為了實現廣告的精準投放,張克和他的團隊開發了一套Real Time Bidding係統,用於實時預測用戶轉化概率並出價購買廣告機會。簡單說來就是分析用戶和點擊量之間的關係,找出誰是目標廣告客戶,並預測他們下一次點擊同類廣告的概率。比如當一個廣告推送後,團隊通常會統計 2 0 0 毫秒內點擊廣告的客戶數量,以及這些客戶來自什麼渠道,然後給這些源自不同渠道的用戶數據打上標簽,整合到廣告公司的平台上。

通過機器建模後的用戶行為分析,張克的團隊就能幫助公司預測,用戶下一次點擊同類廣告的概率,以此給出一個建議公司購買該廣告的金額。

這套技術係統在鑒別好人、預測誰是廣告公司目標客戶的同時,需要發現廣告中的虛假點擊和注冊,兩者的原理和技術相似,後來成了勐獁反欺詐的靈感。它們原理相似,但是目標對象、底層數據以及模型結構都完全不同。廣告主要找到目標受眾,預測他們購買的幾率,而勐獁要找到目標欺詐者,從他們的行為軌跡中嗅到欺詐的痕跡。意識到廣告行業遠遠無法滿足這套技術的應用後,2 0 1 4 年 1 1 月,張克離職創辦了勐獁反欺詐 (下簡稱“勐獁”)。

不過離職創業的最初,這家技術驅動型公司卻為應用場景發了愁。如果用在廣告上太浪費,那麼什麼行業才能最大化它的效用呢?張克和團隊最初為勐獁找了 5個應用方向。比如做數據交換平台,類似現在的貴州大數據交易所,再比如DMP的廣告流量分發,或者像友盟、TalkingData等應用分析類的數據平台。然而這些設想一一夭折。數據交換平台目前多由政府主導,自己做容易越界;DMP是典型的廣告行業生意,沒有數據源寸步難行。至於應用分析類平台— 勐獁成立3個月內,張克發現有3個校友在做同樣的事,它技術門檻不高,且已經成了紅海。

團隊最後把勐獁的定位聚焦在了反欺詐上,做“以機器學習驅動的反欺詐產品”。其核心依然是利用技術,對用戶行為做預測。

勐獁要打擊的就是位於產業鏈中遊的欺詐團夥,這套反欺詐係統主要應用在線上可以產生交易的環節,這裏的交易是泛指,包括從最前端的注冊開始,再到登錄,最後到支付等步驟。欺詐主要分為“薅羊毛”、代充值、刷單和消費金融的惡意套現,主要集中在O2O、遊戲和互聯網金融領域。

張克曾在思科擔任SaaS產品總監,後來跳槽到移動網絡廣告公司,如果說廣告行業的欺詐還停留在點擊量作假,隻是騙取流量,那麼到了O2O、遊戲等行業,薅羊毛、刷單、代充值等欺詐帶來的是切實的損失。以薅羊毛為例,別看“ 利潤微薄 ”,勐獁的一個客戶曾發現一天內損失 3 0 餘萬元,源頭就是單價 1 角的係統漏洞。羊毛黨利用漏洞,一天刷單了300萬次。

“越接近錢的地方,越危險”,張克說。互聯網金融領域的欺詐和薅羊毛的小額高頻不同,頻率低、金額大,出現一筆欺詐,就意味著至少1000元無法收回。因此風控問題是大部分互聯網金融平台存亡的關鍵所在。根據芝麻信用的一份調查,消費金融、互聯網金融公司的壞賬損失超過50%來源於欺詐,身份冒用類欺詐占比最高,其次是團夥欺詐,其餘的還有賬戶盜用、惡意違約等。

“更難以監督的是,欺詐產業鏈並沒有按行業劃分,而是按錢劃分,哪裏有錢去哪裏。”雷曉川告訴《第一財經周刊》,和張克在廣告公司共事兩年後,他加入勐獁,成為合夥人之一。他發現,電商的刷單和遊戲的刷單薅羊毛,背後極有可能是同一撥人。這些作案團夥分工有序,有些負責刷量,有些負責盜號,還有的就從業務中薅羊毛。根據不同的欺詐行為,有人負責提供技術,有人負責設備,還有人管理外圍服務,甚至還有一套專業的“如何造假”係列培訓。

張克最初的目標是金融業。在他看來,從廣告、遊戲、電商到金融,欺詐有個循序漸進的過程,終點就在金融行業。尤其在金融業整體由實體轉向虛擬,帶火了P2P、消費金融、現金貸等互聯網金融的大環境下,傳統的風控手段成本越來越高,跟不上欺詐者的新花樣,隻有依靠技術才能解決這些問題。

不過勐獁最先切入的卻是O2O和遊戲領域。

2014年年末,當時公司算上張克,隻有四五位員工。在沒有規模、沒有案例的情況下,沒有金融公司願意使用勐獁的產品,哪怕是免費的。張克隻能從身邊的朋友入手,托熟人送出免費的係統測試。

後來並入滴滴出行的快的公司,是勐獁早期的幾家客戶之一,也是其中體量最大的一家。羊毛黨們為了獲得當時幾家打車平台因競爭而產生的高額補貼,導致快的淪為了其中刷單的重災區。勐獁為快的提供了底層的設備識別服務,即通過用戶所使用的移動終端產生的數據,來鑒別刷單和虛假注冊。

在這套係統中,勐獁所使用的底層規則是通用的。比如說對行車路徑的判斷,就可以用在外賣、交通、打車、物流等各個領域。決定最終使用情況的,是不同應用場景下的計算模型和參數。比如根據行車路徑,注冊設備在一個小時內完成了上海和北京的單,或者幾分鍾內完成了幾單,但在行車路徑上隻移動了幾百米,這就是一起典型的快的欺詐。

勐獁的反欺詐風控和目前主流的黑名單式風控不同。黑名單模式是傳統線下風控的線上延伸版本,搜集到各個平台的數據後,找出其中的“ 老鼠屎 ”,當他們再次行動時就發出警報。在黑名單的基礎上加入白名單,經過大數據之間的交叉驗證,找到欺詐者。

但這樣做的問題是,黑名單的數據需要經過相當長時間的積累。以張克創業的時間點來看,在他之前已有數家公司在做同樣的事,再加入顯然為時已晚。更何況當時的團隊太小,且員工基本都是做技術出身的,積累黑名單需要的核心能力卻是商務談判能力。

除開天然的限製,張克認為黑名單有其自身的缺陷,需要其他的風控策略來補充。搜集到的 1 0 個公司的數據都關聯了同一用戶,其中5家說這個人是女性,還有 4 家驗證是男性,剩餘 1 家沒有標注,那麼這位用戶的標簽,交叉驗證後,是男是女呢 ?再比如,如果同一個用戶,在互聯網金融平台上實施欺詐,但是在遊戲行業又特別“ 忠誠 ”,這時候黑名單該如何歸類 ?張克認為,這是黑名單和交叉驗證的盲區。於是勐獁索性不貼標簽,讓機器根據用戶的行為自動判斷。

從一開始,勐獁就沒有采用黑名單模式“ 主動 ”攔截,而是讓機器去搜集用戶的“特征”,被動學習。張克為這種技術起了個專業而拗口的名字:“全棧被動式設備指紋識別”。

在傳統的線下風控中,這種識別“特征”的方式,我們稱之為人工“經驗”。它相當於把風險前置了。“特征”識別相當於簽證官在申請人與交流時,如果發現對方有移民傾向,給出的拒簽,而“ 黑名單 ”是事後發現對方在國境內逾期逗留,下一次再拒簽。這和黑名單屬於兩種不同的風控手段。

要讓機器識別特征,就要轉換成它們聽得懂的語言。讓機器自動習得人工經驗,並提前防控,這就是特征學習,它讓轉換後的數據能被更好地理解和運算,方便我們從貌似雜亂無章的原始數據中找出那些可疑的異常數據。

官網上目前已經公布的與手遊行業客戶合作的數據經過了把勐獁產品的實時動態篩查結果與客戶現在應用的人工審核結果一一比對。過程驗證結果顯示,Maxent預警的欺詐事件數量是人工審核的3倍,對欺詐設備和交易的識別準確率高於95%,這一結果有效地防止了9.7%的壞賬損失。

和所有創業公司遇到的問題一樣,即使有技術護航,勐獁依然遇到了缺錢、缺人的難題。尤其對於技術公司而言,前期的人力成本投入巨大,難度也最大。七八個創始員工在一個十幾平方米的聯合辦公空間待了近一年後,最初的資金快花完了,再繼續免費策略,看起來也無法為公司創收。

經朋友推薦,2 0 1 5 年 8 月張克帶著勐獁參加了微軟加速器的選拔,從 1 0 0 0 多家參賽公司中,留到了最後,成為入圍的18家公司之一。他希望能借助比賽,獲得業界對其技術的認可。微軟加速器給勐獁做了背書,證明這家不到10人的公司不是瞎忽悠,同時也帶來了資源。經過加速器的孵化後,勐獁獲得了第一個銀行客戶,浦發銀行。半年後,DCM投資副總裁高凱健在整理微軟加速器名錄時,發現了這家做智能反欺詐的公司,並在後續的A+輪領投5000萬元。

此時,勐獁也迎來了第一個付費客戶,薩摩耶金服。在服務了 3 0 個左右的公司客戶,積累了五六千萬的數據,且和薩摩耶金服磨合了近半年後,終於有公司願意付費使用產品了。

“我們挑了塊硬骨頭在啃。”獲得新一輪融資後,張克依然顯得很謹慎。雖然不需要買入黑名單,但是機器學習依然需要喂數據做訓練。這部分數據通常來自合作夥伴,數據越多,係統越了解大多數人的行為模式。

“硬骨頭”指的是數據清洗,這是勐獁要做智能分析繞不開的一個坎。在技術上,數據清洗並不是難點,卻是鮮少有人願意幹的髒活累活。它需要人工一個個手動打標簽、梳理,比如把來自不同平台的數據的格式統一,變成機器能夠識別的語言,這樣才能讓機器自動學習。從理論上來說,合作客戶越多,數據清洗的工作量越大。

從去年下半年開始,勐獁把重心從特征識別,延伸到了關聯圖譜的製作上。如果“ 一天在上海打開某 A p p 100次”,可以視為上述所稱欺詐者的一種特征,那麼關聯圖譜指的是,找到這個欺詐分子偽造的身份。以地址為例,勐獁曾用關聯圖譜將地址信息逐漸分段,從省區市縣到一條街道的門牌號都在其中。如果某一個團夥偽造了 1 0 0 個身份,那麼他在某一區域中的所有地址會被關聯在一起。

“當時客戶懷疑我們做錯了,因為並沒有給到我們任何與交易相關的數據。但是通過行為數據我們把完全不同的信息歸納在同一個人上,一個個打電話驗證,發現是同一個人拿著不同的身份多次借款。”張克說。不過他並未提及關聯圖譜的準確率。

大數據已經成為一片紅海,但張克並不擔心競爭。相比承認自己經營的是一家大數據公司,他更願意稱勐獁是一家技術公司。張克也不怕聽到客戶拒絕的理由是“這種技術太新,沒有聽過”,他隻怕賣的是沒有任何特點的產品。但到目前為止,據他說,“國內還沒有任何一家公司和我們在做同一件事情。”

最後更新:2017-10-08 01:09:03

  上一篇:go IQQA精準外科規劃走進寧夏,人工智能臨床應用惠及回、蒙、維、藏、壯少數民族百姓
  下一篇:go 機器人機床上下料使得機床產量最大化