359
技術社區[雲棲]
我們為什麼要這樣聯想|用哲學論證客戶畫像體係的複雜性
◆ ◆ ◆
摘要
哲學是各類學科的升華版,本篇文章將借多年前福柯的《詞與物》[1]中的哲學立場,討論個人客戶畫像特征體係構建中的問題,從哲學的角度來論證客戶畫像體係的複雜性。
我們完全可以從哲學角度得到啟發,探討不基於特征體係描述客戶,而是用時間軸上的係列事件標記客戶,並通過深度學習LSTM模型預測事件發生概率。提出一種跨領域統一推薦模型新思路。
◆ ◆ ◆
一、引言
眾多學科都可以從哲學中找到源頭以及趨勢,現今的人們對計算機學科更多的認識是一門理工學科,知道眾多的算法的源泉是數學,但哲學真的對計算機學科無用嗎?
那我們就來看看法國哲學家馬歇爾.福柯在1966年著述的《詞與物》是如何來論證目前客戶行為事件模型的,並引申討論模型的發展。
◆ ◆ ◆
二、從特征到個人客戶畫像
1、什麼是特征
“那個被選作確切的同一性和差異性之場所的結構,就是被稱作特性。” [1]特征是為了差異更是為了相似性,福柯認為相似性與特征(符號)是必然聯係,因為相似性是建立在對這些特征(符號)的記錄和辨認上。而且他一直強調相似性的重要:“直到16世紀末,相似性在西方文化知識中一直起著創建者的作用。”[1]“產生於特殊事件的一般歸納,或者不如說科學的種類、邏輯和所有抽象觀念,都是借助相似性而形成。”[1]同樣,相似性在模式識別、分類、監督學習、非監督學習等機器學習概念中的有著同樣的重要性。
2、基於個人客戶畫像的特征庫
目前業界的個人畫像主要在機構內部數據結合外部數據基礎上構建。如對原始數據進行特征提取,得到如下客戶特征:
圖一 (來源[2])
在實施過程中可以為個人客戶畫像中每個人打上幾千個各類標簽。再結合具體的推薦場景如股票購買概率預測模型[3]中特征要求,應用於具體推薦模型中。實踐中一般還使用特征選擇模型來決定哪些特征適用具體場景。並且由於很多關鍵屬性缺失,還需要一些數據挖掘模型用於特征推斷,比方邏輯回歸,決策樹,標簽傳遞等。
3、特征體係能完全標記人的行為嗎?
特征體係是係統研究相似性,標識個體與分類的合理的、必然的途徑。福柯對體係的定義是“選擇一組確定的和相對有限的特征,其恒定和變換能在任何自身呈現的個體中得到研究” [1],他在認可這一途徑的同時也指出該方法的不足。書中舉了個例子:“中國某部百科全書中動物可以劃分為:1屬皇帝所有,2有芬芳的香味,3馴順的,4乳豬,5鰻螈,6傳說中的,7自由走動的狗。。。”他在驚歎如此分類的想象力的同時也指出“體係在展開過程中是任意的” [1],“有可能把方法憑經驗而限定的從外部強加的修正應用於一般特性:被人們認為對一個種群來說重要的一個特征,很可能隻是另一些動物的特殊性” [1]。讓我們回顧上一部分中客戶特征分類以及特征,似乎還比較合乎常理,但似乎也有些隨意。前文[2]也試圖從行為金融學相關觀點應用於個人金融畫像特征提取,但不足以根本解決這個問題。
福柯大師也意識到“特征的確立,既是容易的,又是困難的。” [1],“為了確立起所有的同一與差異,將有必要考慮在一個描述中可能被提及的每一個特征。這是一毫無止境的任務。” [1]而且他還意識到特征“都是在相互聯係,相互混合並且或許能相互轉換” [1]。現在,我們非常容易理解這些特征之間的這種關係。認為基因和特征存在映射關係的話,在遺傳算法中,會通過一係列的遺傳算子來確認後代,包括交叉算子、變異算子這些都可以導致基因相互聯係與轉換,從而導致特征同樣變化。
而且人的行為更是動態的,情景的,那可想而知構建合理的特征體係作為客戶畫像的難度。那我們是不是可以試試其他途徑呢?
◆ ◆ ◆
三、從特征 到 事件
1、什麼組成了堂吉訶德
“每個插曲,每一個決心,每一種不合時宜的行動,都象征著唐吉坷德”[1]
如果塞萬提斯不是用那麼一部偉大的長篇巨著描寫唐吉坷德的總總境遇,而是用一堆特征來標記。哪怕他是塞萬提斯,哪怕他用8888個特征標記唐吉坷德,難道我們能比現在更感受到那樣的一個唐吉坷德嗎?如果要YY一部《唐吉坷德在異界》,難道不是原著中那些事件的描述比8888個特征更能預測唐吉坷德騎士在異界中的種種行為嗎?
2、從個人行為事件的客戶畫像到跨領域統一推薦模型
讓我們試著忘記特征體係,是否可以嚐試隻通過那些在時間軸上,在特定場景下的總總事件來構建客戶畫像呢?
假設已合法的收集個人行為數據。一行樣本數據包括,客戶編號,事件類型,該類事件環境,事件行為的描述(當然還是可能需要用特征標識)等。那麼我們將得到如下數據。
接下來,探討基於個人行為事件的客戶畫像構建跨領域統一推薦模型。我們假設這些事件是獨立,正樣本是曆史上不同客戶在各領域已發生事件。考慮到數據的時間特性,應該選擇RNN模型。但進一步考慮到長期曆史行為對個人行為的影響,最終決定使用LSTM(Long-ShortTerm Memory)模型。以天為時間周期,每周期訓練數據為指定日期的客戶行為事件數據。通過LSTM模型,預測未來客戶發生指定事件的概率。
該框架不同於以往跨領域深度學習模型中樣本數據,不再基於客戶特征畫像體係,而是用事件軸上的係列事件標記客戶,使用深度學習LSTM模型預測客戶當前事件發生概率。
這仿佛在做著《少數派報告》中的事。但放心,這隻是推薦模型而已。而且就像電影中結局,人的行為是種選擇,一念天堂,一念地獄。人心當然不可測。
◆ ◆ ◆
四、總結
我們借多年前福柯的《詞與物》[1]中的哲學立場討論了個人客戶畫像特征體係構建中的問題,從哲學的角度來論證客戶畫像體係的複雜性。我們完全可以從哲學角度得到啟發,探討不基於特征體係描述客戶,而是用時間軸上的係列事件標記客戶,並通過深度學習LSTM模型預測事件發生概率。提出一種跨領域統一推薦模型新思路。
也希望在數據科學領域,給大家一個新思路,不僅僅從數學的角度來研究量化數據,更可以從哲學來思考數據,得到更多的數據分析靈感。
原文發布時間為:2016-09-14
本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號
最後更新:2017-06-05 16:32:10