大數據小說 | 如何用一小時看透一個初識的姑娘
“同學,你的背包拉鏈沒拉好。這個社會越來越險惡,像你這麼可愛的女孩子一定要當心。”
小姑娘左手端著一杯焦糖瑪奇朵,右手拿著iPhone,聞言瞟了我一眼,順手摸了摸背包,露出了T恤背後的艾薇兒。當她的手指觸到貼著射手座符號的MacBook Air時,我趁機向她拋出一個善意而知性的微笑:“有興趣看看最近的運勢嗎?”
她順著我的手勢望去,隻見“科學算命”四個挺拔剛遒的大字映入眼簾,眉毛刷地一下挑起,眼神頓時亮了三個流明。
有戲!我在心中大喊,然後默默地拿出手機,打開我的算命App,在“基本資料”一欄裏輸入“性別:女;職業:學生;家庭收入:中等偏上;愛好:星相學、蘋果產品、流行搖滾/流行朋克”。App瞬間返回了一些樸素貝葉斯模型計算出來的信息,我掃了一眼,雖然粗略但與我的直覺判斷一致。很好。
小姑娘興奮地拉開凳子一屁股坐了上去:“大叔,你這個‘科學算命’,有啥厲害的地方啊?”
“這個嘛,”我低頭迅速掃了一眼我的手機,“就憑你我說的這幾句話,我倒是能大概看出一些表層的東西。比方說,你的iTune裏一定有一兩首Christina Perri的歌,但絕對不會特別多,比方說《平凡的世界》《致青春》《挪威的森林》這三本書你起碼看過兩本,比方說你對Justin Bieber談不上喜歡甚至很可能相當討厭。此外,你應該喜歡吃德芙巧克力,但不太喜歡吃純黑的。”

小姑娘瞪大眼睛:“你都是怎麼知道的!”
我故作瀟灑地笑笑,並不急於回答她的問題,而是反問道:“你大概不知道艾薩克-阿西莫夫吧?”
“不知道……”小姑娘搖了搖頭,又點了點頭,結結巴巴道,“好像聽說過……但是不太熟……”
我知道你不知道,我在心裏對自己說。事實上,我知道你不知道的概率是76.3%加減9.2%,9.2%是置信水平為95%時的置信區間大小。也就是說,一個聽艾薇兒用Mac Air喝星巴克的中國女大學生沒聽過阿西莫夫的概率在九成五的情形下至少為67.1%也就是三分之二,而至多為85.5%。所以我說“大概不知道”是相當準確的。最起碼我的數據是這樣告訴我的。
我又接著道:“阿西莫夫是個科幻作家,在他的代表作《基地》係列裏,他虛構了一個叫做心理史學的學科,通過對大量人類隨機行為的數學描述,來預測人類社會的發展走向。在這個過程中,個體行為的隨機漲落會被統計規律所淹沒,正如同統計熱力學中描述粒子無規則的熱運動那樣,雖然單個粒子的行為是無法預測的,但作為一個整體,卻是有規可循的。心理史學雖然是虛構的,但大致貼近‘科學算命’的意思。”
小姑娘的表情看起來像是剛被黑衣人用激光筆閃過。
“Anyway,大數據時代的來臨,使得我們有可能真正實現人類這一永恒夢想。在計算技術的儲備以及數據的原始積累均已初步完成的今天,我們提出一個宏偉的目標:以科學的手段,通過大量采集人類活動的數據,建立精密的數學模型,來預測個人的行為模式以及發展趨勢;通俗一點來說,就是——大數據算命。”
我見時機成熟,便展開計劃關鍵性的一步。我把手機放在桌上,和顏悅色地說道:“在我們開始之前,我想對你有個大致的了解。這裏有個手機App,你可以登錄一下,填寫一些個人信息,這樣方便快捷,省得我一項一項問。你平時上社交網站挺多的吧?微信,微博,豆瓣都行,方便的話一塊兒填了吧,信息全一些。”
“好呀。”小姑娘一口答應。顯然,她對接下來將要發生的一切懵懂無知。
如同92%的用戶一樣,她在《用戶協議及須知》一頁隻花了不到兩秒的時間,在“同意”一欄中匆匆打上了勾便進入了App。當她手指觸到“進入”的那一刹那,潘多拉魔盒已經悄然打開。隻是從中洶湧而出的,並不是可怕的魔鬼,而是GB級的個人信息。
“嗯……這樣就好了吧?”小姑娘把手機遞給我,“對了,還不知道大叔怎麼稱唿呢。”
“哦,我叫陳艾豐。艾草的艾,豐富的豐。”我接過手機,職業性地微笑道。模型計算的進度條很快就走完了。
我扶了扶眼鏡,鏡片上是柯南即將揭曉凶手身份時標誌性的白光。在剛才瞎扯淡時,位於大洋彼端服務器內的CPU陣列已經完成了海量的查找與計算,並將結果通過太平洋底的光纜返回到了客戶端。這一切都是在短短一分半鍾之內發生的。
我的手指像藝術家般撥弄著App,一串串數字在我的眼中便如同蒙太奇般對我訴說著她的興趣愛好,她的喜怒哀樂,她的一切的一切。
“餘苗?好名字。”我習慣性地誇獎了下。“謝謝!”小姑娘衝我笑了笑。我看著小姑娘,正色道:“那麼餘苗,從你的星座本命盤上,還是能夠看出你為人的一些特點。”
我手指輕彈,打開了她“用戶特征”下的“瀏覽及搜索”一欄,略一思索,說道:“你的性格開放,對於新鮮事物有著強烈的好奇心與求知欲。”
換句話說,你點擊“猜你也喜歡……”之類的推薦鏈接的概率是79.6%,平均連續點擊次數為47次,比你所在用戶組別的平均值分別高出8.3個及6.5個標準差。
“有好奇心是件好事,這讓你更加迅速地了解很多東西。但若好奇心過於強大,則不免流於表麵,淺嚐輒止。這樣的人,往往徒有一腔熱情,最終卻一事無成。”你在每個頁麵停留的平均時間為13秒,也就是說不會讀超過兩個自然段的信息。
小姑娘臉一紅,張開嘴來,卻說不出話。看來是說到了點上。
“同時,我認為你不是個意誌堅定的人,容易受他人影響及左右,多數情況下會猶豫不定。”你搜索iPhone和Galaxy Note的頻率幾乎旗鼓相當,並且經常會在關注其中一個之後,突然轉而搜索另外一款。兩個關鍵詞的搜索頻率因此呈現交替領先的形勢。同時擴展數據庫顯示,你曾兩次下訂單購買Galaxy Note,卻最終取消,轉而購買了iPhone。同樣的情形也發生在Mac Air和Lenovo Yoga 13身上。
小姑娘有些坐立不安,小嘴撅了起來。看得出她似乎並不喜歡我指出她性格上的缺陷,卻又因為我句句屬實而無可奈何。
“這些都將成為你實現人生目標最要命的障礙。希望你好好考慮一下。”我擺出一副人生導師的態度。
“下麵我們來看看你的感情”。我迅速翻了翻餘苗的“好友互動”一欄,一個名為“歐陽墨”的用戶毫無爭議地雄踞她瀏覽、留言、看照片等各大榜單的榜首。看來一準是他沒錯了。我又查看了她與這個歐陽墨之間的互動統計數據,算上查看、評論及轉發,九十天內她瀏覽他的頁麵次數為1121次,平均每天十多次。而他瀏覽她的頁麵次數……為五次。
單相思。
“按照射手座的運勢,去年全年都屬於低潮期,尤其是下半年,應該有一次較大的挫折。”
小姑娘輕輕“嗯”了一聲,“我喜歡的男生有了女朋友。”
我點了點頭,假裝問了問兩人的名字。
“男生叫歐陽墨,水墨的墨。女生叫賈璐。玉字旁一個道路的路。對了大叔,你怎麼老看手機呀?”小姑娘看我在桌子下查個沒完,有些疑惑地問道。
“發短信唄。作為一名命理谘詢師,我業務可是很繁忙的。”我若無其事地解釋道。當然其實我是在查看各類數據。太棒了,服務器已經完成了對兩人數據的抓取,開始根據二人之間的互動計算一些特征統計量。例如,頁麵訪問頻率,上傳照片查看概率,平均瀏覽時間長度等等。
在接下來的一分半鍾裏,我做了如下事情。
首先,我取出了儲存於服務器端幾十萬對情侶的資料,對於每一對情侶,計算出他們之間的互動信息統計數據。然後把這些數據放到一個高維空間裏麵,每一個維度都是一個統計量。幾十萬對情侶最終的結果——分手還是在一起——被標記在了代表他們的數據點上。之後——最關鍵的一步——我用了支持向量機(Support Vector Machine,SVM)這個方法,將那幾十萬個數據點用高維空間裏的一個超平麵分割開來。這個超平麵,等於是宣判書:超平麵的一麵,意味著有情人終成眷屬,而另一端,則預示勞燕分飛的結局。接著,我將歐陽墨和賈璐兩人的數據同樣放到這個空間裏麵,區別在於,事先我並不知道他們的結局如何。

當歐陽墨和賈璐的數據被放置在那星星點點浩如煙海的數據點中時,我在心裏笑了。那個數據點明明白白清清楚楚地落在了分手的那一側,並且離那決定命運的超平麵相當地遠。也就是說,按照支持向量機的結果,歐陽墨和賈璐的戀愛關係,已經病入膏肓,無力回天了!
如果要用通俗的語言解釋方才發生的一切,可以打個比方。我手邊有一堆剛曬幹的香噴噴的新鮮花生,又有一堆已經被蟲子蛀壞了的爛花生。我拿來一個碗,撒了一把新鮮花生在裏麵,又撒了一把爛花生在裏麵。然後,我往碗裏倒了一杯水。鮮花生因為密度比水大,沉在了碗底,而爛花生因為被蟲子蛀空了,從而飄在了水麵上。於是我們知道,但凡沉在碗底的都是好的,但凡漂起來的都是壞的。這時候,我拿來了一顆不知是好是壞的花生,pia嘰一聲扔到了碗裏——發現它漂在了水麵上。因而我們斷定,這是一顆爛花生。
服務器中成千上萬對情侶,就是那一顆顆的花生,那一杯水,便是那區分好壞的超平麵,而歐陽墨和賈璐二人的關係,則是那顆被揪了出來的爛花生。
不過,為了謹慎起見,我還是多做了幾步計算,考慮了數據的噪音,對幾個變量做了控製,嚐試加入和剔除了一些維度,又換了幾個稍微不同的Kernel function。除了有少許變化,基本上結論是一致的。而這如此大規模的計算得以在短短一分半鍾內完成,完全得益於我所使用的服務器上企業級的並行計算架構。
“我有個好消息和一個壞消息。”
“好消息是,據我測算,你的意中人和他女朋友的姻緣,似乎正籠罩在一片陰雲之中;壞消息是,你和歐陽墨之間的默契程度太低,即便他和賈璐分手,你和他在一起的概率也不大。”
小姑娘臉上剛剛出現的笑容戛然而止。“為什麼?!”
事實上是因為我把餘苗和歐陽墨的用戶資料做了一個比對,把二人的數據映射為兩個高維空間中的向量,然後計算向量之間的夾角。夾角越小代表向量越相似,越大則越相異。而餘苗和歐陽墨兩人向量的夾角是……173度。
這兩人根本就是南轅北轍好嗎!
我搖了搖頭,麵色凝重地說道:“你跟歐陽墨之間,有著無法逾越的鴻溝。你看,你想談哲學,他跟你談科技。你想談科技,他跟你談投資。你想談投資,他跟你談人脈。你想談人脈,他說,這是個哲學問題。你們先天氣場不合,合盤上刑衝太多,這是無法改變的事實。”
“小姑娘的心情像正弦曲線一樣,又跌到了穀底。我不忍心她心情大起大落太難受,也為了增大我這筆交易收益的期望,安慰她道:“不過,後天補救的方法,也不是說沒有。首先,你要努力嚐試增加你們之間的契合度,加強二人相互的感應。例如,他對科學技術自然格外關注。那麼相應的,你就要多了解這方麵的知識。其次,你可以多發揮自己的特長,讓他也感受到你的強大,巧妙地引入他感興趣的話題,來一個請君入甕。比如,作為國際關係專業的學生,不妨談一談氣候決定論和技術決定論,討論小冰期的到來對於羅馬帝國衰亡的加速作用,分析一下航海技術對今日世界格局的深刻影響。”
小姑娘一下子茅塞頓開,“這個我可以的!”
“孺子可教!”我稱讚道, 建立你自己的氣場,讓他進入你的領域,相信他行星的運行軌跡,一定會受到你引力場的擾動的。”
“嗯!”小姑娘粉拳一握,做出個堅定的表情。
“好了,感情方麵我就說到這。希望你自己好好把握。現在讓我花一點時間來談一談你的事業。想好畢業去哪個公司了嗎?”
她搖搖頭……
我伸出一根指頭晃了晃,“我看,你還是應該鎖定一兩家公司,有針對性地進行準備。其實找工作呢,很多時候靠的也是緣分。比如可能麵試官剛好很喜歡你,或者你有一項技能是他們特別想要的。這樣吧,既然說到緣分,我索性為你占上一掛。”
小姑娘一聽算卦,眼睛又亮了。
我在App中輸入了關鍵詞“金融公司”,啟動了針對用戶餘苗的社交網絡搜索功能。四五秒後,手機上出現了我期望的結果。我在手機上寫下幾個字,給她看了看。“你若是同這個公司接觸接觸,說不定會有所轉機。”
“摩根斯坦利?”小姑娘詫異地念道,“為什麼是這家公司?”
之所以是摩根斯坦利而不是花旗、不是高盛、是因為我剛才把餘苗的LinkedIn檔案翻了個底朝天,從中發現了摩根斯坦利的一名現任主管——她媽的大學同學的小姨子。根據小世界現象,世界上任何兩人之間,最多隻需通過五個人就能認識。考慮到僅有中國人的情況下,這個數字恐怕還要更小。餘苗的父母看樣子都受過高等教育,一個在金融行業的聯係人都找不到,那才是怪事。明白這一點,要替她指一條明路便不是什麼難事。我剛才隻是用App對她的社交網絡做了個廣度優先搜索,同時在聯係人檔案裏搜索“金融”關鍵字,問題便引刃而解了。
“緣分這種東西,說不清、道不明,可遇而不可求。”我搖頭晃腦道,“不過,我模模煳煳感受到一些方向,你不妨參考一下。例如,你可以去尋找那些在你生活中不太經常出現,但卻能在關鍵時刻推你一把的人。例如,有沒有畢業的學長學姐最近去了那裏工作?或者有沒有什麼父母的朋友在你希望去的企業任職?緣分也是一種資源……”
“最後,向往自由的你,近期應該非常渴望去一個遙遠的地方。”“是的!”小姑娘笑了笑,一副已經很習慣我知道她在想些什麼的樣子。
“我看,你最適合去大洋的彼岸,一個溫潤潮濕的所在,一座翡翠之城。” 餘苗在過去的六十天裏搜索頻率最高的詞匯是“機票”,67次;“美國簽證”,35次;“西雅圖”,29次;“舊金山”,23次,“星巴克總部”,19次;“太空針塔”,17次;“金門大橋”,13次。

“對,我正計劃去西雅圖。我最想去星巴克的總部看看!”“航空博物館也不錯,正好可以補充些理工科知識。”我和她相視一笑。
“好了,我該說的都說完了。時候也不早了,抱歉耽誤了你一個小時,希望我說的對你有所助益。”我站起身來,禮貌地伸出一隻手。
就這樣,我用一小時看透了一個剛剛認識的姑娘。我知道,我跟她一定還會再見麵。
原文發布時間為:2017-02-14
本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號
最後更新:2017-05-24 18:02:22