吳軍:三個案例透析大數據思維的核心
邏輯推理能力是人類特有的本領,給出原因,我們能夠通過邏輯推理得到結果。在過去,我們一直非常強調因果關係,一方麵是因為我們常常是先有原因,再有結果,另一方麵是因為如果我們找不出原因,常常會覺得結果不是非常可信。而大數據時代,大數據思維要求我們從探求因果聯係到探索強相關關係。
以下三個案例分別來自藥品研發、司法判決與廣告投放,從三個不同的角度了解大數據思維的核心。
◆ ◆ ◆
大數據與藥品研發:尋找特效藥的方法
比如在過去,現代醫學裏新藥的研製,就是典型的利用因果關係解決問題的例子。
青黴素的發明過程就非常具有代表性。首先,在19世紀中期,奧匈帝國的塞麥爾維斯(Ignaz Philipp Semmelweis,1818—1865)a、法國的巴斯德等人發現微生物細菌會導致很多疾病,因此人們很容易想到殺死細菌就能治好疾病,這就是因果關係。不過,後來弗萊明等人發現,把消毒劑塗抹在傷員傷口上並不管用,因此就要尋找能夠從人體內殺菌的物質。最終在1928年弗萊明發現了青黴素,但是他不知道青黴素殺菌的原理。而牛津大學的科學家錢恩和亞伯拉罕搞清楚了青黴素中的一種物質—青黴烷—能夠破壞細菌的細胞壁,才算搞清楚青黴素有效性的原因,到這時青黴素治療疾病的因果關係才算完全找到,這時已經是1943年,離賽麥爾維斯發現細菌致病已經過去近一個世紀。兩年之後,女科學家多蘿西·霍奇金(Dorothy Hodgkin)搞清楚了青黴烷的分子結構,並因此獲得了諾貝爾獎,這樣到了1957年終於可以人工合成青黴素。當然,搞清楚青黴烷的分子結構,有利於人類通過改進它來發明新的抗生素,亞伯拉罕就因此而發明了頭孢類抗生素。
在整個青黴素和其他抗生素的發明過程中,人類就是不斷地分析原因,然後尋找答案(結果)。當然,通過這種因果關係找到的答案非常讓人信服。
其他新藥的研製過程和青黴素很類似,科學家們通常需要分析疾病產生的原因,尋找能夠消除這些原因的物質,然後合成新藥。這是一個非常漫長的過程,而且費用非常高。在七八年前,研製一種處方藥已經需要花費10年以上的時間,投入10億美元的科研經費,如今,時間和費用成本都進一步提高;一些專家,比如斯坦福醫學院院長米納(Lloyd Minor)教授則估計需要20年的時間,20億美元的投入。這也就不奇怪為什麼有效的新藥價格都非常昂貴,因為如果不能在專利有效期內a賺回20億美元的成本,就不可能有公司願意投錢研製新藥了。
按照因果關係,研製一種新藥就需要如此長的時間、如此高的成本。這顯然不是患者可以等待和負擔的,也不是醫生、科學家、製藥公司想要的,但是過去沒有辦法,大家隻能這麼做。
如今,有了大數據,尋找特效藥的方法就和過去有所不同了。美國一共隻有5 000多種處方藥,人類會得的疾病大約有一萬種。如果將每一種藥和每一種疾病進行配對,就會發現一些意外的驚喜。比如斯坦福大學醫學院發現,原來用於治療心髒病的某種藥物對治療某種胃病特別有效。當然,為了證實這一點需要做相應的臨床試驗,但是這樣找到治療胃病的藥隻需要花費3年時間,成本也隻有1億美元。這種方法,實際上依靠的並非因果關係,而是一種強關聯關係,即A藥對B病有效。至於為什麼有效,接下來3年的研究工作實際上就是在反過來尋找原因。這種先有結果再反推原因的做法,和過去通過因果關係推導出結果的做法截然相反。無疑,這樣的做法會比較快,當然,前提是有足夠多的數據支持。
◆ ◆ ◆
大數據思維與司法:為香煙定罪
在過去,由於數據量有限,而且常常不是多維度的,這樣的相關性很難找得到,即使偶爾找到了,人們也未必接受,因為這和傳統的觀念不一樣。20世紀90年代中期,在美國和加拿大圍繞香煙是否對人體有害這件事情的一係列訴訟上,如何判定吸煙是否有害是這些案子的關鍵,是采用因果關係判定,還是采用相關性判定,決定了那些訴訟案判決結果。
在今天一般的人看來,吸煙對人體有害,這是板上釘釘的事實。比如美國外科協會的一份研究報告顯示,吸煙男性肺癌的發病率是不吸煙男性的23倍,女性則是相應的13倍a,這從統計學上講早已經不是隨機事件的偶然性了,而是存在必然的聯係。但是,就是這樣看似如山的鐵證,依然“不足夠”以此判定煙草公司就是有罪,因為它們認為吸煙和肺癌沒有因果關係。煙草公司可以找出很多理由來辯解,比如說一些人之所以要吸煙,是因為身體裏有某部分基因缺陷或者身體缺乏某種物質;而導致肺癌的,是這種基因缺陷或者某種物質的缺乏,而非煙草中的某些物質。從法律上講,煙草公司的解釋很站得住腳,美國的法律又是采用無罪推定原則a,因此,單純靠發病率高這一件事是無法判定煙草公司有罪的。這就導致了在曆史上很長的時間裏,美國各個州政府的檢察官在對煙草公司提起訴訟後,經過很長時間的法庭調查和雙方的交鋒,最後結果都是不了了之。其根本原因是提起訴訟的原告一方(州檢察官和受害人)拿不出足夠充分的證據,而煙草公司又有足夠的錢請到很好的律師為它們進行辯護。
這種情況直到20世紀90年代中期美國曆史上的那次世紀大訴訟才得到改變。1994年,密西西比州的總檢察長麥克·摩爾(Michael Moore)又一次提起了對菲利普·莫裏斯等煙草公司的集體訴訟,隨後,美國40多個州加入了這場有史以來最大的訴訟行動。在訴訟開始以前,雙方都清楚官司的勝負其實取決於各州的檢察官們能否收集到讓人信服的證據來證明是吸煙而不是其他原因導致了很多疾病(比如肺癌)更高的發病率。
我們在前麵講了,單純講吸煙者比不吸煙者肺癌的發病率高是沒有用的,因為得肺癌可能是由其他更直接的因素引起的。要說明吸煙的危害,最好能找到吸煙和得病的因果關係,但是這件事情短時間內又做不到。因此,訴訟方隻能退而求其次,他們必須能夠提供在(煙草公司所說的)其他因素都被排除的情況下,吸煙者發病的比例依然比不吸煙者要高很多的證據,這件事做起來遠比想象的困難。雖然當時全世界的人口多達60億,吸煙者的人數也很多,得各種與吸煙有關疾病的人也不少,但是在以移民為主的美國,尤其是大城市裏,人們彼此之間基因的差異相對較大,生活習慣和收入狀況也千差萬別,即使調查了大量吸煙和不吸煙的樣本,能夠進行比對的、各方麵條件都很相似的樣本並不多。不過在20世紀90年代的那次世紀大訴訟中,各州的檢察長下定決心要打贏官司,而不再是不了了之,為此他們聘請了包括約翰·霍普金斯大學在內的很多大學的頂級專家作為訴訟方的顧問,其中既包括醫學家,也包括公共衛生專家。這些專家們為了收集證據,派下麵的工作人員到世界各地,尤其是第三世界國家的農村地區(包括中國的西南地區),去收集對比數據。在這樣的地區,由於族群相對單一(可以排除基因等先天的因素),收入和生活習慣相差較小(可以排除後天的因素),有可能找到足夠多的可對比的樣本,來說明吸煙的危害。
各州檢察官們和專家們經過三年多的努力,最終讓煙草公司低頭了。1997年,煙草公司和各州達成和解,同意賠償3 655億美元。在這場曆史性勝利的背後,靠的並非是檢察官們找到了吸煙對人體有害的因果關係的證據,而依然是采用了統計上強相關性的證據,隻是這一次的證據能夠讓陪審團和法官信服。在這場馬拉鬆式的訴訟過程中,其實人們的思維方式已經從接受因果關係,轉到接受強相關性上來了。
如果在法律上都能夠被作為證據接受,那麼把相關性的結果應用到其他領域更是順理成章的事情。
◆ ◆ ◆
大數據思維與廣告:咖啡與信用卡廣告更配哦
2003年Google推出了根據網頁內容安插廣告的AdSense服務,以與那些在網頁中隨機投放廣告的產品競爭。根據我們的直覺,如果在一個和照相機有關的網站(或者)網頁中放上照相機的廣告,效果應該最好。這其實就是用到了相關性的特點,但是大部分時候,相關性並不是那麼直接,不能一眼就看出來。根據大量數據的統計結果,我們發現這樣一些廣告和內容的搭配效果非常好,很多和我們的想象不大相同,比如:
在電影租賃和收看視頻的網站上,放上零食的廣告;
在女裝網站上,放男裝的廣告;
在咖啡評論和銷售網站上,放信用卡和房貸的廣告;
在工具(Hardware)評論網站上,放上快餐的廣告;
......
這些搭配,如果沒有大量的數據統計作為基礎,一般人是想不到的。當然,如果仔細分析有些看似不太相關的搭配,還是能夠找到合理的解釋,比如電影租賃和視頻播放網站與零食廣告的搭配,符合人在看視頻時喜歡吃零食的習慣。
但是,有些搭配會讓人完全摸不到頭腦,比如把咖啡和信用卡或者房貸聯係起來。不管是能夠找到原因的,還是想不出原因的(可能背後存在著我們一時想不到的原因),隻要使用了這些相關性,廣告的效果就好。當然,在利用相關性時,我們希望是那種可信度比較高的,即數學上所謂的強相關性,而不是隨便把一些看似相關的東西扯到一起。
我們在前麵提到,能通過因果關係找到答案,根據因果關係知道原因固然好,但是對於複雜的問題,其難度非常大,除了靠物質條件、人們的努力,還要靠運氣。
牛頓和愛因斯坦都是運氣很好的人。遺憾的是,大部分時候我們並沒有靈感和運氣,因此很多問題得不到解決。在大數據時代,我們能夠得益於一種新的思維方法—從大量的數據中直接找到答案,即使不知道原因。
原文發布時間為:2016-11-24
本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號
最後更新:2017-05-31 11:31:58