閱讀405 返回首頁    go 技術社區[雲棲]


三個經典的數據分析故事,你都知道嗎?

今天給大家分享三個數據分析的經典案例,主要是學**其中的思路,當故事看吧,不要拘泥於文中故事的真實性。每個故事我簡單的做一個點評吧


1

數據分析大神 高手在民間

這天,新上任的邢縣長到小吃攤吃早餐,剛找個板凳坐下,就聽炸油條的胡老頭一邊忙活一邊嘮叨:“大家吃好喝好哦,城管要來攆攤兒了,起碼三天你們撈不著吃咱炸的油條了!”


邢縣長心裏一驚:省衛生廳領導最近要來視察,昨天下午縣裏才決定明後兩天開展突擊整治,這老頭兒怎麼今天一早就知道了?


哪料這件事還沒弄明白,另一件事兒讓縣長腦袋裏的問號更大了。一天,他照例到胡老頭這兒吃油條。沒想到,老頭居然又在發布消息:“上麵馬上要來青天大老爺了!誰有什麼冤假,就去縣府賓館等著吧!”


邢縣長又是吃驚,又是惱怒。省高院的工作組星期三要來清查積案,這個消息昨天晚上才在常委會上傳達,這老兒咋這麼快就知道了呢?讓他更吃驚的是,這老家夥不但對大領導們的行程了如指掌,就連派出所要突擊檢查娛樂場所這樣的絕密行動,他都知道得清清楚楚。


一個大字不識的老頭兒,居然能知道這麼多政府內部消息,毫無疑問,定是某些政府工作人員保密意識太差,嘴巴不緊。於是,他立即召開會議,把那些局長、主任狠批了一通。與會領導個個低著頭、不敢出聲。


還是公安局長膽大,忍不住問道:“邢縣長,這胡老頭兒的事是您親眼所見,還是道聽途說來的?”


邢縣長聲色俱厲地一拍桌子:“都是我親耳聽到的!我問你,你們城關派出所今天晚上是不是要清查娛樂城?”


公安局長一臉尷尬,楞在那裏。邢縣長氣惱地當即下令:“你親自去查查這老頭兒到底什麼背景,明天向我匯報!”公安局長趕緊換上便裝,立馬跑到胡老頭那兒進行暗訪。沒想到,老家夥正在向大夥兒發布新聞:“城關鎮的鎮長最近要倒黴了。大夥等著瞧,事兒不會小的……”


公安局長一聽,很是詫異。於是,他運了口氣,腆著笑臉,裝傻賣呆似的問道:“你咋知道的?難道你兒子是紀委**?”


胡老頭嗬嗬一笑:“我咋知道的?那孫子以前吃我的油條,都是讓司機開專車來買,這兩天一反常態,竟然自己步行來吃,還老是一臉愁容。那年他爹死,都沒見他那麼難受過。能讓那孫子比死了爹還難受的事,除了丟官兒,還能是啥?”


局長聽了,暗自吃驚,這老頭兒還真有兩下子。於是他不動聲色繼續問道:“那昨天派出所清查娛樂城,你是咋知道的?”


胡老頭又是一笑:“你沒見那幾家娛樂城一大早就掛出了停業修繕的牌子?人家有眼線,消息比咱靈通!”


“那衛生廳領導來視察,你是咋知道的?”


胡老頭兒說:“除了上麵來人檢查,你啥時見灑水車出來過?”。


最後,局長問了個他最想不通的問題:“上次省高院的工作組來指導工作,你咋那麼快就得到消息了呢?”


胡老頭撇了撇嘴說:“那就更簡單了。俺鄰居家有個案子,法院拖了八年不辦。那天,辦案的法官突然主動來訪,滿臉笑容問長問短,還再三保證案子馬上解決。這不明擺著上麵來了人,怕他們上訪嘛!”


局長佩服得五體投地,連忙一路小跑趕回去,把情況向邢縣長匯報。縣長聽了,大動肝火,馬上再次召開會議,做了四個小時的訓話:“同誌們,一個炸油條的都能從一些簡單現象中,看出我們的工作動向,這說明了什麼?說明我們存在太多的形式主義。這種惡**不改,怎麼能提升政府形象?從今天開始,哪個部門再因為這種原因泄密,讓那老頭‘未卜先知’,我可就不客氣!”


次日一早,邢縣長又來到胡老頭兒這兒吃油條,想驗證一下開會的效果。沒想到胡老頭居然又在發布最新消息:“今天,上麵要來大領導了,來的還不止一個!”


邢縣長這一驚,真是非同小可。下午,市長要陪同省領導來檢查工作,自己昨晚才接到通知,這老頭咋又提前知道了?


邢縣長強壓怒火,問胡老頭:“你說要來大領導,到底有多大呢?”


胡老頭兒頭也不抬地回答:“反正比縣長還大!”


邢縣長又問:“你說要來的不止一個,能說個準數嗎,到底來幾個?”


胡老頭兒仰起頭想了想,確定地回答:“四個!”


邢縣長目瞪口呆,上級領導還真是要來四個!他心裏怦怦直跳,又問:“胡……胡師傅,這些事兒你是怎麼知道的?而且知道的這麼準確。”


胡老頭兒淡淡一笑:“這還不容易?我早上出攤兒,見縣府賓館的保安都戴上了白手套,一個個如臨大敵,肯定是上麵來人了。再看看停車場,**、縣長的車都停在了角落裏,肯定是來了比他們大的官兒。再仔細看看,**、縣長停的車位是5號、6號,說明上麵來了四個領導。你信不信?當官兒的和咱老百姓不一樣,上廁所都要講究個級別、排個先後順序呢!”


邢縣長聽罷,張著塞滿油條的大嘴,一動不動,好像僵化了似的…


啟示:


與其說高手來自於民間,還不如說生活是我們數據分析的基本素材,善於觀察、善於整理關聯信息才是我們做數據分析人員應該掌握的基本技能。可是啊,很多人忽略了我們身邊的生活常識,不去思考,人雲亦雲,就像網上的這個全國離婚率排行榜數據,很多人首先不是思考數據的準確性,而是感歎世風日下。


640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy


想想吧,在你的生活圈子中,每3對夫妻就有1對離婚的嗎?如果答案為“是”,我隻能說,貴圈真亂!哈哈哈



2

林彪的數據挖掘本領

1948年遼沈戰役開始之後,在東北野戰軍前線指揮所裏麵,每天深夜都要進行例常的“每日軍情匯報”:由值班參謀讀出下屬各個縱隊、師、團用電台報告的當日戰況和繳獲情況。


那幾乎是重複著千篇一律的枯燥無味的數據:每支部隊殲敵多少、俘虜多少;繳獲的火炮、車輛多少、槍支、物資多少….


司令員林彪的要求很細,俘虜要分清軍官和士兵,繳獲的槍支,要統計出機槍、長槍、短槍;擊毀和繳獲尚能使用的汽車,也要分出大小和類別。


經過一天緊張的戰鬥指揮工作,人們都非常疲勞。整個作戰室裏麵估計隻有定下這個規矩的司令員林彪本人、還有那個讀電報的倒黴參謀在用心留意。


1948年10月14日,東北野戰軍以迅雷不及掩耳之勢,僅用了30小時就攻克了對手原以為可以長期堅守的錦州並全殲了守敵十餘萬之後,不顧疲勞,揮師北上與從沈陽出援的敵精銳廖耀湘基團二十餘萬在遼西相遇,一時間形成了混戰。戰局瞬息萬變,誰勝誰負實難預料。


在大戰緊急中,林彪無論有多忙,仍然堅持每晚必作的“功課”。一天深夜,值班參謀正在讀著下麵某師上報的其下屬部隊的戰報。說他們下麵的部隊碰到了一個不大的遭遇戰,殲敵部分、其餘逃走。與其它之前所讀的戰報看上去並無明顯異樣,值班參謀就這樣讀著讀著,林彪突然叫了一聲“停!”他的眼裏閃出了光芒,問:“剛才念的在胡家窩棚那個戰鬥的繳獲,你們聽到了嗎?”


大家帶著睡意的臉上出現了茫然,因為如此戰鬥每天都有幾十起,不都是差不多一模一樣的枯燥數字嗎?林彪掃視一周,見無人回答,便接連問了三句:


“為什麼那裏繳獲的短槍與長槍的比例比其它戰鬥略高”?


“為什麼那裏繳獲和擊毀的小車與大車的比例比其它戰鬥略高”?


“為什麼在那裏俘虜和擊斃的軍官與士兵的比例比其它戰鬥略高”?


人們還沒有來得及思索,等不及的林彪司令員大步走向掛滿軍用地圖的牆壁,指著地圖上的那個點說:“我猜想,不,我斷定!敵人的指揮所就在這裏!”


隨後林彪口授命令,追擊從胡家窩棚逃走的那部分敵人,並堅決把他們打掉。各部隊要采取分割包圍的辦法,把失去指揮中樞後會變得混亂的幾十萬敵軍切成小塊,逐一殲滅。司令員的命令隨著無線電波發向了參戰的各部隊….


而此時的廖耀湘,正慶幸自己剛剛從偶然的一場遭遇戰中安全脫身並與自己的另外一支部隊匯合。他來不及休息就急於指令各部隊盡快調整部署,為下一階段作準備。可是好景不長,緊追而來的解放軍迅速把他的新指揮部團團圍住,拚命攻擊,漫山遍野的解放軍戰士中,不斷有人喊著:“矮胖子,白淨臉;金絲眼鏡湖南腔,不要放走廖耀湘!”


把對方指揮官的細節特征琢磨到如此細微,並變成如此威力巨大的順口熘,穿著滿身油漬夥夫服裝的廖耀湘隻好從俘虜群中站出來,無奈的說“我是廖耀湘”,沮喪的舉手投降。


廖耀湘對自己靜心隱蔽的精悍野戰司令部那麼快就被發現、打掉,覺得實在不可思議,認為那是一個偶然事件,輸得不甘心。當他得知林彪是如何得出判斷之後,這位出身黃埔軍校並留學法國著名的聖西爾軍校,參加過滇緬戰役,在那裏把日本鬼子揍得滿地亂爬的新六軍軍長說,“我服了,敗在他手下,不丟人。”


取得這場重要戰役勝利的其中一個關鍵因素,居然出於獲勝方的統帥夜半時分,對一份普通遭遇戰之後的戰報的數據分析,來源於他“從紅軍帶兵時起,身上有個小本子,上麵記載著每次戰鬥的繳獲、殲敵數量”的優良軍事素養。


啟示:


林彪問的三個問題其實就是根據自己的數據庫做的對比、細分、溯源。我們很多人把數據分析完全交給機器了,忘了我們自己的大腦也是一台緊密的數據分析機器。


數據的積累、數據的挖掘,分析、歸納、整理,是數據分析師所必須俱備的基本素養,沒有它,你永遠是匹夫之勇。



3

蛋撻與曼城隊

2011年夏天,曼城隊助理教練大衛·普拉特決定利用數據分析來解決球隊在表現方麵遇到的一個棘手難題。普拉特發現,盡管球隊陣容中擁有多名高大強壯的球員,但他們的角球得分情況卻不盡如人意。


在征求了俱樂部內部數據分析師的意見後,該隊增加了對內旋角球(球轉向守門員方向)的使用。戰術轉變產生了驚人的效果。在整個賽季中,曼城隊依靠角球打入15個進球,成為英超角球得分效率最高的球隊,其中2/3的進球采用的是內旋角球。


這一實踐為數據驅動型決策提供了強有力的支撐。但是,還有一個附加因素需要考慮:主教練曼奇尼最初對數據的實際價值持懷疑態度。事實上,早在兩年前,曼奇尼曾就球隊角球的使用情況谘詢過俱樂部的數據分析師。分析師回應,他依靠直覺偏愛采用的戰術——外旋角球(球飛向遠離守門員的方向)從數據統計上看並不理想。


曼奇尼選擇相信自己的直覺而非數據分析的導向性建議。因為直覺告訴他,球旋向遠離門將的方向減小了門將觸球的概率,同時增加了進攻隊員衝頂時爭到頭球的概率。但當曼奇尼發現兩種變數存在某種聯係的時候,直覺卻模煳了他對兩者關聯程度的判斷能力。換句話說,外旋角球和進球數可能存在著某種關聯,但數據表明,內旋角球和進球數存在著更為直接的因果關係。


這一案例研究為我們改善商業決策帶來哪些啟示?一家美國零售商最近發現,兩種不同變數之間存在著某種有趣的聯係。當天氣變冷,肉桂葡式蛋撻的銷量上升500%——並非所有的葡式蛋撻,隻是肉桂這一個品種。麵對這種零星數據,零售商要做出抉擇。每當預測天氣即將轉冷時,應該儲備多少肉桂葡式蛋撻?還有一家零售商發現,羊奶幹酪打折似乎能促進紅酒的銷售。希望減小紅酒庫存的時候,是不是應考慮羊奶幹酪打折這種方法?


這兩個問題的答案取決於大數據分析的核心問題:弄清相關性與因果關係之間的區別。人類善於發現事物的相關性——這是進化的特征——但是卻在發掘直接相關事物的關係時顯得有些笨拙。將相關性誤解為因果關係所做出的決策是危險的,可能會遭受慘敗,因為你所期待看到的影響可能並不會發生。


最近的一項研究顯示,某國的巧克力銷量與諾貝爾獎的人均比例之間呈現明顯的相關性。各國是不是都該鼓勵公民增加巧克力的消費來提高獲得諾貝爾獎的人數呢?


為有效利用大數據,相關性分析應僅作為一個出發點去考慮。如果兩個變量存在關聯,我們該如何應對?當然,政府在推行“巧克力替代教育”的政策之前,應當首先考慮一下其他因素。比方說,看看那些獲得諾貝爾獎人數較多的國家相對教育水平和研究預算,與巧克力消費相比,這兩個變量與獲諾獎的因果關係顯然更大。


同樣,那些葡式蛋撻和羊奶幹酪的零售商們在擁有十足把握以前,需要對他們的假設進行驗證。比如說,在確定因果關係存在以前,考察一些商店肉桂葡式蛋撻的“庫存積壓”情況;或者采取打折銷售羊奶幹酪的方式,看看紅酒銷量是否真的增加。


事物之間可能存在著一些簡單的因果關係,但公司需要清楚每種因果關係都可能產生意想不到的結果。肉桂葡式蛋撻銷量的增加是否意味著其他產品銷量的減少?紅酒銷量的增加是否也意味著啤酒銷量的減少或者牛排銷量的增加?影響現代供應鏈的因素很多,而且還在不斷增加:天氣、社交媒體、特價商品、食品安全新聞等,都會影響消費者的行為,以及零售商應該購置多大規模的存貨。這基本上就是一個混沌係統,完全準確地預測將來要發生的事情是不可能的。但模型越完善,預測就越準確,預測越準確,行動結果就越理想。


數據分析就像一幅印象派油畫。當你退後觀察,並把各個部分視作一個整體時,這幅畫的意境才開始浮現,近距離觀察是無法理解其中內涵的。這可以幫助我們解釋為什麼曼城隊的新角球戰術不太可能會長久取得良好的結果。實施從外旋角球到內旋角球的簡單戰術轉變:多開點內旋球,少開點外旋球,這一簡單的戰術轉變,亦會忽略了每場比賽中每次出現破門機會時的某些獨特變數。



結尾

很多人把數據分析看的很難,其實數據分析存在於我們生活工作的每個角落。給大家幾條建議:


1、多觀察、善積累、勤思考。


2、不懂業務就不要做數據分析。


3、分析工具不要貪多,精通1-2個工具就行了。


4、數據分析是良心工程(自己理解)

添加老師 微信 cdagood領取價值2999元數據分析資料!!

最後更新:2017-09-18 15:33:42

  上一篇:go  如何構建大數據層級體係,看這一文章就夠了
  下一篇:go  如何利用深度學習診斷心髒病