穀歌經濟學家推崇的數據藝術,現在教你入門
更多深度文章,請關注雲計算頻道:https://yq.aliyun.com/cloud
簡介
去年,職業社交網站 Linkedin 報道稱,近年來雇主最重視的技能就是數據技能。而推崇數據導向文化的穀歌,其首席經濟學家 Hal R.Varian 博士更完整地闡述了行業真正的數據技能需要——“理解數據、處理數據、從中抽取價值、將其可視化、並表達其中的意義,這是未來十年及其重要的技能。”簡而言之,就是用數據講故事的能力。
穀歌首席經濟學家 Hal R. Varian 博士
不管是朝你砸玩具的熊小孩,還是不知道如何溝通的客戶,最好解決辦法無非是:給你講個故事。要讓你的老板、客戶或者從未謀麵的聽眾“聽話”,最好的辦法,就是放棄容易引發數據恐懼症的Excelbiao ge,拿出可視化工具,用數據將故事。 舉個例子。如果你想說明“男性與女性在因駕駛分心因素中的差異”,你可以這樣說: - 6%的男人和4.2%的女性覺得發短信聊天是駕駛中分心的原因; - 車裏有小孩是9.8%的男性和26.3%的女性駕駛分心的原因。 或者,你可以這樣說:  上圖是兒童慈善機構 kids4kars.org 的作品。 你更喜歡哪一種敘事方式? **我們都愛聽故事 ** 講故事很簡單、也很難。在數據驅動的團隊裏,大家很容易覺得故事是膚淺的,但是講故事可以最好的體現和解釋數據的洞。 數據為什麼有用?因為數據能告訴我們,如何更好的製定決策。很多企業中,分析的第一步是故事板。故事板的概念源於電影製作,安排劇情中的重要鏡頭,相當於一個可視化的劇本。有時候,不用做複雜的相關分析,將數據可視化就能夠講好一個故事。 安斯庫姆四重奏(Anscombe’s Quartet)就是一個很好的例子,裏麵包含裏裏四個數據庫,每一個的數據總結都非常相似。 [3](https://yqfile.alicdn.com/4caebbcb51e6e656ff43013b073194fed6564049.jpeg) 但是如果你這些數據可視化:  是不是聽到了美妙的四重奏! **如何講故事?** 第一步,故事都有情節。讓我用一個包含 NASDAQ 100 科技公司新聞標題的數據庫為例子,一步步來分解講故事的步驟。項目欄包括以下部分: - Headlines.Securities.Symbol: 依據每一個公司的代碼對數據進行篩選和分組。 - Headline.Securities.CategoryorIndustry: 哪一些新聞對其行業具有相關性。市場情緒也許隻針對行業內某一些公司。 - Headlines.Title:標題,理解當天市場情況最重要的因素之一。 - Headlines.Date:基於月份和日期分類新聞。 - Headlines.Source:新聞來源。 - Headlines.Url:新聞鏈接。 **下麵是具體步驟:** 1. 回歸複古的紙和筆。 雖然我們生活在數字化的時代,不過,有些超棒的數據故事在進入 PPT 之前,其實是在餐巾紙上畫出來的。在開始製作故事結構之前,寫下你的想法和故事流。 亞裏士多德有一個經典的“五大要點”方法: 1)先做一個陳述,引起觀眾的注意。 2)提出一個需要解決的問題。 3)提出一個解決方法。 4)描述你的解決方法會帶來哪些好處。 5)提出一個行動唿籲。 假設現在我要寫一個報告,如何用數據更好地進行投資決策。做一個折線圖可以分析出這些股價的趨勢。  我們可以看出,2016年2月所有股價都下跌了。我們可以抓取那個時期的新聞,分析到底發生了什麼。 我們可以找到哪一個媒體對某一個股票的報道最多,這個媒體也許就是關於這個股票最好的消息來源。 2. 深挖故事的意義 為什麼你在講這個故事?故事本身並不重要,重要的是故事如何能讓我們更好地進行決策。 用一句話,說明為什麼你對你所做的這件事抱有熱情。 3.取一個強大的標題 一句話概括你的故事、標題和分析。最有效的標題必須簡潔、具體、並告訴讀者你能從中得到什麼好處。 **記住,標題是給讀者看的,不是給你自己看的。** 4. 設計一個路線圖 寫下你想讓觀眾知道的是什麼,寫下所有的關鍵點。 將你的關鍵點歸類、合並,直到最後你手上有的不是100個關鍵點,而是三個大類,這三個大類就是你的路線圖。 在每一個大類下麵,加上支持你論點的證據,可以包括個人故事、事實、例子、類比等等。 5. 簡短總結 既然已經陳述了所有的要點,現在,就該來一個強大的收尾了。我的報告結尾,在每一個股票後麵都寫了三到四行,總結為什麼要買這個股票。
**數據類型及適合圖標 ** 常見的數據類型如下: 1. 文字數據 文字數據適合研究文字中的情緒,這種數據最適合講故事。 WordCloud 是最適合文字數據的可視化類型,將最常見的文字放在最中心、字體最大,讓讀者一眼就看出文字要體現的總體思想。
上圖直觀地體現了一個 Twitter 數據庫的內容,一眼就能看出其中最突出的情緒:“陰沉”、“缺失”、“失望”等。 2. 混合數據 當數據中不僅有數字,還有其他的數據形式,我們需要確定哪一種形式最能體現數據中的洞見。 我先以網格分麵為例,分析泰坦尼克號乘客的數據。
而下圖直觀地體現了不同性別和艙位級別的生存率。
我們可以看出,女性和頭等艙乘客的生存率稍高一些,而男性、低級別艙位及工作人員的生存率更低。 另一種可視化的方式是多元變量圖。以下使用的數據庫是汽車性能規格數據庫。
這麼多數字看得一百個頭大。所以我們做出了下圖,這樣不難看出,更重的車身會讓汽車跑得更慢。
3. 數字數據 通常對於數字數據我們要找的是趨勢。
橫軸是時間,縱軸是票價,黑色線是成人,灰色線是小孩。我們可以清楚看到對於在這個遊樂園,成人和小孩的價格都上漲了,而且對每一年上漲的程度也有個直觀的感覺。 4. 股票 股票市場的信息基本上就是一個時間序列數據,而投資人希望能夠理解每一個時間點與價格下跌。 下圖的 K 線圖是一個很好的例子。
我們可以看看特斯拉的股價。2016年2月特斯拉股價出現了較大的下跌,我們可以去調查當時的市場情況和經濟環境,在未來更好地進行股票投資。 5. 地理數據 把不同地區的信息標記在地圖上,能讓分析更加清楚和有意義。
上圖中,我們可以看到2002年世界杯各國到進球數,德國的進球數最高。 **預測性模型如何講故事** 我們先來理解建造模型的步驟,看看故事能在其中發揮什麼作用。 1. 數據探索 建立模型的第一步是理解你的數據。不一定先得進行複雜的統計計算。 我們來看看紅酒質量的數據庫,數據庫的結構如下:
以下是數據總結
如果我們想知道酒精量和紅酒質量之間的關係,該怎麼辦? 我們可以計算 Pearson R值,可以幫助打造一個模型。但是對於分析沒有什麼用。
這意味著酒精量和紅酒質量之間有很強的關聯。但這還告訴你什麼信息了嗎? 並沒有。 所以我們來將數據可視化一下:
首先,我們看到更高的酒精量與更好的紅酒質量相關,我們也可以更好的看到例外。 然後,你覺得紅酒的酸度與質量有關嗎?
我們可以用小提琴圖來體現酸度,小提琴圖能體現在哪些區域內有更多的數據點。
2. 特征可視化
生成了特征之後,你如何看到預測得如何?

我們可以以主成分分析(PCA)為例。關於 PCA 更深入的內容可以看這篇文章。
這是 RStudio 中的 Iris 數據庫。

我們進行 PCA 的時候會發現這些數據:

一直盯著這張表可能也看不出什麼。如果做成可視化圖表,我們得到的信息會更多。

3. 創造和比較模型

這個模型能基於道路顛簸度的情況,預測車輛應該走快一點還是放慢一點。
決策邊界將大部分數據清楚分類了,不過,88.21%的精確度並不算一個故事。
以下是另一個使用 Iris 數據庫的例子:

要推導出有價值的內容,這裏的信息不夠多。要更深入地了解支持向量機,可以看這篇文章。
另一方麵,這張圖表展示了一個清楚的分類邊界。

**講故事的實用貼士
**
- 圖表一定要標記好橫軸和縱軸,寫好恰當的標題;
- 必要的時候使用圖例。
- 使用看起來成比例、較淺的顏色。
- 避免增加非必須的信息,例如讓閱讀更加複雜的背景或主題。
- 基於橫縱位置信息,要同時編碼兩個量值隻能使用一個點。
- 製作時間序列編碼的時候,不要用點進行可視化。
結束語
數據中特征與數據的關係,數字揭示不了的,但故事和圖表可以。故事可以在各種情況下更好地解釋細節。現在,你也可以開始講述你的數據故事了。
本文由北郵@愛可可-愛生活老師推薦,阿裏雲雲棲社區組織整理。
文章原標題:《The Art of Story Telling in Data Science and how to create data stories?》文章為簡譯,更為詳細的內容,請查看原文
譯者:炫。
本文由用戶為個人學習及研究之目的自行翻譯發表,如發現侵犯原作者的版權,請與社區聯係處理yqgroup@service.aliyun.com
最後更新:2017-10-23 17:03:49