閱讀830 返回首頁    go 阿裏雲 go 技術社區[雲棲]


穀歌經濟學家推崇的數據藝術,現在教你入門

更多深度文章,請關注雲計算頻道:https://yq.aliyun.com/cloud


簡介
去年,職業社交網站 Linkedin 報道稱,近年來雇主最重視的技能就是數據技能。而推崇數據導向文化的穀歌,其首席經濟學家 Hal R.Varian 博士更完整地闡述了行業真正的數據技能需要——“理解數據、處理數據、從中抽取價值、將其可視化、並表達其中的意義,這是未來十年及其重要的技能。”簡而言之,就是用數據講故事的能力。
960x0

穀歌首席經濟學家 Hal R. Varian 博士

不管是朝你砸玩具的熊小孩,還是不知道如何溝通的客戶,最好解決辦法無非是:給你講個故事。要讓你的老板、客戶或者從未謀麵的聽眾“聽話”,最好的辦法,就是放棄容易引發數據恐懼症的Excelbiao ge,拿出可視化工具,用數據將故事。 舉個例子。如果你想說明“男性與女性在因駕駛分心因素中的差異”,你可以這樣說: - 6%的男人和4.2%的女性覺得發短信聊天是駕駛中分心的原因; - 車裏有小孩是9.8%的男性和26.3%的女性駕駛分心的原因。 或者,你可以這樣說: ![1](https://yqfile.alicdn.com/4e8ae0787d27c75147111f330b6dac8db22007d5.jpeg) 上圖是兒童慈善機構 kids4kars.org 的作品。 你更喜歡哪一種敘事方式? **我們都愛聽故事 ** 講故事很簡單、也很難。在數據驅動的團隊裏,大家很容易覺得故事是膚淺的,但是講故事可以最好的體現和解釋數據的洞。 數據為什麼有用?因為數據能告訴我們,如何更好的製定決策。很多企業中,分析的第一步是故事板。故事板的概念源於電影製作,安排劇情中的重要鏡頭,相當於一個可視化的劇本。有時候,不用做複雜的相關分析,將數據可視化就能夠講好一個故事。 安斯庫姆四重奏(Anscombe’s Quartet)就是一個很好的例子,裏麵包含裏裏四個數據庫,每一個的數據總結都非常相似。 [3](https://yqfile.alicdn.com/4caebbcb51e6e656ff43013b073194fed6564049.jpeg) 但是如果你這些數據可視化: ![4](https://yqfile.alicdn.com/549600179d7f5b98ca6d31ffa2751e94562cc172.jpeg) 是不是聽到了美妙的四重奏! **如何講故事?** 第一步,故事都有情節。讓我用一個包含 NASDAQ 100 科技公司新聞標題的數據庫為例子,一步步來分解講故事的步驟。項目欄包括以下部分: - Headlines.Securities.Symbol: 依據每一個公司的代碼對數據進行篩選和分組。 - Headline.Securities.CategoryorIndustry: 哪一些新聞對其行業具有相關性。市場情緒也許隻針對行業內某一些公司。 - Headlines.Title:標題,理解當天市場情況最重要的因素之一。 - Headlines.Date:基於月份和日期分類新聞。 - Headlines.Source:新聞來源。 - Headlines.Url:新聞鏈接。 **下麵是具體步驟:** 1. 回歸複古的紙和筆。 雖然我們生活在數字化的時代,不過,有些超棒的數據故事在進入 PPT 之前,其實是在餐巾紙上畫出來的。在開始製作故事結構之前,寫下你的想法和故事流。 亞裏士多德有一個經典的“五大要點”方法: 1)先做一個陳述,引起觀眾的注意。 2)提出一個需要解決的問題。 3)提出一個解決方法。 4)描述你的解決方法會帶來哪些好處。 5)提出一個行動唿籲。 假設現在我要寫一個報告,如何用數據更好地進行投資決策。做一個折線圖可以分析出這些股價的趨勢。 ![Screen_Shot_2017_10_16_at_3_27_56_PM](https://yqfile.alicdn.com/3c3f964fa73186eb33cba8ebbd4f5918e1462026.png) 我們可以看出,2016年2月所有股價都下跌了。我們可以抓取那個時期的新聞,分析到底發生了什麼。 我們可以找到哪一個媒體對某一個股票的報道最多,這個媒體也許就是關於這個股票最好的消息來源。 2. 深挖故事的意義 為什麼你在講這個故事?故事本身並不重要,重要的是故事如何能讓我們更好地進行決策。 用一句話,說明為什麼你對你所做的這件事抱有熱情。 3.取一個強大的標題 一句話概括你的故事、標題和分析。最有效的標題必須簡潔、具體、並告訴讀者你能從中得到什麼好處。 **記住,標題是給讀者看的,不是給你自己看的。** 4. 設計一個路線圖 寫下你想讓觀眾知道的是什麼,寫下所有的關鍵點。 將你的關鍵點歸類、合並,直到最後你手上有的不是100個關鍵點,而是三個大類,這三個大類就是你的路線圖。 在每一個大類下麵,加上支持你論點的證據,可以包括個人故事、事實、例子、類比等等。 5. 簡短總結 既然已經陳述了所有的要點,現在,就該來一個強大的收尾了。我的報告結尾,在每一個股票後麵都寫了三到四行,總結為什麼要買這個股票。

![Screen_Shot_2017_10_16_at_4_18_12_PM](https://yqfile.alicdn.com/b9652db3965a9b46954a6f90cb2a69ebfec3ee8f.png)

**數據類型及適合圖標 ** 常見的數據類型如下: 1. 文字數據 文字數據適合研究文字中的情緒,這種數據最適合講故事。 WordCloud 是最適合文字數據的可視化類型,將最常見的文字放在最中心、字體最大,讓讀者一眼就看出文字要體現的總體思想。

![image_2](https://yqfile.alicdn.com/bf3f4add26dbc65eb8670e76b171c95211b04c1a.png)

上圖直觀地體現了一個 Twitter 數據庫的內容,一眼就能看出其中最突出的情緒:“陰沉”、“缺失”、“失望”等。 2. 混合數據 當數據中不僅有數字,還有其他的數據形式,我們需要確定哪一種形式最能體現數據中的洞見。 我先以網格分麵為例,分析泰坦尼克號乘客的數據。

![6](https://yqfile.alicdn.com/7753ed692a84265ed5b7de6cbeeea1f895371c56.jpeg)

而下圖直觀地體現了不同性別和艙位級別的生存率。

![7](https://yqfile.alicdn.com/9162a747cd5ab7f51c51b351f4f03f9a0bfdde30.jpeg)

我們可以看出,女性和頭等艙乘客的生存率稍高一些,而男性、低級別艙位及工作人員的生存率更低。 另一種可視化的方式是多元變量圖。以下使用的數據庫是汽車性能規格數據庫。

![8](https://yqfile.alicdn.com/feeb0f0d2fa49d9bb43ac3b81f3faf70076139cf.jpeg)

這麼多數字看得一百個頭大。所以我們做出了下圖,這樣不難看出,更重的車身會讓汽車跑得更慢。

![91](https://yqfile.alicdn.com/02a47cd44e2d969c8e813320dad14c9b0da59cbe.jpeg)

3. 數字數據 通常對於數字數據我們要找的是趨勢。

![101](https://yqfile.alicdn.com/d52f124c1d525ba9460247cceb35e3aaea5f6f42.jpeg)

橫軸是時間,縱軸是票價,黑色線是成人,灰色線是小孩。我們可以清楚看到對於在這個遊樂園,成人和小孩的價格都上漲了,而且對每一年上漲的程度也有個直觀的感覺。 4. 股票 股票市場的信息基本上就是一個時間序列數據,而投資人希望能夠理解每一個時間點與價格下跌。 下圖的 K 線圖是一個很好的例子。

![ezgif_com_video_to_gif_360x193](https://yqfile.alicdn.com/9f78c307131c78b8f6a6728972093e5326a7f6d6.gif)

我們可以看看特斯拉的股價。2016年2月特斯拉股價出現了較大的下跌,我們可以去調查當時的市場情況和經濟環境,在未來更好地進行股票投資。 5. 地理數據 把不同地區的信息標記在地圖上,能讓分析更加清楚和有意義。

![12](https://yqfile.alicdn.com/c53695e895acd5edca07c900c82406ef3f34efa4.jpeg)

上圖中,我們可以看到2002年世界杯各國到進球數,德國的進球數最高。 **預測性模型如何講故事** 我們先來理解建造模型的步驟,看看故事能在其中發揮什麼作用。 1. 數據探索 建立模型的第一步是理解你的數據。不一定先得進行複雜的統計計算。 我們來看看紅酒質量的數據庫,數據庫的結構如下:

![13](https://yqfile.alicdn.com/9f8590fcaefd5dfcae0b10b97297e8fcfa7ed352.jpeg)

以下是數據總結

![14](https://yqfile.alicdn.com/d7d69e543e6c13004381f1d9a288c3975bdb240f.jpeg)

如果我們想知道酒精量和紅酒質量之間的關係,該怎麼辦? 我們可以計算 Pearson R值,可以幫助打造一個模型。但是對於分析沒有什麼用。

![15](https://yqfile.alicdn.com/d31cd3a26a798cf58c796dc1e8ce6be723f6a3f6.jpeg)

這意味著酒精量和紅酒質量之間有很強的關聯。但這還告訴你什麼信息了嗎? 並沒有。 所以我們來將數據可視化一下:

![16](https://yqfile.alicdn.com/dd078906c386dec7b46aa3168ede9754513a126f.jpeg)

首先,我們看到更高的酒精量與更好的紅酒質量相關,我們也可以更好的看到例外。 然後,你覺得紅酒的酸度與質量有關嗎?

![17](https://yqfile.alicdn.com/e5c959d885441df9d5a0026ba677a25e0ed0ad0f.jpeg)

我們可以用小提琴圖來體現酸度,小提琴圖能體現在哪些區域內有更多的數據點。

2. 特征可視化
生成了特征之後,你如何看到預測得如何?

![18](https://yqfile.alicdn.com/03b96bfc6dcec823f4132da740cc60c4e932bb9c.jpeg)

我們可以以主成分分析(PCA)為例。關於 PCA 更深入的內容可以看這篇文章
這是 RStudio 中的 Iris 數據庫。

![19](https://yqfile.alicdn.com/43cac9fe99f6d2e90d80c42959a6ef18d2b2a247.jpeg)

我們進行 PCA 的時候會發現這些數據:

![20](https://yqfile.alicdn.com/8b03ba0402d1e13dc92ff92e3ced9d02f813dd44.jpeg)

一直盯著這張表可能也看不出什麼。如果做成可視化圖表,我們得到的信息會更多。

![21](https://yqfile.alicdn.com/1ded00a34cb80749135ec19e8fc680f62ddeaadc.jpeg)

3. 創造和比較模型

![22](https://yqfile.alicdn.com/f1cabacc1cb1a9f250b3f48f828b81d9301ff75e.jpeg)

這個模型能基於道路顛簸度的情況,預測車輛應該走快一點還是放慢一點。
決策邊界將大部分數據清楚分類了,不過,88.21%的精確度並不算一個故事。
以下是另一個使用 Iris 數據庫的例子:

![23](https://yqfile.alicdn.com/725bf25e6f7afaeea6ace4979efdbb352191a403.jpeg)

要推導出有價值的內容,這裏的信息不夠多。要更深入地了解支持向量機,可以看這篇文章

另一方麵,這張圖表展示了一個清楚的分類邊界。

![24](https://yqfile.alicdn.com/c13971ae08ef03106f227d70ce21fd4e59afbe1c.jpeg)

**講故事的實用貼士
**

  • 圖表一定要標記好橫軸和縱軸,寫好恰當的標題;
  • 必要的時候使用圖例。
  • 使用看起來成比例、較淺的顏色。
  • 避免增加非必須的信息,例如讓閱讀更加複雜的背景或主題。
  • 基於橫縱位置信息,要同時編碼兩個量值隻能使用一個點。
  • 製作時間序列編碼的時候,不要用點進行可視化。

結束語
數據中特征與數據的關係,數字揭示不了的,但故事和圖表可以。故事可以在各種情況下更好地解釋細節。現在,你也可以開始講述你的數據故事了。

本文由北郵@愛可可-愛生活老師推薦,阿裏雲雲棲社區組織整理。

文章原標題:《The Art of Story Telling in Data Science and how to create data stories?》文章為簡譯,更為詳細的內容,請查看原文
譯者:炫。

本文由用戶為個人學習及研究之目的自行翻譯發表,如發現侵犯原作者的版權,請與社區聯係處理yqgroup@service.aliyun.com

最後更新:2017-10-23 17:03:49

  上一篇:go  米領通信正式加入中關村互聯網金融協會,踐行科技服務金融
  下一篇:go  基於阿裏的Node全棧之路[實踐篇]