VR如何巧妙填補傳統數據視覺化的漏洞
VR的廣泛傳播對於數據視覺化具有著可算是屈指可數的地位並因VR發生了天翻地覆的改變。但重點是如何改變?現如今的數據視覺化又發生了哪些問題?這篇文章就此深挖傳統視覺化所存在的問題和理解抽象信息中的困難以及VR如何使之改變。
Evan就任一家VR數據視覺化公司Kineviz的項目經理。曾作為數據科學家就職於HID Global,並且畢業於加利福利亞大學伯克利分校認知學。除了平時為Kineviz工作和探索VR之外,Evan還深醉於研究人類的決議過程。
在1983年,Amos Tversky 和 Daniel Kahneman問了大學生如下幾個問題:
Linda是一個31歲坦率個性陽光的單身並學習哲學專業的女生。作為一名學生,她深切的關注歧視和社會司法所存在的問題並投身於反原子能遊行中。這可能是因為:
1. Linda是名小學老師?
2. Linda在書店工作並參加瑜伽課?
3. Linda積極參與女權運動?
4. Linda是一名精神病院的社工?
5. Linda是婦女選民聯盟的一員?
6. Linda是一名銀行櫃員?
7. Linda是保險銷售員?
8. Linda是銀行櫃員並積極投身女權運動?
他們發現86%的大學生認為#8 (Linda是銀行櫃員並積極投身女權運動)比#6更有可能發生。雖然很容易聯想Linda是支持女權且是一名櫃員,但女權主義櫃員僅是櫃員中的一種,所以女權主義櫃員的數量遠少於所有櫃員,(所以Linda是櫃員的可能性還是應該大於她是女權主義櫃員的可能性)。
不僅是這個例子非常有名,大多數人發現這讓人困惑,然而視覺化讓這一切一目了然簡單易懂。
哪一個更有可能發生:Linda是一個銀行櫃員或女權主義櫃員?假設圓圈大小與現實成比例。
虛擬現實使得概率推理變得異常簡單,就如圖表使得所謂的“Linda問題”變的簡單。
談及數據和虛擬現實的關係就如雞與雞蛋的問題-若不知道VR數據工具會被如何使用,組建一係列VR工具是相當困難的。雖然如此,虛擬現實能夠有解決
a)概率思維(上述)
b)高維數據視覺化
c)高密度信息
d)提供場景便於透徹理解來龍去脈
高維數據視覺化
▼
圖像對於優質的統計分析至關重要- F.J. Anscombe
如果提供的數據集是兩維或者更少,這數據相對容易用圖像或者表格視覺化:
Anscombe的著名四重奏,取自維基百科。四個數據組有相同的平均值,相關性,方差和最優擬合線。
上述的每個數據集,所有X坐標的平均值都是9,Y坐標的平均值為7.5, X坐標的方差是11,X與Y的相關性是0.816, 且最優擬合線的公式是Y = 3 + 5x。
換句話說,這四組數據在統計上是完全一樣的,視覺化把它們的真實特性被“出賣”。不過,這次當然輕鬆,因為我們要處理的隻不過是二維的數據。
如果談及三維數據,則需要使用三維圖。如果想要演示更高維度的數據(比如說你的excel表格中有大量列)是不大可能的。想象二維圖像當然容易,但當數據集中有很多列(比如10,000列,隻要多於3列)問題就會來了,三維以上的視覺化是不可能的任務。
然而,還有其他方法詮釋維度。 比如一個三角形,可以用於表現三維數據,如果每個維度對應著三角形的每一條邊長。如果你願意,甚至可以用紅藍光譜或者深淺光譜來為三角中心上色,這樣就會有五個維度可供觀察。對比每個三角形,你或者就可以發現異常或在此隱藏的規律和關係。當然,這隻是個理論。
Herman Chernoff 在70年代探索了這理論的一個變種-有別於到三角形邊長,他用不同的卡通人物的臉映射數據的維度。
以下我會讓你判斷L.A. 時代的信息圖做的如何;
Eugne Turner -洛杉磯的生活 (1977),L.A. 時代。有四種麵部維度,每個臉的地理分布和社區區塊信息,這就意味這是一個有六個維度的數據。
你的本能反應對這個方法的數據表現嗤之以鼻,它們看起來可笑,帶有一點種族歧視,和難以理解。 但我勸你不妨再嚐試一次-能發現貧富社區間的緩衝帶嗎?
切爾諾夫臉譜圖不能得到廣泛利用的其中一個原因是它們太卡通了(科學通常都是嚴謹商業的,可能不太適合卡通臉譜圖)。現實的切爾諾夫臉譜雖然可以解決太卡通的問題,他卻存在另一個問題:貌似他們直觀就可以理解,但我們對臉和情感太有經驗,反而難以去評估編造的臉譜。
在下麵的描繪中,Tim Cook 臉的參數-如眉毛的斜率-被用來映射Apple每年的財務數據多個問題點。
Christo Allegra的作品, Tim Cook 臉部的不同形態展現了每年Apple的財務數據不同的問題。他鼻子的寬度用來表現Apple貸款額;他嘴巴的開合度表現營業額;眼睛的大小表現每股收益等等。更多切爾諾夫臉譜圖的應用,詳見Dan Darling的成果。
很顯然,這種方法也有一些問題。首當其衝的就是,臉部不是在任何情況都能傳達同等程度的情感信息的,“笑”這個動作就是如此。換句話說,你對不同麵部的感知的不同不能等同於實際數據的差值。這就是能夠讓圖表如此有用的眾多特質之一。這也是為什麼用可視化的方法解決Linda問題會更加直觀。這就是現今多維度的數據可視方法存在的缺陷。
虛擬現實技術可以解決上麵所提及的眾多問題。將麵部取代,切爾諾夫類似的技術可以應用於控製中性對象觀察、行動、交流和被分配。舉例來說,下麵所有桌子的屬性能夠被用來表示不同的數據維度:高度、桌麵的麵積、顏色、腿長、桌子磨光度以及斑點和焊補的位置和種類。如果你有15個維度的數據,你可以將維度轉化成能夠控製桌子外形的各種參數。
每一個測量值都會被用來可視化數據的另一個維度,來自mycarpentry.com
VR的優勢就是能夠讓你感受到桌子真實、直觀的意義,比方說它是另一張桌子的2倍高;抑或是桌麵不同的摩擦係數。一些試驗可以保證不同維度下相同的感知權重。
除此之外,相關的方法論已經在精神物理學和色彩感知領域得到了深度的研究---研究人員已經花費很多時間在測量人們如何通過不同的知覺感知微弱和巨大的差異。換句話說,VR和一些心理物理學能夠使了解複雜的數據變得像走進宜家一樣簡單。
高密度圖表
▼
因為一些出現在數學曆史中的不幸,那些由一堆點和連接組成的物體集同樣也被稱為圖表。
這類的圖表大致長這樣:
維基百科的Prefuse視覺圖,來自維基百科
上麵的每一個點表示一個維基頁麵,每一條線代表著頁麵之間的聯係。
圖表對於通過抽象的方法看見物體或者數據點有著重要意義,特別是當聯係的類別和數量不可忽視的時候。
舉例來說,下列的圖表表示著在啤酒酵母細胞中基因間的每一次相互作用。
左:表示酵母基因組的節點和邊緣圖。右:重要的基因群。
盡管這個圖表看起來很有意思,你肯定已經注意到2張圖在中部都很密集。如果你去探索巴拿馬的這個數據集,你會發現一些類似的事情發生---這個連接的圖表會變得密集和迅速。
由於在圖表中心重疊的連接的數量太多,圖表會變得非常難以理解,同時這也會成為理解物體間相互關係的難題,而這又是使用圖表的最初目的。
你可以想象,3D的圖表的可視化不會顯得如此複雜:
人腦中不同的相互連接的網絡的3D可視化圖表
然而,你需要注意這些可視化也會遭遇“混亂”的問題;盡管作者正用算法來將這些連接線“捆綁”在一起,搞清楚現實狀況仍然很難。然而,想象一下,如果你能夠飛進這些大腦的中心位置,並且可以迅速改變大腦的大小---數據就會更容易地解讀了。
提供場景
▼
比較下列的圖表:
這倆個圖表用的是相同的數據集。左邊的圖表被提名2015年年度最誤導人的圖表之一。
我承認,盡管上麵的圖表的表示很有誤導性,但它至少因為是靜態圖形原因。如果能夠改變數據的大小,形狀和範圍可以防止數據被誤導,因為環境因素會直接影響體驗。
用虛擬現實技術來可視化信息的最大優勢是它能夠分享不僅僅隻是靜態的VR展示;每一個VR的展示都是一次無意識的體驗。這意味著觀看者可以按照自己的意願去探究它。
盡管VR數據工具仍然是處在初期階段,但是我可以推薦你3個具備上述功能的工具。
CalcFlow
最開始我想介紹下CalcFlow,這個工具是由UCSD的數學係為了可視化3D數學概念時研發出來的。現在,它已經推出一些列具備互動性的演示,能夠讓人對二重積分或納維爾-斯托克斯方程有直觀的了解。在每個演示中,你可以體驗到我之前所提到的一些VR功能:改變尺度並且在數據中間“穿行”,這也意味著數據會被更加容易解讀。由於這個演示具備很強的操作性,用戶可以在飛行中不斷調整數據可視方式,探究這種改變如何影響多維度的圖表。
DeathTools
DeathTools將數據可視化從抽象的數字帶向一個真實、可觸碰的世界,在這個世界不同於圖形和表格,我們能夠更加深入地理解數據。用這個工具可以看到近期中東衝突的累計屍體數量。不同於圖表,你是真實地站在一行行裝屍袋中間,這樣可以準確地了解死亡的數量。
就如DeathTools的創建者Ali Eslami說:
我們的智慧所缺的就是運算大數的能力。我們很難去理解和接受大量的死亡。舉例來說,像1;2;14;20;50這些是我們會經常碰到的數字,並且我們能通過我們自己內心記住的模型來理解它們。但是後來我們遇見如1000;10000;20000這樣的數字。這些數字會變得越來越難用概念來衡量,但是我們仍然能夠通過用可視化模型去理解這些數據的大致含義。
Kineviz
最後,Kineviz正在研發具VR功能的3D圖形探索工具。這個工具被設計成用來解決高信息密度的問題,並非切能夠讓用戶直接地體驗數據意義上的不同。自己去看看吧:
VR的最主要的優勢就是它能夠被用來更容易地感知數據微妙的差別。除此之外,VR能夠使數據表達更具操作性,意味著想要去改變數據表達來迎合一個特定的故事會越來越難。最終,一個人在VR中可以用他們空間意識來迅速改變能夠讓一個人去改變比範圍,同時也允許那些以前難以想象的數據範圍被感知到。
原文發布時間為:2017-01-11
本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號
最後更新:2017-05-26 09:33:03