VR如何巧妙填補傳統(tǒng)數(shù)據(jù)視覺化的漏洞
VR的廣泛傳播對于數(shù)據(jù)視覺化具有著可算是屈指可數(shù)的地位并因VR發(fā)生了天翻地覆的改變。但重點是如何改變?現(xiàn)如今的數(shù)據(jù)視覺化又發(fā)生了哪些問題?這篇文章就此深挖傳統(tǒng)視覺化所存在的問題和理解抽象信息中的困難以及VR如何使之改變。
Evan就任一家VR數(shù)據(jù)視覺化公司Kineviz的項目經(jīng)理。曾作為數(shù)據(jù)科學(xué)家就職于HID Global,并且畢業(yè)于加利福利亞大學(xué)伯克利分校認知學(xué)。除了平時為Kineviz工作和探索VR之外,Evan還深醉于研究人類的決議過程。
在1983年,Amos Tversky 和 Daniel Kahneman問了大學(xué)生如下幾個問題:
Linda是一個31歲坦率個性陽光的單身并學(xué)習(xí)哲學(xué)專業(yè)的女生。作為一名學(xué)生,她深切的關(guān)注歧視和社會司法所存在的問題并投身于反原子能游行中。這可能是因為:
1. Linda是名小學(xué)老師?
2. Linda在書店工作并參加瑜伽課?
3. Linda積極參與女權(quán)運動?
4. Linda是一名精神病院的社工?
5. Linda是婦女選民聯(lián)盟的一員?
6. Linda是一名銀行柜員?
7. Linda是保險銷售員?
8. Linda是銀行柜員并積極投身女權(quán)運動?
他們發(fā)現(xiàn)86%的大學(xué)生認為#8 (Linda是銀行柜員并積極投身女權(quán)運動)比#6更有可能發(fā)生。雖然很容易聯(lián)想Linda是支持女權(quán)且是一名柜員,但女權(quán)主義柜員僅是柜員中的一種,所以女權(quán)主義柜員的數(shù)量遠少于所有柜員,(所以Linda是柜員的可能性還是應(yīng)該大于她是女權(quán)主義柜員的可能性)。
不僅是這個例子非常有名,大多數(shù)人發(fā)現(xiàn)這讓人困惑,然而視覺化讓這一切一目了然簡單易懂。
哪一個更有可能發(fā)生:Linda是一個銀行柜員或女權(quán)主義柜員?假設(shè)圓圈大小與現(xiàn)實成比例。
虛擬現(xiàn)實使得概率推理變得異常簡單,就如圖表使得所謂的“Linda問題”變的簡單。
談及數(shù)據(jù)和虛擬現(xiàn)實的關(guān)系就如雞與雞蛋的問題-若不知道VR數(shù)據(jù)工具會被如何使用,組建一系列VR工具是相當困難的。雖然如此,虛擬現(xiàn)實能夠有解決
a)概率思維(上述)
b)高維數(shù)據(jù)視覺化
c)高密度信息
d)提供場景便于透徹理解來龍去脈
高維數(shù)據(jù)視覺化
圖像對于優(yōu)質(zhì)的統(tǒng)計分析至關(guān)重要- F.J. Anscombe
如果提供的數(shù)據(jù)集是兩維或者更少,這數(shù)據(jù)相對容易用圖像或者表格視覺化:
Anscombe的著名四重奏,取自維基百科。四個數(shù)據(jù)組有相同的平均值,相關(guān)性,方差和最優(yōu)擬合線。
上述的每個數(shù)據(jù)集,所有X坐標的平均值都是9,Y坐標的平均值為7.5, X坐標的方差是11,X與Y的相關(guān)性是0.816, 且最優(yōu)擬合線的公式是Y = 3 + 5x。
換句話說,這四組數(shù)據(jù)在統(tǒng)計上是完全一樣的,視覺化把它們的真實特性被“出賣”。不過,這次當然輕松,因為我們要處理的只不過是二維的數(shù)據(jù)。
如果談及三維數(shù)據(jù),則需要使用三維圖。如果想要演示更高維度的數(shù)據(jù)(比如說你的excel表格中有大量列)是不大可能的。想象二維圖像當然容易,但當數(shù)據(jù)集中有很多列(比如10,000列,只要多于3列)問題就會來了,三維以上的視覺化是不可能的任務(wù)。
然而,還有其他方法詮釋維度。 比如一個三角形,可以用于表現(xiàn)三維數(shù)據(jù),如果每個維度對應(yīng)著三角形的每一條邊長。如果你愿意,甚至可以用紅藍光譜或者深淺光譜來為三角中心上色,這樣就會有五個維度可供觀察。對比每個三角形,你或者就可以發(fā)現(xiàn)異常或在此隱藏的規(guī)律和關(guān)系。當然,這只是個理論。
Herman Chernoff 在70年代探索了這理論的一個變種-有別于到三角形邊長,他用不同的卡通人物的臉映射數(shù)據(jù)的維度。
以下我會讓你判斷L.A. 時代的信息圖做的如何;
Eugne Turner -洛杉磯的生活 (1977),L.A. 時代。有四種面部維度,每個臉的地理分布和社區(qū)區(qū)塊信息,這就意味這是一個有六個維度的數(shù)據(jù)。
你的本能反應(yīng)對這個方法的數(shù)據(jù)表現(xiàn)嗤之以鼻,它們看起來可笑,帶有一點種族歧視,和難以理解。 但我勸你不妨再嘗試一次-能發(fā)現(xiàn)貧富社區(qū)間的緩沖帶嗎?
切爾諾夫臉譜圖不能得到廣泛利用的其中一個原因是它們太卡通了(科學(xué)通常都是嚴謹商業(yè)的,可能不太適合卡通臉譜圖)。現(xiàn)實的切爾諾夫臉譜雖然可以解決太卡通的問題,他卻存在另一個問題:貌似他們直觀就可以理解,但我們對臉和情感太有經(jīng)驗,反而難以去評估編造的臉譜。
在下面的描繪中,Tim Cook 臉的參數(shù)-如眉毛的斜率-被用來映射Apple每年的財務(wù)數(shù)據(jù)多個問題點。
Christo Allegra的作品, Tim Cook 臉部的不同形態(tài)展現(xiàn)了每年Apple的財務(wù)數(shù)據(jù)不同的問題。他鼻子的寬度用來表現(xiàn)Apple貸款額;他嘴巴的開合度表現(xiàn)營業(yè)額;眼睛的大小表現(xiàn)每股收益等等。更多切爾諾夫臉譜圖的應(yīng)用,詳見Dan Darling的成果。
很顯然,這種方法也有一些問題。首當其沖的就是,臉部不是在任何情況都能傳達同等程度的情感信息的,“笑”這個動作就是如此。換句話說,你對不同面部的感知的不同不能等同于實際數(shù)據(jù)的差值。這就是能夠讓圖表如此有用的眾多特質(zhì)之一。這也是為什么用可視化的方法解決Linda問題會更加直觀。這就是現(xiàn)今多維度的數(shù)據(jù)可視方法存在的缺陷。
虛擬現(xiàn)實技術(shù)可以解決上面所提及的眾多問題。將面部取代,切爾諾夫類似的技術(shù)可以應(yīng)用于控制中性對象觀察、行動、交流和被分配。舉例來說,下面所有桌子的屬性能夠被用來表示不同的數(shù)據(jù)維度:高度、桌面的面積、顏色、腿長、桌子磨光度以及斑點和焊補的位置和種類。如果你有15個維度的數(shù)據(jù),你可以將維度轉(zhuǎn)化成能夠控制桌子外形的各種參數(shù)。
每一個測量值都會被用來可視化數(shù)據(jù)的另一個維度,來自mycarpentry.com
VR的優(yōu)勢就是能夠讓你感受到桌子真實、直觀的意義,比方說它是另一張桌子的2倍高;抑或是桌面不同的摩擦系數(shù)。一些試驗可以保證不同維度下相同的感知權(quán)重。
除此之外,相關(guān)的方法論已經(jīng)在精神物理學(xué)和色彩感知領(lǐng)域得到了深度的研究---研究人員已經(jīng)花費很多時間在測量人們?nèi)绾瓮ㄟ^不同的知覺感知微弱和巨大的差異。換句話說,VR和一些心理物理學(xué)能夠使了解復(fù)雜的數(shù)據(jù)變得像走進宜家一樣簡單。
高密度圖表
因為一些出現(xiàn)在數(shù)學(xué)歷史中的不幸,那些由一堆點和連接組成的物體集同樣也被稱為圖表。
這類的圖表大致長這樣:
維基百科的Prefuse視覺圖,來自維基百科
上面的每一個點表示一個維基頁面,每一條線代表著頁面之間的聯(lián)系。
圖表對于通過抽象的方法看見物體或者數(shù)據(jù)點有著重要意義,特別是當聯(lián)系的類別和數(shù)量不可忽視的時候。
舉例來說,下列的圖表表示著在啤酒酵母細胞中基因間的每一次相互作用。
左:表示酵母基因組的節(jié)點和邊緣圖。右:重要的基因群。
盡管這個圖表看起來很有意思,你肯定已經(jīng)注意到2張圖在中部都很密集。如果你去探索巴拿馬的這個數(shù)據(jù)集,你會發(fā)現(xiàn)一些類似的事情發(fā)生---這個連接的圖表會變得密集和迅速。
由于在圖表中心重疊的連接的數(shù)量太多,圖表會變得非常難以理解,同時這也會成為理解物體間相互關(guān)系的難題,而這又是使用圖表的最初目的。
你可以想象,3D的圖表的可視化不會顯得如此復(fù)雜:
人腦中不同的相互連接的網(wǎng)絡(luò)的3D可視化圖表
然而,你需要注意這些可視化也會遭遇“混亂”的問題;盡管作者正用算法來將這些連接線“捆綁”在一起,搞清楚現(xiàn)實狀況仍然很難。然而,想象一下,如果你能夠飛進這些大腦的中心位置,并且可以迅速改變大腦的大小---數(shù)據(jù)就會更容易地解讀了。
提供場景
比較下列的圖表:
這倆個圖表用的是相同的數(shù)據(jù)集。左邊的圖表被提名2015年年度最誤導(dǎo)人的圖表之一。
我承認,盡管上面的圖表的表示很有誤導(dǎo)性,但它至少因為是靜態(tài)圖形原因。如果能夠改變數(shù)據(jù)的大小,形狀和范圍可以防止數(shù)據(jù)被誤導(dǎo),因為環(huán)境因素會直接影響體驗。
用虛擬現(xiàn)實技術(shù)來可視化信息的最大優(yōu)勢是它能夠分享不僅僅只是靜態(tài)的VR展示;每一個VR的展示都是一次無意識的體驗。這意味著觀看者可以按照自己的意愿去探究它。
盡管VR數(shù)據(jù)工具仍然是處在初期階段,但是我可以推薦你3個具備上述功能的工具。
CalcFlow
最開始我想介紹下CalcFlow,這個工具是由UCSD的數(shù)學(xué)系為了可視化3D數(shù)學(xué)概念時研發(fā)出來的。現(xiàn)在,它已經(jīng)推出一些列具備互動性的演示,能夠讓人對二重積分或納維爾-斯托克斯方程有直觀的了解。在每個演示中,你可以體驗到我之前所提到的一些VR功能:改變尺度并且在數(shù)據(jù)中間“穿行”,這也意味著數(shù)據(jù)會被更加容易解讀。由于這個演示具備很強的操作性,用戶可以在飛行中不斷調(diào)整數(shù)據(jù)可視方式,探究這種改變?nèi)绾斡绊懚嗑S度的圖表。
DeathTools
DeathTools將數(shù)據(jù)可視化從抽象的數(shù)字帶向一個真實、可觸碰的世界,在這個世界不同于圖形和表格,我們能夠更加深入地理解數(shù)據(jù)。用這個工具可以看到近期中東沖突的累計尸體數(shù)量。不同于圖表,你是真實地站在一行行裝尸袋中間,這樣可以準確地了解死亡的數(shù)量。
就如DeathTools的創(chuàng)建者Ali Eslami說:
我們的智慧所缺的就是運算大數(shù)的能力。我們很難去理解和接受大量的死亡。舉例來說,像1;2;14;20;50這些是我們會經(jīng)常碰到的數(shù)字,并且我們能通過我們自己內(nèi)心記住的模型來理解它們。但是后來我們遇見如1000;10000;20000這樣的數(shù)字。這些數(shù)字會變得越來越難用概念來衡量,但是我們?nèi)匀荒軌蛲ㄟ^用可視化模型去理解這些數(shù)據(jù)的大致含義。
Kineviz
最后,Kineviz正在研發(fā)具VR功能的3D圖形探索工具。這個工具被設(shè)計成用來解決高信息密度的問題,并非切能夠讓用戶直接地體驗數(shù)據(jù)意義上的不同。自己去看看吧:
VR的最主要的優(yōu)勢就是它能夠被用來更容易地感知數(shù)據(jù)微妙的差別。除此之外,VR能夠使數(shù)據(jù)表達更具操作性,意味著想要去改變數(shù)據(jù)表達來迎合一個特定的故事會越來越難。最終,一個人在VR中可以用他們空間意識來迅速改變能夠讓一個人去改變比范圍,同時也允許那些以前難以想象的數(shù)據(jù)范圍被感知到。