第2章
數據引導可視化設計
可視化在幾個世紀前就出現了,但現在還是一個比較新的研究領域,該領域的專家們甚至還沒有給出一個確切的可視化的定義。可視化是否隻用於分析數據?還是用於定量認識?抑或是用於喚起情感?什麼時候可視化能深深扎根於視覺領域成為一門藝術呢?回答者的身份不同,問題的答案不盡相同。這些問題已經在各學科領域內及不同學科之間引起了激烈的爭論,但這還隻是學者和從業人員之間的爭論而已。
我曾經在一個大型的、以數據為中心的組織裡參與過一次深入討論。討論的緣由是該組織希望把更多的可視化引入其工作中。他們想讓公眾了解他們在做什麼,也想改進工作報告、數據摘要以及其他工作方法。與會者大約有40個人,他們來自各行各業,有營銷人員、開發人員和統計學家。他們做著各種不同的項目,既有用於博客的快速圖表設計工具,也有交互數據研究工具。我們討論了一個在線應用,一部分人認為對數據內容應有更多的注解,而另一部分人則認為任何注解都應該交給使用者來添加。還有一些人傾向於抽像畫一樣的圖表。關於可視化的想法有很多,爭論持續了很長時間。
他們都是對的。每個人都主張為了特定的目的可視化,而其他可視化都
應符合同一標準,即設計應用理由不同,目標對像也不一樣。他們將可視化
看作一個整體,擁有一整套定義好的規則。一個世紀前可能是這樣的(也許
不是),但現在可視化已不僅僅是一種工具,它是一種媒介:探索、展示和
表達數據含義的一種方法。
可視化不是將相互獨立的分類分隔開,你可以把可視化看作是連續的、從統計圖形延伸到數字藝術的一個連續譜圖。可視化有時候是可清楚區分的,也有很多混合的,不能混為一談。由於統計學、設計和美學的平衡運用,產生了許多優秀的作品。
並不是說混合總是最好的,統計圖形也不一定比數字藝術好,反之亦然。它們都有各自的目的,應該以目標實現的好壞來判斷。你不會以判斷滑稽戲的標準來評價一部紀錄片,因為你對它們的期望不同,心態也就不一樣。同樣,你也不會期待一部愛情小說像教科書一樣,更不會抱怨一部犯罪電視劇多麼地不好笑。
一連串有趣的餅圖不應和可視化研究放在同樣的顯微鏡小貼士:可視化有自身的規則和設計下觀察,除非這些餅圖恰好被用於研究人們對有趣餅圖的反建議。這些規則和建議都很好,但不能盲從。要考慮自己的目標和具體的應。如果是這樣,我會閱讀研究報告,一定很有趣。應用。
再次聲明,並不是說相對於可視化研究,不要太挑剔有趣的圖形或數字藝術。人們從未停止過對喜劇和藝術的審視。你需要知道你正在評論什麼。
新數據研究需要新的工具
我們今天使用的許多傳統圖表,如折線圖、條形圖和餅圖等都是威廉·普萊菲爾(WilliamPlayfair)發明的。他在1786年出版的《商業和政治圖解》(TheCommercialandPoliticalAtlas)一書中,首次以條形圖的形式呈現了進出口貿易統計數據,如圖2-1所示。圖2-2是最早的餅圖之一。當然,這些圖表都是手工繪制在紙上的。
很難相信直到20世紀70年代人們還通過手繪圖看數據。約翰·圖基(JohnTukey)在1977年出版了其開創性的著作《探索性數據分析》(ExploratoryDataAnalysis),他在書中描述了如何用鋼筆而不是鉛筆加深線條的顏色。現在看來這樣的技巧很古老。然而好消息是隨著技術的進步,圖基也開始用新技術繼續創新。
技術的進步也讓數據的量和可用性得到了極大的改善,這反過來給了人們新的可視化素材(以及新的工作和研究領域)。沒有數據,就沒有可視化。
2001年,維基百科創立,截至寫這本書時,它已擁有了3500萬注冊用戶。任何人都可以編輯維基百科的條目,如果有人發起了一篇文章,這篇文章可以增長也可以縮短,因為其他人可以增加或刪除內容。每篇文章都是動態的,尤其是在大家爭論什麼該寫什麼不該寫的時候。
當在這個網站上查看文章的歷史記錄時,你會覺得很有趣。費爾蘭達維埃加斯(FernandaViégas)和馬丁瓦滕伯格(MartinWattenberg)在2003年創造了"流動的歷史"(HistoryFlow)這一工具,可以幫你探索維基百科條目的歷史變化。如圖2-3所示,可視化效果看起來像是反轉的堆疊區域圖(stackedareachart),每一層都代表一篇文本正文。久而久之,新的層次(不同的顏色)會被添加(或刪除),從整體堆疊的高度可以看到變化的全景。
注意到圖2-3中的那些鋸齒狀的圖案和看似隨機的黑色塊了嗎?前者表示用戶間存在爭論,後者表示有人刪除了部分文章內容,可能是由於有不同意見或者隻是惡作劇。每篇文章的變化過程都很有趣。現實世界中的事件發生時,很難看到整體畫面,因為你的注意力集中在單獨一件事上。而作為激烈爭論中的維基百科用戶,你關注的則是對方剛剛做了什麼,然後會想好如何應對。若事後退一步觀察整體的變化,你會發現一些有趣的事情。
世界銀行以易於下載的方式提供了全美國的數據,可幫助你了解整個世界的發展狀況。圖2-4(我制作的交互圖,研究歷年來各國人口的平均壽命)顯示大多數地區的平均壽命總體在增加;同時,大回落表示某些地區發生了戰爭和衝突。
小貼士:雖然維基百科是一部百科全書,但由於它總在變化,你可以輕易地將其活動與時事聯繫起來,如動蕩時期和政權變革等。
從方法論的角度看,"流動的歷史"和平均壽命圖分別是調整過的堆疊區域圖和多重時序圖,是數據讓它們變得有意義了。但在互聯網時代之前,這些數據即使存在也很難收集。
看起來似乎隻要足夠仔細,就能找到關於任何事物的數據。斯蒂芬·馮·沃利(StephenVonWorley)用一份現成的、逗號分隔的文檔算出了全美國毗鄰的48個州中任何一個地點到最近麥當勞的距離,並在地圖上標注了出來。如圖2-5所示,一個區域的顏色越亮,就意味著能越快喫到巨無霸。
像Twitter和Facebook這些流行的社交媒體網站,提供了關於人們談論及關注內容的新的信息來源,很容易可以通過應用程序接口(API)獲取數據。照片分享網站Flickr也有一個很好用的應用程序接口。埃裡克費舍爾(EricFischer)在名為"看圖或說話"(SeeSomethingorSaySomething)的地圖裡集中整合了來自Twitter和Flickr的數據,如圖2-6所示。圖中藍點表示人們在推特發短消息的位置,紅點代表人們用Flickr拍照片的位置,而白點則表示兩者都用的位置。你可以看到人們經常發短消息或拍照(看圖)的地方。這個簡單的想法需要強大的執行力,但結果很美。
從太空這一個更廣闊的視角來看,(NASA)(美國國家航空航天局)使用衛星數據監視地球上的活動。例如,圖2-7是顯示水循環構成動畫中的一幅快照,包括蒸發、水蒸汽和降水。根據這些數據建立的大氣模型可以讓人們看到地球歷史中的重大變化。圖2-8所示"永恆的海洋"(PerpetualOcean)同樣由NASA繪制,它使用了類似的數據和模型來評估洋流。這幅球火災情況的生動地圖可能會讓你想起梵高的"星空"。這是多麼地神奇!大量的數據使這一切成為可能。當然,不斷增長的新數據類型需要比紙筆更強大的新工具來幫助探索研究。
你能用的可視化工具
電腦的引入改變了人們分析和研究數據的方式。借助電腦,你可以在數秒內制作出許多圖表,從多個角度查看數據以及篩選出更復雜的數據集,而不用再像以前那樣隻能用手繪的圖表。現在人們也擁有了更多的數據研究工具。微軟的Excel仍是許多人首選的辦公軟件,它可以完成許多工作,但人們想要使用的方法以及想要研究的深度都正在發生改變。
Tableau是一款非常受歡迎的桌面軟件,可以用來直觀地分析數據。點
擊鼠標就能完成所有操作,不需要編程技術,而且它可以同時處理大量數據,把你徹底解放出來。TableauPublic可用於創建可視化儀表盤,並在網上分享。
同時也有特定類型的可視化桌面軟件。譬如加州電信學院(Calit2)軟件研究實驗室開發的ImagePlot,專門用於同時處理數百萬張圖片,並把它們放在二維空間中,分析數據的不同方面,如顏色和體積(見圖2-9)。
……