鲜活的数据 数据可视化指南
数据不是什么新鲜玩意。早在几个世纪之前,人们就开始对数据进行量化分析并为之绘制表格了。然而在为FlowingData(我创建的一个有关设计、可视化和统计的网站)写作时,我发觉这一领域在过去数年间出现了爆炸式的发展,而且未来还会更加蓬勃。科技的进步使得收集和存储数据变得轻而易举,而互联网则让我们摆脱了时间和空间的束缚。如果运用得当,这种数据的“财富”能够提供丰富的信息,帮助人们更明智地制定决策、更清楚地传达理念,而且能让我们以更为客观的角度去审视自己对世界和自身的看法。
随着2009年年中Data.gov网站的上线,美国政府数据公开化进程发生了一次重大转变。这是一套综合的数据目录系统,由各级联邦政府机构提供,表现出各组织及官方的透明度和责任感。比如说,国民有权利了解政府把税收收入都花在了哪里,而在此之前美国政府给人的感觉就像一个黑箱。Data.gov上的很多数据其实在许多网站中都能找到,但现在它们都被会聚在一起,而且有着统一的格式,更加便于人们进行分析和可视化。除了Data.gov之外,联合国也有类似的网站UNdata,英国很快也发布了Data.gov.uk,而像纽约、旧金山和伦敦等全球许多城市也都参与到了数据公开这一潮流中来。
如今的网站也变得越来越开放,有数千个API(应用编程接口)在鼓励和“怂恿”着开发人员去调用网站已有的数据做各种事情。比如Twitter和Flickr就提供了覆盖面极广的API,开发人员可以自由定制与网站本身完全不同、五花八门的用户界面。API编目网站ProgrammableWeb目前已收录超过2000个API(1)。诸如Infochimps和Factual这样的应用最近也大量涌现出来,它们存在的目的就是向人们提供结构化的数据。
在个人层面,我们可以在Facebook上结交朋友,在Foursquare上分享所在的位置,或者在Twitter上发布自己的最新动态,这所有的一切都只需要点击几次鼠标或者敲击几下键盘就能实现。一些针对性更强的应用则方便我们记录品尝过什么美食、体重几何、情绪高低等林林总总的事情。几乎可以这样说,只要你想对自己的某个方面进行追踪,就会有这样一款应用来帮助你实现愿望。
数据就静静地待在我们生活的每一个角落。园子里已经果实累累,正等待着我们去采摘。对大多数人来说,真正有意思的并不是数据本身,而是数据背后蕴涵的信息。人们都希望知道他们的数据有何意义,而如果你能帮助他们,那么你就会大受欢迎。难怪Google首席经济学家Hal Varian会说统计学家将是未来十年内最迷人的职业,而这绝不仅仅是因为统计学家长得好看(尽管以极客们的别样眼光来看,我们确实长得让人赏心悦目)。
可视化
要想探索和理解那些大型的数据集,可视化是最有效的途径之一。把数字置于视觉空间中,我们的大脑或者读者的大脑就会更容易发现其中潜藏的模式。人类对图形的理解能力确实很强,往往能够从中发现一些通过常规统计方法很难挖掘到的信息。
John Tukey是我最喜爱的统计学家,也是探索性数据分析理论(Exploratory Data Analysis)的缔造者。他精通各种统计方法和工具,而且深信图形技术在其中亦占有一席之地。他坚信,图形的呈现方式会让人们得到许多出乎意料的结果。只需对数据进行可视化,我们就能从中发现大量信息,而且很多情况下这也是我们制定明智决策或描述复杂事件所需要的唯一手段。
比如说,在2009年美国的失业率遭遇了一次大幅增长。2007年的全美平均失业率是4.6%,2008年上涨到了5.8%。而到了2009年9月,突然就攀升至9.8%。但是这些全国平均数字只揭示了事件的一部分,它们只是概括了整个国家的总体状况。有哪些地区的失业率高于其他地区?又有哪些地区并未受到很大波及?我们无法从中获得答案。
图0-1用一系列美国地图更为完整地说明了情况,而且我们只需略扫一眼就能回答上面的问题。颜色较深的县失业率相对较高,而颜色较浅的县失业率较低。在2009年的地图上(图0-2),我们可以看到美国西部和东部大多数地区的失业率都超过了10%,而中西部地区则未受到太大影响。