大数据可视化的新进展

标签:大数据

访客:62388  发表于:2016-06-16 12:49:55

大数据与可视化

Intetix Foundation(英明泰思基金会)由从事数据科学、非营利组织和公共政策研究的中国学者发起成立,致力于通过数据科学改善人类社会和自然环境。通过联络、动员中美最顶尖的数据科学家和社会科学家,以及分布在全球的志愿者,我们创造性地践行着我们的使命:为美好生活洞见数据价值。

原文:Big Data and Visualization: Methods, Challenges and Technology Progress

原作者:Lidong Wang 工程技术部门,美国密西西比州谷州立大

Guanghui Wan 国家严峻天气重点实验室,中国气象科学院

Cheryl Ann Alexander美国技术和医疗保健公司

摘要:在简化数据量和降低大数据应用的复杂性中,大数据分析发挥着关键的作用。可视化是其中一个重要的途径,它能够帮助大数据获得完整的数据视图并挖掘数据的价值。大数据分析和可视化应该无缝连接,这样才能在大数据应用中发挥最大的功效。这篇文章将介绍一些常规的数据可视化方法以及在大数据应用领域突破常规的可视化手段,也会讨论大数据可视化带来的挑战,同时介绍大数据可视化领域新的方法、应用程序以及其技术的进步。

关键词

大数据 可视化 交互式可视化 虚拟现实 网络 云计算 信息技术 电信系统

一、引言

数据可视化是将数据以不同形式展现在不同系统中,其中包括属性和变量的单位信息[1]

。基于可视化发现数据的方法允许用户使用不同的数据源,来创建自定义分析。先进的分析集成了许多方法,为了支持交互式动画在台式电脑、笔记本电脑或平板电脑、智能手机等移动设备上创建图形桌面[2]。

大数据可视化的新进展

显示了数据可视化的好处。

对于可视化有以下几点建议[4]

大数据是大容量、高速度并且数据之间差异很大的数据集,因此需要新的处理方法来优化决策的流程。大数据的挑战在于数据采集、存储、分析、共享、搜索和可视化[5]

1、“所有数据都必须可视化”:不要过分依赖可视化,一些数据不需要可视化方法来表达它的消息。

2、“只有好的数据才应该做可视化”:简便的可视化可以便于找到错误就像数据有助于发现有趣的趋势一样。

3、“可视化总是能做出正确的决定”:可视化并不能代替批判性思维。

4、“可视化将意味着准确性”:数据可视化并不着重于显示一个准确的图像,而是它可以表达出不同的效果。

可视化方法可通过创建表格、图标、图像等直观地表示数据。大数据可视化并不是传统的小数据集。一些传统的大数据可视化工具的延伸虽然已经被开发出来,但这些远远不够。在大规模数据可视化中, 许多研究人员用特征提取和几何建模在实际数据呈现之前大大减少数据大小。当我们在进行可视化大数据时,选择合适的数据也是非常重要的[5]。

本文的目的是通过介绍传统可视化方法及其在处理大数据时的扩展方法,来展现大数据可视化的前沿技术。同时讨论大数据可视化的挑战,并其取得的进步。

在研究过程中,笔者首先寻找了近几年通过大学图书馆系统发表的数据可视化相关论文。此阶段笔者主要总结了传统的数据可视化方法和该领域的新进展。随后笔者搜索了相关大数据可视化的论文,因为大数据是一个较新的领域,所以大多数的论文是在过去三年里发表的。同时笔者发现大多数传统的数据可视化方法并不适用于大数据,用一些从传统的可视化中发展而来的方法来处理大数据也是远远不够的。笔者着重关注大数据可视化的新方法、技术的进步和大数据可视化的工具开发以及随之而来的挑战。

二、常规数据可视化方法

许多传统的数据可视化方法经常被使用,比如表格、直方图、散点图、折线图、柱状图、饼图、面积图、流程图、泡沫图表等以及图表的多个数据系列或组合像时间线、维恩图、数据流图、实体关系图等。此外,一些数据可视化方法经常被使用,却不像前面那些使用的广泛,它们是平行坐标式、树状图、锥形树图和语义网络等

平行坐标被用于绘制多维度个体数据。平行坐标在显示多维数据时是非常有用的。图1就是平行坐标;树状图则是一种有效的可视化层次结构方法。每个子矩形的面积代表一个测量,而它的颜色常被用来代表另一个测量的数据。图2显示了一个选择流媒体音乐和视频的树状图,是在一个社交网络社区获得的数据;锥形树图是另一种显示分层数据的方法,如三维空间中的组织体,它的树枝是锥生长的形式;语义网络是一个表示不同概念之间的逻辑关系的图形。它生成有向图,组合节点或顶点,边或弧,并在每个边上做标记[1]。

可视化并非仅仅是静态形式,而应当是互动的。交互式可视化可以通过缩放等方法进行细节概述。它有如下的步骤[1]:

1、选择:交互式根据用户的兴趣选择数据实体或完整的数据集,以及它的子集。

2、链接:在多个视图找到有用的信息,如图3所示。

3、过滤:帮助用户调节显示的信息量,减少信息数量并且专注于用户感兴趣的信息。

重排或再映射:空间布局是最重要的视觉映射,重排信息的空间布局对产生不同的见解非常有效。

评论(0)

您可以在评论框内@您的好友一起参与讨论!

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");