【张卡尔面对大数据 - 02】 维基一下大数据 (1)

标签:大数据数据管理CIO阅读数据库数据处理并行计算

访客:34225  发表于:2012-12-15 14:07:52

如今是知识大数据的年代,学科交叉碰撞,新概念新技术新时尚层出不穷。过滤这些大知识的好起点,当推维基百科。那么,维基如何解读大数据?

     “巨量資料(big data),或稱大數據,指的是所涉及的資料量規模巨大到無法透過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。”

     这么个大话题,只是这么一段话? Is that all there is? Come on。维基不至于这么惨兮兮。再说,这个也不对。大数据不只是用来帮助企业经营决策的。擷取?这个词我都不会念。感觉上面特文雅特专业。这段话一定是台湾人手笔。

    先跑题一下。一个我一直不明白的现象。维基的英文内容非常翔实、专业,可读。但是相应的中文内容往往草草了事,不求甚解;甚至错误百出,不忍卒读。这个有关大数据的词条就是一个鲜活例子。中文就是上面酱紫一句话,还经不起推敲。英文的版本,人可是洋洋洒洒多章节的一篇大文章。这是为什么呢?求解答。

     回到正题。维基的解释,分为这么几个章节,1.定义;2.例子;2.1. 科学和研究;2.2.政府; 2.3. 私营行业; 3. 市场; 4.技术; 研究活动; 6. 批评观点; 7. 也见; 8. 参考文献; 9. 进一步阅读, 下面的内容,是根据维基大数据话题的开场白部分,这还不在这些章节之中。

     大数据是指这样的一套数据集合,他们是如此巨大和复杂,以至于变得难以用手头的数据管理工具或者数据处理应用进行处理。其挑战包括了获取、标注、存储、搜索、分享、分析和可视化。如果同具有同等数据总量的一些分离的较小数据集合一起相比较,(使用)更大的数据集合的这种趋势是由于分析相关数据的单个大集合所产生的附加信息。这就使得可以发现相关性,以界定商业趋势、确定研究质量、防止疾病、连接法律援引、打击犯罪、判定实时的道路交通情况。IBM制作的关于维基百科的文字的可视化

     目前(2012年),在合理时间内可行地处理的数据集合的大小的极限是在伊字节的数量级上。科学家们频繁地在许多领域遇到大数据集合的这种尺度局限,这包括气象学、基因组学、神经联通学(connectiomics,这个中文翻译是我杜撰的。维基里面居然还没有这个学科的中文内容。郁闷)、复杂物理模拟、生物和环境研究。(对了,这几天e行网上热议的上帝粒子就是酱紫的一种科学问题。) 这种极限也同样影响了互联网搜索、金融和商业信息学等。数据集尺度增长的部分原因是越来越多地使用无处不在的信息感知移动装置、空中感知技术(遥感)、软件日志、照相机、麦克风、射频ID读取器、无线感知网络等来收集数据。自1980年代以来,世界上每人都技术上的信息存储能力大约每40个月翻番。2012年,每天会创造出2.5 quintillion (百万x百万x百万,也就是10的18次方。唉,这个词汇居然又是有维基英文没有维基中文)之多的数据。

     很难使用关系数据库和桌面的统计和可视化软件包处理大数据。处理大数据需要在数以十计、百计乃至千计的服务器上面运行的大规模并行软件。认为什么是大数据也依相对的能力而不同。这包括了管理数据集的组织的能力,和传统上用来处理和分析所在领域内的数据集合的应用的能力。对于某些组织,第一次面对几百G的数据就可能会触发重新考虑数据管理选择的需求。对其它人,可能需要几十甚至几百T的数据才会成为一个认真的考虑。(嘿嘿,这个话题,e行网上的CIO们已经在讨论了)。

评论(2)

您可以在评论框内@您的好友一起参与讨论!

    1. 徐蕊 这一系列,您做完,价值就大大的。因为可以正向引导大家对于大数据的理解,和他的源意。什么东西进来了,肯定要变味儿的

      回复[2] 2012/12/17 09:27

    1. 张嘉奕 感谢张总分享,文章已推送至e行网“热点精华”页面~

      回复[1] 2012/12/15 17:43

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");