辨析气象大数据

标签:大数据气象大数据沈文海​

访客:31459  发表于:2015-12-15 10:41:16

如何认识大数据,大数据是否适用于气象部门,以及适用于哪些领域,是气象部门决策机构需要思考、分析和综合归纳的问题,因为厘清这些问题有助于避免工作中的盲目性并减少失误。

辨析气象大数据

                                        NMIC 沈文海

从应用看数据

数据是服务于应用的,大数据也不例外。

当一个新的应用出现,现有业务数据无法满足其数据需求时,必须寻找新的数据源。在寻找过程中,如果自行采集数据能够满足需求,且成本能够接受,则采取该方式是最好的选择,因为采集的过程和方法受需求者控制,所采集的数据最接近需求(如“十一五”、“十二五”期间气象部门建设的全国天气雷达站网及遍布全国所有乡镇的地面自动气象站等)。

而当自行采集的成本过于昂贵,以致无法承受时,选用替代数据便是将工作继续进行下去的唯一选择了。

以往信息相对贫乏的年代,可供选择的合适的替代数据不多,许多工作因而无法开展。互联网时代信息量暴增,替代数据的选择范围有了很大改善,使得许多过去无法开展的工作,现在有可能开展起来了。

然而,由于这些替代数据自身不是因本需求而产生的,故不可避免地存在诸如体量虽大但针对本需求所需的信息稀薄,信息质量不高,故难以得到确切结论,许多现象和结论难以解释等痼疾。

于是,“是全体数据而不是样本数据、是模糊结论而不是精确结论、是相关关系而不是因果关系”的大数据的理念和方法由此产生。

从应用的角度评价大数据,我们可以得出以下结论:

虽然就数据血统而言,大数据在实际应用中往往不属于专为本应用采

集的血统纯正的数据,但它的存在和被使用却是使得众多创新应用得以实现。因此大数据是资源。

当今新的时代已经进入信息经济和知识经济的新时代,这是一个以信息和知识为基础的经济,是一个在更大程度上依赖于在生产、分配和使用等各个环节中知识和信息所作贡献的新的经济。因此大数据是新的生产力要素。

大数据可能提供有价值的参考信息,包括:

■大数据可能为政府的科学决策提供有价值的参考信息。

■大数据可能对企业的业务改进提供数据支持和信息支持。

■大数据可能为一些社会科学领域的学科研究提供有价值的信息。

■大数据甚至有可能对自然科学研究中的一些新的科学机理的发现提供参考信息。

与此同时,不能指望单靠大数据就能全面提高政府决策水平。因为决策依赖于多方面信息的综合,大数据只是提供信息的途径之一,仅靠它是无法解决政府决策的诸多问题的。

高层决策主要面对的是诸多不确定性环境,需要广阔的视野与丰富的经验。深厚的历史背景、细微的地缘差异、复杂的宗教派系之争以及民族间的矛盾等,这些因素交织在一起,关系复杂而头绪繁多,远非数据统计分析那样简单。

大数据能够为行政决策提供一项或多项较为准确的参考信息,改善影响决策的信息的质量,但信息的综合和最终的决策必须依靠人。

另外,大数据不可能直接解决科学机理问题。从大数据“模糊而非精确”、“只求相关而非探究因果”的理念可以看出,大数据只关注于现象之间的关联性,但不探究这些关联背后的因果关系,但求知其然,而不愿,甚至不屑探究其所以然。

之所以如此,是与大数据的理论构建者所固有的对世界的认知:“混乱构成了世界的本质,也构成了人脑的本质”的哲学观所决定的。

本文无意在此探讨哲学问题,但由此可以推断:就认识论而言,大数据属于经验主义范畴,它无法直接解决科学问题,尤其是以科学机理(即所谓因果关系)为核心的气象预报科学问题。

在气象理论研究领域,大数据可能的贡献在于提供参考信息(如具有一定关联度的气象要素组合等),以供气象科学家们分析研究。

数据的管理和处理技术不是问题

就数据本身而言,气象大数据是指所有与气象工作相关的数据总和;从来源渠道划分,气象大数据可分为“气象行业大数据”和“气象互联网大数据”两类。

其中,“气象行业大数据”由与气象部门各项工作相关、且产生自气象部门内部的所有数据组成,包括由气象部门建设的、具有国内最高专业水准的气象探测体系所产生的气象专业探测数据,其他部门自行采集、通过数据共享/交换等方式汇聚到气象部门、且经过气象部门严格质量控制的气象要素探测数据,由气象业务部门和业务系统产生的各类气象服务产品数据、派生数据及中间产品数据,职能部门各管理系统(如财务系统、人力资源系统、项目管理系统等)所产生和管理的数据,各业务和管理系统的状态数据和日志数据等。

“气象互联网大数据”由互联网上与气象相关的所有数据组成,包括移动终端搭载的气象要素传感设备的探测数据,网友随手拍并上传的天气状态照片,搜索引擎对气象相关敏感词的统计分析数据,其他所有可供气象部门业务和服务应用的互联网数据等。

“气象行业大数据”与“气象互联网大数据”间存在很大差异,简言之,“气象行业大数据”属于气象业务数据,其生成的直接目标是服务于气象业务和工作的,故其气象信息浓度高、各种技术指标亦最为符合气象业务和工作的各项要求。“气象互联网大数据”则不然,它不是专为气象工作而生成的,它产自于其他非气象部门的行业、企业,是为满足这些行业和企业自身业务目标而生成的。这些数据之所以被纳入“气象互联网大数据”的范围,是因为这些数据包含有与特定气象应用相关的信息内容,而这些内容是气象行业大数据所缺乏的;也就是说,这些数据是为弥补气象行业大数据在内容和时空密度等方面的不足而从互联网上收集来的;故其气象信息的浓度、数据质量等参差不齐,各项技术指标也往往差强人意。

即便就气象要素而言,两者之间也存在明显差异。从性质上考察,气象行业大数据属于“气象业务数据”范畴,即每类数据都有其特定的使用目的、使用对象及数据形态,且所有数据的初始目的都是围绕满足气象部门自身运转所特有的数据需求的。

从体量上衡量,“气象行业大数据”虽可勉强跻身大数据行列(PB级),但较之互联网公司而言,仍有至少2~4个数量级之间的差距。以目前业界现有处理技术,完全可以满足“气象行业大数据”在分析处理方面的时效要求(数值预报除外)。因此对于“气象行业大数据”而言,单纯的管理和处理技术不是问题所在。

不是提高预报准确率的终南捷径

将大数据理念和方法全面应用到气象部门,在部门内开展气象大数据工作,能否有效提高预报准确率,这是我们首先必须正面回答的问题。

观测数据和科学研究是气象学科的主要支撑。如果没有气象科学家天才卓越的分析研究成果,气象观测资料便仅仅是一堆天气现象的记录数据。因此对于气象学科而言,观测数据/产品和科学分析研究,二者缺一不可。

气象业务的现代化水平最终体现在气象预报的准确率,所追求的恰恰就是精确和及时。如果不掌握天气变化的内在规律,单凭现象要素之间相关性的强弱,是很难达到及时精确预报的要求的。

“大数据”所推崇的统计分析方法,气象部门早在数十年前便已悉数使用,并不陌生。

但这并不意味着气象部门在该领域的科学研究止步于此。事实上,目前基于动力框架的气候数值预报模式(尤其是集合预报模式等)等方法一直在积极地试验和尝试使用之中,目的就在于探索能够有效发现气候变化规律的路径和方法——虽然气候统计预测方法仍在使用之中。目前数值天气预报和数值气候预测中所大量采用的集合预报方法,就是“因果”与“相关”、机理与统计之间有机结合的一种尝试。

与一般大数据所使用的数据源不同,气象行业大数据中的气象观测数据及产品是专门为气象预报业务工作而采集的,其时空分布、数据质量及其他各种技术指标最符合气象业务的各项要求,气象业务所需信息的浓度也最高。

比较而言,气象互联网大数据的气象信息密度不高,数据质量也难以保证,其他技术指标更是难以保证满足气象应用的需求。因此,从气象行业大数据中的气象观测数据和产品产生出来的统计分析结论以及学科科学机理的发现是具有权威性的。就预报准确率而言,气象观测数据/产品是所有数据中最重要的贡献者,气象互联网大数据是它的补充而绝非替代者。

大数据理念和方法并非提高预报准确率的终南捷径。当然,笔者并不否认大数据方法在客观预报产品解释应用方面对预报效果的改善有所帮助等正面作用,但这终究是辅助性、修饰性的,不是提高预报准确率的根本途径,且效果难以具体量化。

追求预报准确率只能靠观测数据和产品在时空密度和质量上的不断提高以及科学家们辛勤的分析研究。对提高预报准确率贡献价值最高的仍然是气象观测数据及产品,因此研制出高质量、高时空密度的气象观测产品数据,仍将是提高预报准确率以及气象科学研究最重要的基础性工作。科学研究工作,没有捷径可走,在这里“工匠精神”永远不会过时。

价值分析

气象部门之所以引进大数据理念和方法,并非为了大数据而大数据,而是为了解决实际工作中存在的问题。因此,气象大数据必须以业务和工作需求为引领。当业务或工作中出现的问题没有合适的数据信息,或者虽有数据但常规处理方法无助于问题的解决时,气象大数据也许是一种可以尝试的解决途径。

“气象行业大数据”产生自气象部门,是气象部门赖以运转的最主要资源,同时也是气象部门各项工作的记录载体,在所有数据资源中,它所含有的气象信息最浓;故其应用领域首先应在于气象部门业务工作的有效运转,其次才是社会服务。“气象行业大数据”潜在价值的挖掘和发挥,也应当以提高气象部门工作能力为首要目标。用好“气象行业大数据”,是开展气象大数据工作的重要内容和检验指标。

与此同时,“气象行业大数据”与“气象互联网大数据”之间的有效融合,有可能大幅提高气象观探测的时空密度。

数据是为应用服务的,气象大数据必须将业务和工作做为最主要的引领。气象大数据战略的首要内容,不是数据的收集、数据源的拓展以及海量数据的管理技术,而是气象工作的持续创新。在技术创新、原理创新、概念创新和思想创新的氛围中,不断涌现出新的应用,根据新应用在信息和数据需求方面的特点,充分发掘现有数据资源的价值,同时有针对性地寻找并拓展新的数据资源,合理运用大数据有关技术,处理并提炼出新的有价值的信息,以推进创新的不断实现。与此同时,由于创新本身是不同概念之间的有机连接和融合,多角度的观察会增加概念连接的机会,大数据所固有的关联分析以及由此产生的相关事物的现象信息,对开拓概念连接的范围会有所帮助,对气象部门在新形势下的创新当有所裨益。

于是,初始创新启动大数据应用,大数据应用促进新的创新——这应该是气象大数据战略的基本轮廓。

评论(0)

您可以在评论框内@您的好友一起参与讨论!

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");