李德毅:大数据是连接虚拟和现实世界的桥梁

标签:大数据结构化数据虚拟世界

访客:28560  发表于:2014-04-20 11:37:08

【院士简介】

李德毅,中国电子学会云计算专家委员会主任委员、中国工程院院士,指挥自动化和人工智能专家,他最早提出“控制流—数据流”图对理论和一整套用逻辑语言实现的方法;证明了关系数据库模式和谓词逻辑的对等性;提出云模型、云变换、云推理、云控制等方法用于不确定性认知和云计算,在智能控制“三级倒立摆动平衡”实验和智能驾驶中取得显著成效。

李德毅:大数据是连接虚拟和现实世界的桥梁

               中国电子学会云计算专家委员会主任委员、中国工程院院士李德毅

摘要:在大数据问题上,李德毅院士表示对于结构化数据和半结构话化数据,现有的技术基本能够对付,而对于主要由非结构化数据构成的大数据,怎么实现非结构化数据的价值发现呢?李院士认为可以用这句话“网络交互和群体智能”。我们要把低价值的大数据中的部分东西变成半结构化,进而结构化。

李院士不认为大数据像一般学者讲的从数据到信息、从信息到知识、从知识到智能那么冷、那么理性,他认为大数据重要的是体现价值、发现价值,大数据已经成为连接虚拟世界和现实世界之间的桥梁。

大数据是连接物理世界和虚拟精细地图的桥

李德毅院士介绍了接力导航策略,道内导航并识别前方路口、路口过渡区导航、路口导航这三个导航进行接力循环导航。这个试验遇到一个问题——路口的大数据,大数据成为连接物理世界和虚拟精细地图的桥。北京市现有1900多个大路口,上万个小路口。如果在这些路口精细驾驶的话,这正是路口大数据的价值所在。

如何把流媒体的数据转变成结构化的数据?正是李德毅院士和他的研究团队正在做的事情,他计划利用两年的时间,完成市区的智能驾驶的科学实验。从首都机场航站楼到天安门一共有52个路口,54个路段,按照接力导航的不同策略,分别对它们进行路段导航、路口过渡区导航和路口导航,再视情况加入智能驾驶。

【原文】

李德毅:各位领导,各位同行,各位朋友,一年一度的云计算大会今天又让我们相聚,我们的主题是推动我国云计算的应用与创新。按照习主席“空谈误国、实干兴邦的理念”,我今天想从一个典型的云计算侧面,位置服务,讲一讲如何推动我国云计算、物联网、智慧城市、大数据、大带宽的应用,所以我的演讲题目是“位置服务:接地气的云计算”。

首先讲第一个问题云计算使得我们的地理信息系统走上了飞天之路。这个标题,我在几年前在超储讲过,就是讲地理测绘行业怎么样利用云计算。

在前几次的大会报告里,我曾经用过这样的片子,说云计算是一种基于互联网的大众参与的计算模式,其计算资源,无论是计算能力,还是存储能力,还是交互能力,都将是动态的、可伸缩的、被序列化的,尤其重要的是以服务的方式提供,可以方便地实现分享和交互,并形成群体智能。

今年的报告,当我再看这张片子的时候,我很欣慰,我觉得没有什么要改的。

云计算与定位导航结合,催生位置服务。这种位置服务无人不用,谁都要用,不管你是谁,你都要用。无时不需,24小时,一时一刻不能停。无所不在,在中国的大地上,在海洋上,在天空,在全球。因此,它是一个基础设施。

1994年,美国学者早就提出了位置服务的基本内容,你在哪里、和谁在一起、附近有什么资源,这是我们一个人赖以生存的最基本的信息要求。当今已经变成很时髦的概念,叫“SoLoMo”,综合了社交、位置和移动的特点,使得位置服务成为移动互联网时代最接地气的云计算。

地理信息,我们以前把它叫做地图。地图是一个小行业主要是挂在墙上,印在书本里。到上一个世纪的八十年代,有一个颠覆性的创造,就是地图电子化,把它叫做电子地图。后来把电子信息用结构化数据和半结构化数据组织起来,成为了矢量地图或者是数据地图,因此地图数据库或地图数据仓库成为了有名的大流量的数据结构。

随着导航系统的普遍应用,人人要联网、物物要联网,已经成为地球上任何一个人、任何一个物的基本需求。GPS、北斗,尤其是中国的北斗,发展迅速,已经完全和地理信息系统一体化。今天我相信我们每个人都享受到了这个一体化对我们社区生活的帮助。

地理空间信息数据量很大,地理空间信息的重构,地理工作者做出了巨大的努力。从早期的Google地图,到今天的腾讯、立德、四维、高德提供了各种各样的手机软件,我们享受着他们的服务。无穷无尽的位置服务和延伸的位置服务,使得我们发现生活真的变了。例如说摇一摇,摇一摇周边有没有出租汽车,我要上去,哪怕加一点钱,也能满足我的急需。这种摇一摇已经在我们身边了。北京市搞超农对接、超市和农场对接,如果按照一定平方公里的范围摇一摇,今天哪里有新鲜的油菜,不要送到新发地去,直接送到超市来好不好?这种摇一摇,可以摇朋友、摇俱乐部、摇饭店、摇学校,这种服务多么真实的存在在我们身边。

地图变成人民的地图,大众的地图,已经成为事实。

众包地图里有一个基本的理念,实际上也是云计算的理念,“没有任何动力可以阻碍人们在一起工作”,这就是移动互联网云计算时代给我们带来的便利。于是有了自发的地理信息系统。你觉得这条路好走,发一个帖子上去,让大家跟着你去导航,好不好呢?他贴一个帖子上去,告诉你那个地方在交通管制,这多好。

手机、汽车等移动设备装在各种各样的专门的地理信息系统,并且要求定期更新地理软件的时代已经成为历史。

目前我国存在众多的小而散的地理信息产业孤岛,只能满足简单的地理要素查询,满足行业解决方案。我特别多说一句,好多企业一天到晚提供行业解决方案,现在人家不是要的固定行业,而是要跨行业之间的坐标和功能互换。怎么办?你是地理行业,我要的是周边的小学、幼儿园、有了场所,这就跨了行业。数据不兼容、分享难、互操作难,怎么办?因此必然导致我国地理信息产业在云计算大潮下的建立。

地理信息系统要在不同坐标系之间、不同时代之间、不同语义之间实现地理空间的互操作。你的公司做到了吗?人联网和物联网的发展改变了物联网核心简单、边缘复杂、千人一面的时代,成为网络丰富、边缘简单、交互智能,由形形色色的网络中心组成的云计算支持社会化、集约化和专业化的信息服务,一个个孤立的地理信息系统走上了飞天之路。那些鼓吹私有云的企业们,建议你们跨越结构、共享价值。

云计算走过了理念先行、操作模糊、八仙过海、云里雾里的一段过程。这是几年前在华为的一个发布会上用这十六个字描绘当时的云计算的形式,今天已经成为信息行业的主旋律,给我们的生活带来意想不到的改变,越来越深度服务于各种小众,甚至改变整个大众的、社会的消费形态,位置云首当其冲。

云计算在中国,带宽问题成为当前的短板。在北京,在中国任何一个城市,上网不掉线,几乎不可能。宽带不宽,或者假宽带,就没有云计算。如果千兆BBS进社区,千兆BBS进会议中心,我们的运营商能不能给我们提供最基本的宽带马路?否则云计算在中国将难以解决。

位置服务的云计算中心应该怎样衡量呢?固然可以讨论它的典型价格,但我这里给出了五个外在指标。这个位置服务中心,电力消耗随负载变化的情况,带宽支持一个动态使用的情况,位置覆盖服务的范围以及地理服务的精度、粒度,服务注册用户数量以及在线的微支付能力还有衍生服务能力。各省市的位置服务中心,尤其是测绘系统,像天地图这样要成为国家领头羊的位置服务中心,提供这五个指标供你借鉴。

位置指标,这样的位置服务中心,一年365天,一天24小时都要服务,我认为可靠性要达到4个9,跟最差的电力系统一样,空间要无缝、精度多样、结果要可靠、服务要在线。

我想讲一个典型的云计算案例,叫做定位精度校正服务中心。我们的太空有GPS和北斗,地面有移动通信网络基站,还有测绘部门设立的大地地标点,像北京市就有二十几个地标点,表示这一点的经度、纬度、高度,非常准确。我们能不能用GPS和北斗定位,通过地区性的连续探讨机制进行校正,让这一批GPS接收机能够进行动态查分,使得老百姓访问经度服务中心的时候,用1毛钱把经度、纬度、高度送过去,1毛钱还回来,使得精度从原来的100米提高到1米。

目前GPS给的精度是25米,这个25米并不是最大误差,按照3∑的准差叫75米。再加上设计的情况,我们发现我们在主路,它说在辅路。我们很多人都需要这种定位服务,起码可以解决老年人的寻找问题。给老年人带上一个设备,就可以知道他的经度、纬度、高度,误差不过1米。老人需要,孩子也需要,很多很多人需要。

第二个问题,物联网强项的管理问题,智能驾驶。智能驾驶是云计算、物联网、智慧城市这三个战略性新兴产业中的重要一点。没有位置服务,哪来智能驾驶。没有智能驾驶,你的车上还要什么网?车子是每小时几十公里的速度,并不是非常快的。这样的物联网都做不到,哪来智能交通和智慧城市呢?我觉得我们应该按照实干兴邦,首先把中国的位置服务、导航定位服务搞起来。

我的课题组在智能驾驶上已经走过了将近十年的道路,从结构化的道路上走过了北京和天津。目前我们正在市区道路做实验,我们把它叫做半结构化道路。将来还要在特殊道路和特殊气候条件下做智能驾驶,我们把它叫做非结构化道路。

每个人开车的时候,已经有不同程度的智能驾驶在帮忙,例如自动巡航、倒车辅助设备,我们希望轮式机器人是可以对话的,你在上面玩玩游戏,智能办公了。我们还希望轮式机器人是节能的,是能够买得起的。我们还要个性化、自学习的轮式机器人。我们还希望机器人之间构成一定的交通模式,例如公路火车,来减少路权,改善拥堵。

驾驶是快乐的享受,自动驾驶和人工驾驶两种状态会长期共存,相互补充,自然交换。

交通规则是人的交通行为的长期积淀,体现了社会文化。交通规则的修改是一个渐进的长期过程。

道路的信息化也是很重要的事情,但这两件事情比起改车来说,可能速度要慢一些,因为涉及到整个社会的变化。

在我们的智能车上,有摄象头,有多种摄象头,有的看车道线,有的看行人,有的看交通台,还有雷达,主要是激光雷达、毫米波雷达、红外雷达和超声雷达,它覆盖这辆车周边的路权。

我们全国,像这样的智能驾驶实验大概有100辆车,部署在各个高等学校以及研究单位。尤其重要的是全国地理信息系统,大概有1千辆地理信息测量车,它们也是安装这些传感装置,因此我们有很好的基础。

这些图片都是参加智能车比赛的大学、研究所,以及地理信息测量车。一般的像高德、四维,他们搞一个地理测量车,那个车的成本是250万一辆。智能驾驶车的成本,我们希望控制在100万元以下。

我们的策略是把智能驾驶分三个部分,一个是自主驾驶,解放驾驶员的低级、烦琐、经常、持久的驾驶动作。另外一个最重要的,是靠云计算的位置服务形成主动导航。我们希望把云导航变成在线的实时的导航。另外,我们可以用触摸手机或者是语音进行人工干预,表达到达目的地以及处置特殊情况。

已经完成的城际智能驾驶实验。城际道路,尤其是中国的城际道路,结构化是相当漂亮的,像北京到天津,路是新的,交通指示牌也是比较规范的,没有红绿灯,没有行人道,主要依靠智能驾驶。

京津高速公路101公里,我们走了18次,累计行驶1万多公里,这是我们第14次实验的新闻报道。

(视频)

我们写了非常详细的实验报告,这是第14次的实验结论。我们用了一个摄象头,就把北京到天津的导航解决了。用了一个视线雷达,解决了自动驾驶。很多人替我们高兴,说我们跑成了。我个人觉得更高兴的是我们用简单的雷达跑成了。自动控制转向18020次。平均速度每小时90公里。大家知道,天津到北京最高限速120公里。后来有首长提出来,要考虑到节能的问题,我们修改了软件,到第18次的时候,有了油耗、油门操作,油门操作1816次,油耗9.69L,等于零尽量松油门而不是踩刹车,这是我们的节能措施。

目前我们正在进行市区的智能驾驶实验。这个情况就复杂多了。正常的市区道路是这样的,这怎么办?摄象头看不到车道线,被很多车挡住了,怎么办?车道线在路口,根本没划出来,怎么办?立交桥怎么办?

我们把市区道路叫做半结构化道路,行人与车流混杂,这两种干扰到车辆运行,闹区和城乡接合部差别明显。我有一次到北京郊区去做实验,还差一点出了危险。

目前我们想用组合导航,云计算环境下的组合导航是基于卫星定位技术、地理通信、地理信息、惯性导航等手段而发展起来的组合导航。

GPS一秒钟只给一个点,一秒钟要走10米,给一个点,太少了。能不能多给几个点呢?马上说拿钱来,可以给50毫秒一个点,100毫秒一个点,钱就上去了。再细一点,真正做组合导航的时候变成一个推委导航,我们纠结了很长时间。智能驾驶究竟能够做到什么?云计算位置服务究竟能够做到什么?主动导航的主动权交给谁?

经过半年的努力实验、分析,跟这些位置服务公司的工程师们协商、讨论,我们终于找到了办法,叫做接力导航,把路口识别、路口过渡行驶和路口动静三件事情区别开。在道路里走的时候靠摄象头和雷达形成虚拟中心圈,同时用GPS接收机探测前方的路口,叫做路口识别器。快到路口之前,一定有一个比路口更复杂的路口过渡区,利用交通指示牌和地上的交通指示导航,进入相应的车道。过了路口,靠精细地图导航。然后再到道路里面之后,再用道路导航。所以我们是不断地交换接力棒。现在这个实验正在进行当中。

在实验当中,我们发现一个新的问题,那就是路口的大数据。我在总参信息化部工作,我住在万寿路,走了一辈子万寿路,但我不知道它到底是什么结构。我们可以利用大数据成为联系物理世界和虚拟精细地图的桥。万寿路是什么样的路口,我们需要信息支持。我们利用四维的车辆进行了测量,万寿路由东向西6个车道进,5个车道出,这就是信息和信息技术使得我们需要大数据。我们找到万寿路地下线缆的设计图。万寿路口无车道线的面积4143平方米,这样一个流媒体的大数据怎样变成半径化的,乃至结构化的数据。

在这样一个万寿路口需要由南向北行驶,诱拐有4个选择,前行有5个选择,左拐有5个选择。我和我的研究团队们,最开始对万寿路口进行干预,把这个大数据提炼半结构化和结构化的数据,规定了由南向东右转、由南向北执行和南向西左转以及拐弯的具体路径。

将来,谁来提供智能驾驶的详细的位置信息?谁来提供碎片化的路口在线位置服务?如何体现云计算环境下位置服务的市场竞争?这些问题都给我们提出了新的机遇,也是新的商机。

北京市现有1900多个大路口,上万个小路口。如果在这些路口精细驾驶的话,这正是路口大数据的价值所在。

我们打算利用两年的时间,完成市区的智能驾驶的科学实验。我们从首都机场航站楼到天安门。我们分析了一下,一共有52个路口,54个路段,按照接力导航的不同策略,分别对它们进行路段导航、路口过渡区导航和路口导航,再视情况加入智能驾驶。

我们想象将来的轮式机器人和乘员都可以和网络位置服务中心交互,自发地理信息可以利用工具组装和上传个人自愿提供的位置数据。感兴趣的位置的标注和推荐,从小众到大众,形成了群体智能。我很欣赏一句话“大家团结在一起没有什么不可能的”。

云计算支撑大数据发现价值。有个学者告诉我云计算和大数据是根本不同的两回事。还有个学者告诉我大数据是一种新型的云计算。大家想一想几十年来从DB到BD的研发过程。我本人在英国留学的时候,我本人的论文就是XLDB。后来参加一个学术会议,会议的名字改了又一改。到了新的实际,两个字调了过来,变成BD。

DB和BD有什么不同,我这里列了十个不同,供大家参考。大数据是TB级,乃至PB级,甚至更高。前者是高质量,较干净,数据价值密度高,确定的、完全的,强结构的,由上而下,而且是考虑在线处理能力的。大数据确实在十个点上跟它有所不同。

如果说结构化数据,我们有现成的技术对付它,我想典型的代表技术就是数据库和数据仓库技术。半结构化技术,有的技术就是超文本、超链接、搜索引擎。

对于大数据怎么办呢?大数据里面最主要的是非结构化数据,怎么实现非结构化数据的价值发现呢?我自己认为可以用这句话“网络交互和群体智能”。我们要把低价值的大数据中的部分东西变成半结构化,进而结构化。

大数据整天和我们在一起,就像一首歌讲的。想在北京的街道里开一家门帘宽过5米的商店,而不被高德公司记录在案,不是容易的事情。想在北京开车出门吃顿饭,而不被摄象头记录5次以上,也是不容易的事情。

我个人认为大数据不是一般学者讲的从数据到信息、从信息到知识、从知识到智能那么冷、那么理性,更重要的是体现价值,发现的价值。

大数据成为连接虚拟世界和现实世界之间的桥。我最近参加了百城上线的活动,你只要点一下这个建筑物,就可以告诉你这个建筑物离你有几米的距离。

我们学者是崇尚科学的,科学在某种程度上解决的是形而上的东西。我们工程师是崇尚能力的,实际上是解决怎么办的问题。在上个世纪的前半叶,一位伟大的数学家图灵先生写了一篇文章叫《图灵模型》。我们为天才的图形模型的发行人获得了图灵奖。上个世纪的上半叶,科学起了很大的作用,科学引导了技术的发展。

这个世纪,情况变了,首先我们把计算机用一个面向无链接的IP协议把它联在一起,变成了互联网,甚至变成了移动互联网,这造成了云计算。它的科学是什么的?人们都在苦苦地思考,想不出来。于是起了一个名字,叫做网络科学。在云计算支撑下的大数据,它对应的形而上是什么呢?人们又在苦苦思考,又想不出来,又想了个名字,叫数据科学。这就告诉我们科学常常是技术的先导,但是,反过来,技术也可以成为科学的先导。

传统的科学研究更多的是研究中的实践,靠的是科学家的个人或天才,以假象驱动。科学的发现就是理论和模型,在实践中一个个的被验证。新的科学理论模型纠正或者扩大了早先的发展,像爱因斯坦的相对论,也分狭义和广义。新的科学发现又在实践中一个个被验证。

《自然》杂志公开提出PB时代的科学是什么。出现了互联网环境下各种各样开源、开放的合作社区,众包、分享、互动和群体智能成为常态,人人都是传感器,既是数据的使用者,也是数据的开发者;既是数据的消费者,也是数据的提供者。形成了群体智能。

因此,我们需要在实践中研究,要实干兴邦。数据可以表示人和大自然众多的层面,这种表示多得不得了。我今天讲的位置服务,实际上除了地理数据,还有气象数据,还有生命科学数据等等,太多太多,在我们人工智能领域,情感可以用数据来表示,数据是死的,充满不确定性。人对一个现象的研究可以用大数据、各种层面的表征,这一条检阅了是什么的问题。科学家都要研究自然和人本身,首先要表达的就是数据的表征和表达。

数据产生价值,满足服务需求。数据的产生首先要求的是发现价值,满足我的需求,满足我从万寿路拐弯怎么拐,而不是解释为什么。也未必发现很冷的、很宏观的知识。

人们更多的从相关性,而不是从因果性做出理论和决策。现在的生命医学告诉我们要个性化。数据关联,多人,乃至多联体、多群体的关联形成群体的智能,不是得一个病,大家都吃同样的药,每个人的病灶虽然是一样的,但用药是不同的,这叫个性化用药。

通过不同的小众聚合形成大众,通过交互和挖掘才能发现普世价值。因此,大数据引发了一些新的理念,我这里指出三点跟大家分享。

第一,实践中的研究也许胜过研究中的实践。尤其希望中国的科技工作者在这样一个信息技术革命提供了如此好环境的情况下面向实际问题进行研究,不要过分追求ICCI。

第二,较多的数据也许胜过了较好的算法。我们认为算法是模型,模型就是科学。但是,较多的数据可能比较好的算法要好。

第三,由上而下,也许胜过由下而上。

谢谢大家!

评论(0)

您可以在评论框内@您的好友一起参与讨论!

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");