方国伟:互联网存储服务:AmazonS3

标签:互联网存储服务存储大会

访客:32902  发表于:2014-06-19 11:32:24

主持人:谢谢黄总的演讲,我们非常感谢黄总。今天早上有两个比较热闹的话题,我刚醒来的时候看到西班牙出局了,接下来有一个要演讲的公司发布了一款硬件神器。接下来有请亚马逊中国首席云计算顾问方国伟先生为我们大家带来演讲。他演讲的主题是互联网存储服务:AmazonS3,谢谢。

方国伟:AmazonS3不是我的演讲主题,那是一个手机。之前更多从存储设备角度来讲,对客户来讲他要做的事情是放数据,就是增值服务。亚马逊这个公司有主持人讲到的AmazonS3手机。我们业务上面还有很大一块做云计算的,就系亚马逊云计算服务。我今天演讲会讲亚马逊云计算平台上专门针对的对象的增值服务就是AmazonS3。我们数据非常多,现在是数据化生成,不光是你人工生成,当然这些人工生成是分散的,要保存下来。随着互联网发展,越来越多的人使用互联网服务,越来越多的数据被保存下来,量越来越大。下一个是设备生成,或者是计算机生成,那个数据小得多。随着物联网、移动互联网的发展的话,设备的数量远远超过上网人的数量,这个量非常大。我们看到无论是从物联网里面各种各样的传感器,你的监控摄象头,产生的数据量是非常之大。

我们知道大量数据产生是跟网络有关系,我们说移动互联网也好、互联网也好,他的背后有很大的数据量。云计算是一个存储很大的量,现在移动互联网大家都看到第一个例子就是在线视频,视频的流量非常大,NETFLIX是美国的视频服务商。在北美视频观看的高峰的时候,之后网络流量非常大,视频高峰一般都是在网上,到什么程度?我们有第三方数据是说NETFLIX的下载流量占整个北美网络的1/3。还有照片,照片量也是非常大。各位有没有听说过监控一家公司就是dropcam,安保有很多视频,要有地方放,这样他监控视频量也很大。最后一个例子就是Dropbox,我自己是它的忠实的使用者,也是量比较大的互联网存储。这些互联网的服务像他的数据存储量非常大,之前很多演讲嘉宾讲到存储公司,更多关注速度,实际上在互联网时代服务来讲速度也很重要,量也很重要,他们也有互联网的成熟的服务。这些例子的共同点是什么?一方面他们的数据量非常大,第二共同点就是他们都使用了亚马逊的S3的存储服务。

S3的服务是我们第一个提出商业化的服务,这个存储定义好象是最近才出来的,AmazonS3的服务是2006年就推出来了。看一下我们在AWS服务当中S3在什么地方,云服务放在几个,最下面是基础服务,包括像计算、存储、数据库服务、网络服务等等。中间是应用服务,包括开发人员做编程服务,做搜索,上面是部署管理。S3在存储服务里面。这些服务里面,我们有很多跟存储相关的服务,S3是其中非常重要的服务。

面向互联网化应用,面向互联网的存储,存储到底有什么区别?首先要放数据,第一是高持久性,第二是高可用,我的服务可以用的。第三就是高安全性,这是所有设备具备的必要条件。但是互联网做一些存储服务还有其他的几个要求,第一还是要海量存储,AmazonS3的服务我们一个大的客户每一天要向上面上传一个TB数据。互联网知道你用多少就付多少钱,这是云模式。弹性扩张不光是对计算机是这样,对存储能力也是这样的要求。第三是接口简单,这个服务被很多人使用,接口必须要简单易用。这是我们说面向互联网存储的一些要求。

 AmazonS3是怎样的服务?完全基于互联网的服务,他作为互联网存储,不光是服务本身,是世面上很多互联网流行的服务都是使用了我们的S3服务。S3服务是面向互联网存储的要求,海量,数据量非常大。第二是弹性,第三是访问接口非常简单,还有高可用高持久性。这是对S3的介绍。

接下来对它的基础原理看一下,我们讲S3的整体建设从CAP理论说起,分布式数据存储,2000年是这个推测,03年证明这个理论成立。理论是我做分布式数据存储的时候有三个指标,跟传统数据库不一样,分布式数据存储里面,数据划一份不可靠,一般处理方式是放多份,大家知道你是要保证这么多份数据是一样,这是一致性的意思。第二就是可用性,系统存储服务可以提供读写操作。第三就是现在数据存储发展的方向,你单个设备是有限的,你的设备无论多好他的存储空间是有限的。这个可以横向扩展,多个节点组成。CAP理论,C、A、P三个特性里面你同时只能满足两个。所以说对分布式数据存储来说,首先需要一个P,C和A之间就要做平衡,你要先保证哪一个,舍弃哪个,这就是CAP里很重要的要求。相关的数据存储技术,他总是在C和A做平衡。亚马逊S3也做了平衡,为了保证可用性,他舍弃了一致性,他提出一个模式就是最终一致性的模型。在亚马逊2007年的论文里面提出来的。我们知道S3这个服务06年提出来的,07年对外讲了一下,我们S3数据存储模型是怎样的。

大家知道我们采用的是最终一致性模型的S3的服务的。S3这个服务从概念讲是这样,他的存储结构非常简单,他基本上是两层结构,最上面一层就是Bucket,第二层就是object,可以理解成文件,面向文件存储的服务。两极的存储服务,没有过多像传统文件系统里面有很多结构方式。

这个Buckets每个用户是有限制的,这个里面放的数据对象是不受限制,可以在这个存储桶里面放任意多的数据。因为他的存储结构非常简单,有两级架构,每个对象都会有一个UL(音译)。理论上可以访问你放上面的任何一个对象,包括UL。程序编码非常简单,他通过代码可以访问任何一个对象。这里注意一点,每个对象都会有相应的管控措施,谁可以访问你的相关数据。

这里把S3的对象存储的特点给各位介绍一下,把这个大小有范围,单对象1字节到5TB。第二是高持久性,之前有嘉宾谈到数据很重要多个九,S3的持久性是11个9,根据我们设计的架构,依据故障率看的。假如说你有100万个文件放到S3上面,经过18个年,你可能会丢一个文件,这是11个9带给你的意义。访问策略有IAM、Bucket策略、ACL等。

如果你把数据放到云存储上的话,安全很重要。第一个是说传输中的安全,我们一般通过SSL方式进行加密。另外就是静态数据加密,我们分两种方式,一个是服务器上加密,密钥放在你手里,我心里不踏实,密钥可以自己控制,加密方式都是一样。还有一个是说我就是不太放心这个数据放到别人手里,你自己在数据放上面之前先把数据加密,你客户端的加密,通过这个方式把数据进行加密。

目前演讲嘉宾讲到数据有冷数据和热数据之分,我们是可以对数据的生命周期管理,S3服务还有一个专门归纳数据。一个数据放在云存储上面,经过一年他就直接归档到另外一个数据里去了。我把数据直接放到云存储上,通过这样的方式一方面可以满足你的要求,另一方面你可以更好的控制你的数据生命周期。

之前讲到互联网对云存储的需求量非常大,S3的增长上面可以看到,06年S3的数据存储服务,到2012年第二季度的话超过1万亿个对象,我们讲的是文件。大家看到到2013年我们发现到了2万亿,这个速度在增长。国外S3本身存储服务增长非常快,对互联网存储需求增长非常非常快,后面还有数据。我们现在数据后一年比前一年翻一番,增长速度非常快。

什么时候会选择是S3存储服务,如果你需要海量数据存储可以选择S3存储服务,不用担心放不下,他是云存储。第二就是11个9,数据放在那不会丢,放心。第三就是将数据静态存放,都可以放到S3上面来。

给各位看一个简单的例子,如果你有文件同步和共享可以使用S3,如果你想分享一些视频和文件和照片文件可以用S3这样的服务,如果你想用设备物联网相关的例子可以用S3。如果你有大数据分析,第一就是海量,首先就是要放数据,放到S3上面。

我们看到目前整个互联网发展对IT冲击很大,这是非常好的时代,充满各种各样的变化。他对存储行业也是一样,现在有新的技术出来。大数据现在是非常热的话题,我前面提到是说这个数据总有地方放起来,才能分析。S3这样的存储服务非常好,是可以放数据的一个地方。我前面讲了S3这个服务,怎么样互联网存储,简单易用,安全可靠,海量。

谢谢大家。

评论(0)

您可以在评论框内@您的好友一起参与讨论!

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");