2013若如初见
张兆代 王圣洁 刘京鹏 宋宏伟(青岛海洋地质研究所)摘 要 云计算继承和整合了虚拟化技术、海量数据存储、分布式并行计算框架、智能化与自动管理等多项关键技术,形成了具有高性能、可伸缩、低成本及面向服务的新的计算模式。目前学术界及产业界对云计算的研究和探讨均呈快速增长趋势,大量论文发表在计算机类和图书情报类期刊,研究的重点集中在云计算的基础理论、云计算的关键技术、云服务的应用领域、云计算与信息资源管理等多个方面。本文以 2000 ~ 2012 年发表在国内核心期刊上关于云计算的研究文献为统计样本,分析了云计算的研究热点及其演化方向,结合我国地质资料集群化产业化服务的发展状况,探讨云计算应用策略。关键词 云计算模式 地质资料 信息共享和服务1 前言“云计算(Cloud Computing)”一词出现于 2006 年,是谷歌总裁埃里克 施密特(Eric Schmidt)在搜索引擎大会(SES San Jose 2006)首次正式提出的一个概念。它不仅揭开了谷歌搜索背后关键技术的神秘面纱,而且在短短的数年内就迅速超越“网格计算(Grid Computing)”并成为新的潮流(图 1)。图 1 网格计算与云计算搜索量变化趋势图2006 年后,在谷歌、亚马逊、IBM 等企业的推动下,“云计算”作为新兴的计算模式已经有了广泛应用。云计算作为一种基础设施与服务的交付和使用模式,正深刻地影响着互联网的发展。近年来,国内外掀起了关于云计算的研究热潮,涌现了大量的研究文献和应用案例,云计算已经成为学术界和产业界共同关注的热点。本文首先介绍了云计算的基本概念和关键技术,并通过对现有的云计算研究文献的综合分析,结合我国地质资料集群化产业化服务的发展状况,提出其在云计算应用中需要注意的问题。2 云计算及其关键技术1 云计算的基本概念云计算的概念仍存在不同的定义。一般认为云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备[1]。美国国家标准与技术研究院(National Institute of Standards and Technology,NIST)也给出了云计算的定义,认为云计算是一种能够通过网络以便利的、按需使用的方式获取计算资源并显著提高可用性的方式,这些计算资源来自一个共享的、可配置的资源池,并能够以自动的方式获取和释放[2]。中国电子学会云计算专家委员会认为:云计算是一种基于互联网的、大众参与的计算模式,其计算资源(计算能力、存储能力、交互能力)是动态、可伸缩、且被虚拟化的,并以服务的方式提供。这种新型的计算资源组织、分配和使用模式,有利于合理配置计算资源并提高其利用率,从而促进节能减排,实现绿色计算[3]。尽管云计算有不同的定义,但对于云计算的特点已有很多深入的讨论。下面五个基本特征可以用来判断一个计算服务是否是云计算。(1)服务按需即取。云计算是把信息技术作为服务提供的一种方式。由于这种服务是从用户角度出发,按需即取的自助服务是其最重要的特征之一。用户可以自行获得计算能力,包括服务器的使用和网络存储的使用,而整个过程通常是自动进行的。(2)便捷网络访问。云计算支持广泛和便捷的网络访问能力,用户可以使用多种设备,如手机、移动计算机或工作站等获取云服务。(3)资源共享池。云计算带来的一个好处是能够提高资源的利用率,通过把资源集中到一个公共的资源共享池中,可以为大规模的用户群提供共享服务。由于资源池可以动态分配所有物理和虚拟资源,达到了通过共享提高资源利用率的目的。(4)高可扩展性及弹性服务。云计算具有快速及可伸缩地提供服务的能力。根据需求变化,云计算所提供的服务可以自动并快速地扩展或收缩。(5)服务可度量。云系统通过自动监控资源的使用,可以提供定量的运行报告,从而保证云服务处于应有的水平。2 云计算的体系架构计算机技术的发展经历了传统主机计算模式到个人普及计算模式及分布式网络计算模式的转变[4]。云计算作为一种新的计算模式,既是分布式计算、并行计算和网格计算等技术快速演化的结果,也是信息社会中信息需求的必然选择。社会化、集约化与专业化的信息服务通过各种云计算得以体现,其中既包括了各种通过网络提供给用户的互联网应用、软件或计算资源服务,也包含了用来支撑这些服务可靠和高效运行的软硬件平台。美国国家标准与技术研究院的技术报告给出了关于云计算体系架构的完整模型(图 2),该顶层模型定义了云计算模式中的角色(Actors)、行为(Activities)和功能(Functions)[5]。云计算的核心角色有云用户(Cloud Consumer)、云服务商(Cloud Provider)、云审计者(CloudAuditor)、云代理商(CloudBroker)和云运营商(Cloud Carrier)共五类(表 1)。在该模型中,云用户可以获得包括 ERP、CRM、HR 等商业智能或信息、通讯、协作、存储、备份以及软件、硬件托管等多种服务,云服务商则通过云计算中心的建设、运行和管理提供在线的软件服务(SaaS)、平台服务(PaaS)和基础设施服务(IaaS),云运营商通过提供网络接入、通讯系统等保障云计算的提供和使用,云审计者和云代理商的参与则保证了云计算和云服务的稳定性、持续性和透明度及服务水平。图 2 云计算体系架构参考模型(引自 NIST)表 1 云计算模式中的主要角色及定义3 云计算的关键技术云计算是计算机技术发展的产物,其中虚拟化技术、海量数据存储、分布式并行计算框架、智能化与自动管理被认为是实现云计算的关键技术[6]。1 虚拟化技术虚拟化(Virtualization)技术是将各种计算及存储资源充分整合和高效利用的关键。虚拟化技术包括两个方面:物理资源池化和资源池管理。物理资源池化是把物理设备由大化小,将一个物理设备虚拟为多个性能可配置的最小资源单位;资源池管理是对集群中虚拟化后的最小资源单位进行管理,根据资源的使用情况对资源进行灵活分配和调度,实现按需分配资源。虚拟化技术主要应用在服务器虚拟化、存储虚拟化和网络虚拟化三个方面。2 海量数据存储海量数据存储是云计算的主要任务。为了保证可用性、可靠性和经济性,云计算采用分布式存储的方式来存储数据,由于采用了分布式冗余存储的方式,数据既有高可靠性,也能并行地为大规模用户提供服务。云计算的数据存储技术主要有谷歌的分布式文件系统(GFS,Google File System)和 Hadoop 的HDFS(Hadoop Distributed File System)。3 分布式并行计算框架并行计算是云计算的核心。云计算采用 Map-Reduce 的编程模式实现分布式并行计算。Map-Reduce通过“Map”和“Reduce”这样两个过程来简化并行计算,所有应用只需要提供 Map 函数以及 Reduce 函数就可以在集群上进行大规模的分布式数据处理。Map-Reduce 不仅仅是一种编程模型,同时也是一种高效的任务调度模型,该模型的使用使计算任务高度并行及分布式实现成为现实。4 智能化与自动管理技术云计算具有高度自治的特点,智能化与自动管理是云计算模式的重要技术支撑。通过对集群系统各节点的全面监控、自动反馈、智能调配,实现了包括设备、虚拟资源、通讯与服务等的动态管理和自动迁移。以第四代大规模数据中心为基础的云计算,既能灵活扩展部署,也能满足服务计算和多粒度计算的要求。3 我国云计算研究热点分析1 国内外云计算搜索量变化趋势比较搜索量的大小通常反映关注度的高低,使用 Google Trends 工具还可以分析一些长期的趋势和变化。这里选择“Cloud Computing”和“云计算”分别作为世界和我国在云计算领域的指标性关键词,从分析结果可以看出以下几个特点(图3):①世界上对于云计算的关注开始于 2007 年,我国则自 2008 年才开始关注该领域。因此,我国仍属于学习—跟随型研究模式。②自 2007 年后,世界上关于“Cloud Computing”的搜索量出现迅速增长趋势,目前,已超过“Grid Computing”成为新的信息技术热点,我国对此的关注则较为平缓和滞后。③如果把搜索量代表的关注度看做是“海上的冰山”,那些“水下的部分”,包括基础理论、关键技术、应用实践等方面,国内外存在更大的差距。图 3 国内外云计算搜索量变化趋势比较2 国内云计算研究文献的计量分析本文利用中国知网 CNKI 学术期刊数据库,检索 2000 年 1 月至 2012 年 3 月发表的有关云计算研究的核心期刊文献 852 篇(表 2)。我国对于云计算的研究始于 2007 年,之前罕见相关研究。2008 ~2011 年,云计算的研究开始引起广泛关注,论文数量开始急剧上升,同时发表云计算论文的期刊数量也同步快速增多,显示出云计算研究领域的广泛性。由于只统计到 2012 年 4 月的部分数据,从表面看检索到的 2012 年的成果不多,实际并未改变论文数量快速增加的趋势。表 2 云计算论文发表时间分布表对于检索到的 852 篇论文,对其关键词进行了计量分析,其中涉及关键词 1376 个,累计出现频次3020 次。按频次从大到小排列,排在前十位的关键词有:云计算(645)、虚拟化(115)、图书情报(115)、云服务(94)、安全(65)、存储(42)、物联网(33)、MapReduce(24)、档案(20)、数据中心(13)等。从关键词分析可以看出,云计算的研究涉及基础理论、关键技术、应用领域、信息资源管理等诸多方面,对于虚拟化、存储、MapReduce 等关键技术有较多论述;但整体来讲,多数仍为综述性、展望类的论文。就应用领域来讲,图书情报界对云计算进行研究和借鉴的趋势比较明显[7],而地质资料界对云计算的关注和应用研究仍较少。4 云计算与地质资料服务1 地质资料数据与服务现状地质资料是国家重要的基础资料。新中国成立以来,通过实行地质资料统一汇交制度,积累了大量的地质资料。我国现有全国性基础地质与战略性矿产地质数据资源 12 大类 50 余种数据库,数据量达10TB 以上,涉及区域地质、矿产地质、水文—工程—环境地质、农业地质、海洋地质、基础地质、地球化学、地球物理、地学科研、地质资料、遥感等领域[8]。我国目前实行的是二级监管、三级保存的地质资料管理框架。由于条块分割等原因,地质资料的共享与服务尚存在很大差距,突出表现在数字化程度低,信息孤岛现象严重,地质资料不能及时、有效地满足国家建设与社会需求。2002 年,国务院颁布了《地质资料管理条例》,2003 年,国土资源部发布了《地质资料管理条例实施办法》,地质资料的管理与共享服务得到了前所未有的重视。国土资源部又相继推动地质资料汇交、地质资料委托保管、地质资料集群化、产业化服务等,地质资料的管理与服务开始出现一个新的局面。由于管理与服务模式的转变是一个较长期的过程,地质资料工作的重要性仍未完全显现,社会对地质、矿产等的关注度仍远落后于“土地”“海洋”“气象”,仅稍高于“测绘”(图 4)。2 云计算是改变地质资料服务模式的契机从云计算的产生和发展过程来看,云计算是在继承和整合了虚拟化技术、海量数据存储、分布式并行计算框架、智能化与自动管理等多项关键技术的基础上,形成的具有高性能、可伸缩、低成本及面向服务的新的计算模式。云计算正在推动着信息产业实现社会化、集约化、专业化的大转型。社会化:互联网计算正成为社会基础设施,建立集中的、各种各样的云计算中心实现规模化的社会服务,是当前发展的趋势。图 4 地质等搜索量变化趋势比较集约化:归并分散、粗放的软件开发与应用,软件模块构件化,提高平台利用率,使计算资源以虚拟化组织和配置、弹性伸缩,通过软件的重用和柔性重组,进行服务流程的优化与重构。专业化:面向多租户使服务更为精细、规范,并对服务透明使用,按需租用[9]。地质资料服务及信息共享是一种典型的数据密集型计算服务,这恰与云计算模式的基本特点相符合。因此,引入云计算是推进地质资料信息服务集群化产业化的天然契机。从技术层面上来讲,国家地质资料数据中心建设十分重要,建议规划为提供完整 SPI(软件即服务 SaaS、平台即服务 PaaS、基础设施即服务 IaaS)服务的地质资料专业云,全面涵盖二级监管、三级保存及社会化服务,这种集中式的部署方式既降低了技术难度,也有利于提高投入和使用效率。其次,国家地质数据中心也可以规划为“逻辑统一、物理分布”的三级数据中心体系,这种社区云的部署方式符合我国地质资料行业现状,组织实施均较为简单。需要注意的是,无论哪种方式,统一的体系架构、成熟技术的采用、一致的标准和安全性都是需要重点考虑的问题。5 结语与网格计算相反,云计算更多地经历了从实践到理论的过程,从研究者关注云计算开始,其实已经大量出现云计算的实例。我国在云计算领域的基础研究仍然落后,但图书情报界对云计算的跟踪和应用却十分突出,一些基于知识的服务已经达到专业化和产业化服务水平。相信云计算模式的引入,将会极大地推动地质资料服务向集群化产业化方向转型,以更好地实现地质资料和成果的全社会共享。参 考 文 献[1] 维基百科云计算http:///wiki/ 云计算,[2]Peter Mell,Timothy GThe NIST Definition of Cloud CNIST Special Publication 800 ~ 145,[3] 李德毅,林润华,郑纬民等云计算技术发展报告 [M[北京:科学出版社,[4] 杨春霞,王圣洁,王春民谈计算模式的演变及其对海洋地质数据处理的影响 [J]海洋地质动态,2004,20(2):32 ~ [5]Fang Liu,Jin Tong,Jian Mao et NIST Cloud Computing Reference ANIST Special Publication 500 ~ 292,[6]Michael Armbrust,Armando Fox,Rean Griffith et Above the Clouds: A Berkeley View of Cloud Chttp://du/Pubs/TechRpts/2009/EECS-2009-pdf,[7] 张正禄我国图书情报界云计算研究述评 [J]国家图书馆学刊,2010,(3):73 ~ [8] 国土资源部矿产资源储量司推进地质资料信息服务集群化产业化 [M]北京:地质出版社,[9] 李德毅云计算支撑信息服务社会化、集约化和专业化 [J]重庆邮电大学学报,2010,22(6):698 ~ 
云计算技术的发展趋势一、数据中心向整合化和绿色节能方向发展目前传统数据中心的建设正面临异构网络、静态资源、管理复杂、能耗高等方面问题,云计算数据中心与传统数据中心有所不同,它既要解决如何在短时间内快速、高效完成企业级数据中心的扩容部署问题,同时要兼顾绿色节能和高可靠性要求。高利用率、一体化、低功耗、自动化管理成为云计算数据中心建设的关注点,整合、绿色节能成为云计算数据中心构建技术的发展特点。数据中心的整合首先是物理环境的整合,包括供配电和精密制冷等,主要是解决数据中心基础设施的可靠性和可用性问题。进一步的整合是构建针对基础设施的管理系统,引入自动化和智能化管理软件,提升管理运营效率。还有一种整合是存储设备、服务器等的优化、升级,以及推出更先进的服务器和存储设备。艾默生公司就提出,整合创新决胜云计算数据中心。兼顾高效和绿色节能的集装箱数据中心出现。集装箱数据中心是一种既吸收了云计算的思想,又可以让企业快速构建自有数据中心的产品。与传统数据中心相比,集装箱数据中心具有高密度、低PUE、模块化、可移动、灵活快速部署、建设运维一体化等优点,成为发展热点。国外企业如谷歌、微软、英特尔等已经开始开发和部署大规模的绿色集装箱数据中心。通过服务器虚拟化、网络设备智能化等技术可以实现数据中心的局部节能,但尚不能真正实现绿色数据中心的要求,因此,以数据中心为整体目标来实现节能降耗正成为重要的发展方向,围绕数据中心节能降耗的技术将不断创新并取得突破。数据中心高温化是一个发展方向,低功耗服务器和芯片产品也是一个方向。二、虚拟化技术向软硬协同方向发展按照IDC的研究,2005年之前是虚拟化技术发展的第一阶段,称之为虚拟化0,从2005年到2010年时虚拟化发展的第二阶段,称之为虚拟化0,目前已经进入虚拟化5阶段,虚拟化0阶段在不久也将会到来。根据Gartner的预测,到2016年中国70%的X86企业服务器将实现虚拟化。ArsTechnica网站上刊出的一篇文章评论到,当前的虚拟化市场当中,VMware是老大,微软Hyper-V老二,思杰Xen第三,红帽和甲骨文在争夺第四把交椅。随着服务器等硬件技术和相关软件技术的进步、软件应用环境的逐步发展成熟以及应用要求不断提高,虚拟化由于具有提高资源利用率、节能环保、可进行大规模数据整合等特点成为一项具有战略意义的新技术。首先,随着各大厂商纷纷进军虚拟化领域,开源虚拟化将不断成熟。Gartner也指出,虽然目前开源虚拟化的市场还比较小,但到2014年底其市场份额将翻番,而且未来也会快速增长。其次,随着虚拟化技术的发展,软硬协同的虚拟化将加快发展。在这方面,内存的虚拟化已初显端倪。第三,网络虚拟化发展迅速。网络虚拟化可以高效地利用网络资源,具有节能成本、简化网络运维和管理、提升网络可靠性等优点。VMware和思科公司通过四年的合作,在网络虚拟化领域取得突破创新,推出了VXLAN(虚拟可扩展局域网)。VXLAN已获得多个行业领先厂商的支持。三、大规模分布式存储技术进入创新高峰期在云计算环境下,存储技术将主要朝着从安全性、便携性及数据访问等方向发展。分布存储的目标是利用多台服务器的存储资源来满足单台服务器不能满足的存储需求,它要求存储资源能够被抽象表示和统一管理,并且能够保证数据读写操作的安全性、可靠性、性能等各方面要求。为保证高可靠性和经济性,云计算采用分布式存储的方式来存储数据,采用冗余存储的方式来保证存储数据的可靠性,以高可靠软件来弥补硬件的不可靠,从而提供廉价可靠的海量分布式存储和计算系统。在大规模分布式存储技术中,基于块设备的分布式文件系统适用于大型的、海量数据的云计算平台,它将客户数据冗余部署在大量廉价的普通存储上,通过并行和分布式计算技术,可以提供优秀的数据冗余功能。且由于采用了分布式并发数据处理技术,众多存储节点可以同时向用户提供高性能的数据存取服务,也保证数据传输的高效性。目前国外很多大学、研究机构和公司已经或正在着手开发分布式文件系统,已经涌现出一批著名的分布式文件系统,如PVFS、GPFS、zFS、Google FS、Hadoop FS等,进一步更深入的研发也还在进行中。除了大规模分布式存储技术,P2P存储、数据网格、智能海量存储系统等方也是海量存储发展的趋势体现。其中,P2P存储可以看做是分布式存储的一种,是一个用于对等网络的数据存储系统,旨在提供高效率、鲁棒和负载均衡的文件存取。数据网格是有机的智能单元的组合,类似于计算网格。智能海量存储系统包括主动的数据采集、数据分析、主动调整等。云计算中存储的海量数据应用将为云计算提供新的价值高点,也必将成为云计算发展的重点方向之一。四、分布式计算技术不断完善和提升资源调度管理被认为是云计算的核心,因为云计算不仅是将资源集中,更重要的是资源的合理调度、运营、分配、管理。云计算数据中心的突出特点,是具备大量的基础软硬件资源,实现了基础资源的规模化。但如何合理有效调度管理这些资源,提高这些资源的利用率,降低单位资源的成本,是云计算平台提供商面临的难点和重点。业务/资源调度中心、副本管理技术、任务调度算法、任务容错机制等资源调度和管理技术的发展和优化,将为云计算资源调度和管理提供技术支撑。不过,正成为业界关注重点的云计算操作系统有可能使云计算资源调度管理技术走向新的道路。云计算操作系统是云计算数据中心运营系统,是指架构于服务器、存储、网络等基础硬件资源和单机操作系统、中间件、数据库等基础软件管理海量的基础硬件资源和软件资源的云平台综合管理系统,可以实现极为简化和更加高效的计算模型,以低成本实现指定服务级别、响应时间、安全策略、可用性等规范。现在云计算的商业环境对整个体系的可靠性提供了更高的需求,为了支持商业化的云计算服务,分布式的系统协作和资源调度最重要的就是可靠性。未来成熟的分布式计算技术将能够支持在线服务(SaaS),自从2007年苹果iPhone进入市场开始,事情发生很大的变化,智能手机时代的到来使得Web开始走进移动终端,SaaS的风暴席卷整个互联网,在线应用成为一种时尚。分布式计算技术不断完善和提升,将支持在跨越数据中心的大型集群上执行分布式应用的框架。五、安全与隐私将获得更多关注云计算作为一种新的应用模式,在形态上与传统互联网相比发生了一些变化,势必带来新的安全问题,例如数据高度集中使数据泄漏风险激增、多客户端访问增加了数据被截获的风险等等。云安全技术是保障云计算服务安全性的有效手段,它要解决包括云基础设施安全、数据安全、认证和访问管理安全以及审计合规性等诸多问题。云计算本身的安全仍然要依赖于传统信息安全领域的主要技术。不过另一方面,云计算具有虚拟化、资源共享等特点,传统信息安全技术需要适应其特点采取不同的模式,或者有新的技术创新。另外,由于在云计算中用户无法准确知道数据的位置,因此云计算提供商和用户的信任问题是云计算安全要考虑的一个重点。总体来说,云计算提供商要充分结合云计算特点和用户要求,提供整体的云计算安全措施,这将驱动云计算安全技术发展。适应云计算的特点和安全需求,云计算安全技术在加密技术、信任技术、安全解决方案、安全服务模式方面加快发展。此外,未来的安全趋势,势必会涉及终端及移动终端各个层面,包括各类PC、手机在内的智能终端、可穿戴设备,都有可能会面临攻击者的挑战,这样的攻击对多种设备会变得日益难以防护。解决终端安全,云安全是首先需要解决的,即从云端首先判断安全的趋势,而不是孤立的从一台终端来判断。通过云端安全的大数据分析,可以清晰发现其中存在的多种威胁趋势,从而及时拦截新木马以及防止网络入侵和攻击。隐私权保护问题虽是云计算普及过程中需要解决的一大难题,但随着云计算的发展及相关标准的成熟。相信隐私权会得到更好地保护,云计算也将像互联网上的其他应用环境一样,深刻地影响我们的生活方式。六、SLA细化服务质量监控实时化要想让用户敢于将关键业务应用放在云计算平台上,粗放的服务协议显然无法让人放心,用户需要知道云计算厂商能否快速地将数据传遍全国、网络连接状况又能好到何种程度。对于激增的商业需求而言,性能的拓展是不够的,而云计算提供商能够多快地拓展性能也事关重要。用户需要能够让他们高枕无忧的服务品质协议,细化服务品质是必然趋势。云计算对计算、存储和网络的资源池化,使得对底层资源的管理越来越复杂,越来越重要,基于云计算的高效工作负载监控要在性能发生问题之前就提前发现苗头,从而防患于未然,实时的了解云计算运行详细信息将有助于交付一个更强大的云计算使用体验,也是未来发展的方向。此外,开源云计算技术进一步普及应用。数据表明,目前全世界有90%以上的云计算应用部署在开源平台上。据Black Duck统计,2010年年底,平台型的开源云计算项目达到470多项,2011年启动的开源项目中40%都是跟云计算相关(另外19%与移动相关,15%与企业应用相关)。云计算对于安全、敏捷、弹性、个性化开源平台的需求以及突出的实用、价廉的特性,也决定了开源计算平台在云时代的领军位置。很多云计算前沿企业和机构如亚马逊、谷歌、Facebook都在开发部署开源云计算平台。开源云计算平台不仅减少了企业在技术基础架构上的大量前期投入,而且大大增强了云计算应用的适用性。开源云计算技术得到长足发展的同时,必将带动云计算项目更快更好落地,成为企业竞争的核心利益。为此,开源云计算技术将进一步得到重视和普及。