大数据存储解决方案提供商

媒体报道 当前位置 >> 新闻中心 >> 媒体报道

计算机世界:存储虚拟化

发布日期:2006-03-14
中国科学院计算技术研究所工程中心 卜庆忠博士

 

一、存储虚拟化技术

    “存储虚拟化”并不是近期才提出的一个新概念,它是伴随着大型计算机的产生、发展而出现的一个较为经典的概念,但随着网络存储的兴起,在新的领域中,存储虚拟化又被赋予了全新的解读,不过从存储的核心功能来看,其本质是具有延续性的。

 

 

(一)   存储虚拟化的概念

     从广义的角度看,存储具有两大特性:其一,它是具有存取数据功能的载体;其二,它具有可管理性。

    存储虚拟化是物理存储的逻辑表示方法,是在服务器与存储之间设置的一个抽象层,服务器被绑定到逻辑抽象层上。于是,无论何时如果需要都可以改变所连接的物理存储,典型的如阵列的替换、层次化存储等,而不会影响应用对这个存储的访问。存储虚拟化也正是紧紧围绕着这两个主要方面展开的。
    从狭义的角度看,存储是具有两个访问通道的实体,数据通道和管理通道就是对此的简单描述。二者在物理上可以是聚合的,也可以是分离的,而存储虚拟化就相应地发生在这两个通道上。
在理论上可以认为,相对于原存储实体,新的存储实体在数据和管理通道上所进行的任何非恒等的转换,都是一种存储虚拟化方法。概括地讲,所谓存储虚拟化可以简单地描述为:新存储实体对原存储实体的存储资源(如存储的读写方式、连接方式、存储的规格或结构等)和存储管理(如统一/分散管理)进行变化和转换的过程称为存储虚拟化

 

 

(二)   存储虚拟化的技术分类

      一般认为存储虚拟化是有所特指的,大致可以从以下两大类来划分:

 

1、   存储资源的虚拟化

    存储的规格或结构

    从早期的磁盘分区到现在具有复杂结构的磁盘阵列,对存储规格或结构的虚拟化始终作为一种最基本的虚拟化形式而不断发展,这是存储虚拟化的一个最为基本的特性之一——可分性。
属于这一类的存储虚拟化产物有:RAID、虚拟网络磁盘等,在可以预见的未来,这类存储虚拟化方式将伴随着人们对块存储的需求,以及对存储安全性与性能的不懈追求仍将长期存储,并且适度发展。
    在结构虚拟化方面,设备冗余和资源空洞是两个完全不同的类型,设备冗余可以实现同步、异步镜像等,而资源空洞主要采用写时分配的技术,在提高资源利用率方面表现更为突出,它能够使得呈现给主机的逻辑卷大小远大于实际的物理存储大小;而快照技术更是实现了源和快照依赖于相同的存储资源,形成一种典型的一个虚拟多个的方式。

    读写方式 

    到目前为止,存储的读写方式可以归纳为四种主要形式:块读写方式、文件读写方式、对象读写方式和键值搜索读写方式,四种形式依次递进(如下图示意),对存储的抽象层次不断提高,使得应用(程序等)对存储的依赖程度逐渐降低,存储的智能性不断提升,进而也就不同程度地实现存储与应用的分离。在本质上,也逐步实现在计算机系统中,处于不活跃地位的存储与处于活跃地位的计算之间的分离,而归根结底,其源动力来自于人们对不断提高数据共享效率的需求。
可以看出,存储读写方式的演进,在客观上也对存储规格和结构的发展提出了要求,但存储读写方式的演进并不依存于存储规格和结构的发展。

图、四种存储读写方式关系示意

    在相当长的一段时间内,块读写方式和文件读写方式都将继续占据主流的地位,而其他两种方式由于受到应用模式和存储发展的某些关键技术的制约,仍将处于产品的缓慢发展和研究的相对快速发展的矛盾过程中,可以预见随着对象文件系统、对象操作系统、存储网格,以及搜索引擎和数据安全等方面技术的不断发展,基于对象读写方式和键值搜索读写方式的存储设备、存储系统、存储服务比较成长为主流方式。

    连接方式

     网络存储的连接方式主要有Fibre Channel(FC)、InfiniBand(IB)、IP三种。三种方式各具特色,但总的来说,FC设备在高端存储系统采用较多;IB设备的高带宽和高吞吐率在高性能计算领域有相当的优势,但经历了Intel、微软放弃支持和戴尔、IBM与SUN宣布支持的一落一起之后,IB的发展还不明朗;在性能和标准的制约下,IP网络存储长时间在中低端市场徘徊,但由于无处不在IP网络和其极具诱惑力的价格,近乎无限的延伸扩展能力,以及传输标准和正在快速提升的硬件性能,可以预见IP存储的市场将会作为企业存储解决方案的主要选择之一。

    不同的存储连接方式,也对应着不同的存储特性,存储虚拟化技术可以将融合多种连接方式(包括上述三种方式)的优势,更好地满足应用的需求。

 

 

2、存储管理的虚拟化

    集中管理

     网络存储发展到今天,出现了很强的旨在体现集中管理的聚合趋势,大型存储系统和超大型的存储系统不断出现,高性能、高可用、高数据安全性和大容量成为其主要的发展目标。但伴随而来的是存储管理的复杂性也一升再升,不同的存储系统之间无法实现有效地级联(管理方面),甚至这一现象也出现在同一厂商的系列产品中,进而也使得存储资源无法实现有效地管理和使用,复杂的管理和相应的高管理成本都阻碍了网络存储的发展。

    面对这一现实问题,统一存储管理标准问题愈显突出,这也是制约存储虚拟化,乃至于网络存储工业发展的关键症结所在。
为了从根本上解决这一问题,全球范围内的许多存储厂商、研究和学术机构在网络存储工业协会(SNIA)的积极倡导下,开始了网络存储管理的标准化过程,随着这一过程的不断发展和推进,必将冲破技术和市场壁垒,为存储管理的虚拟化提高现实的基础。

     分散管理

    在使用存储的某些特定场合,所虚拟出的资源应具有一定的独立可管理特性。

 

    性能的动态调整

    在共享网络带宽的情况下,虚拟出的多个设备其之间的性能,可动态调节或可动态配置。

 

(三)   存储虚拟化系统的结构分类 

    在网络存储领域,实行存储虚拟化的手段大致可以从以下两方面考虑:
    一方面,按虚拟化模块在网络存储中的位置划分为三类:基于主机、基于网络和基于存储设备节点;基于网络的虚拟化是发展的潮流,这一点,IBM与EMC的观点是相同的。
    另一方面,按照虚拟化管理模块相对于数据通道的位置,划分为带内(In-Band)和带外(out-of-band)。
    In-Band虚拟化模块(引擎)位于主机和存储节点之间的数据通道上,因为位于数据读写的关键路径上,所以既有安全性高、实现容易、对主机要求低等优点,又有扩展性差、易形成单点故障等明显的结构缺点,通常利用Cache技术来优化性能。
    与In-Band不同的是,Out-of-Band虚拟化模块位于主机和存储节点之间的数据通道之外,通过其它的网络连接方式与主机系统通讯。于是,在每个主机服务器上,都需要安装客户端软件,或者特殊的主机适配卡驱动,相比于In-Band方式,这种方式的系统可扩展性很强,虚拟化模块不会在数据通道上成为单故障点,但其实施难度比较大。

 

(四)   存储虚拟化与信息生命周期管理(ILM)的关系

    数据和存储直接密不可分的关系,分析数据的发展变化特性非常必要,从某种程度上说,数据是存储存在的根据。
    虚拟化是数据生命周期的内在需求。数据产生后首先处于比较活跃的时期,处于这一时期的数据对企业而言具有很大的价值,而最活跃的时期通常会在随后出现,这主要取决于数据的类型等因素。在数据的生命周期中,可能会出现几个活跃期,伴随数据活跃期的出现会产生大量相关数据,而数据历经几次活跃期后,会出现不同程度的衰减甚至被销毁。IDC曾建议把数据分为5层,即:重要数据、关键业务数据、可访问的在线数据、近线数据和离线数据;对于数据拥有者而言,在数据所处的不同时期配以不同性能和特性的存储是一种最为经济的选择,为了方便地实现数据的管理和迁移,存储虚拟化技术便成为当之无愧的首选。

    ,SNIA正在为信息生命周期管理寻求一个标准,可以认为,在信息生命周期管理的助力下,存储虚拟化技术和产品市场可以得到更大的发展。

二、      市场特点分析 

    存储的目标市场现状,为存储虚拟化提供了发展机遇。同时,也带来了技术方面和非技术方面的挑战。在以数字化为主要方向的信息化发展过程中,信息容量的快速增长,给参与社会活动的各个部门,都或多或少地带来了管理成本和设备投入的增加,而对于许多大型企业,这种情况尤为显著。据统计,财富 500 强企业从1996 年起存储空间急剧增长,基于服务器的硬盘存储空间从1996 年的5 TB,增长到2002年的50 TB,预计到 2007年将达到230 TB。在各企业中,与存储相关的IT预算从1996年的11%增长到2002 年的17%,预计到2007 年将超过20%。目前,很多企业的存储数据量,其每年的增长率达到 50%,有的企业甚至达到了300%,这么巨大的数据增长牵扯到电力、存储空间、管理等一系列复杂问题。 

(一)   市场现状和问题分析 

    由于数据量的激增,使得以下问题愈显突出: 

1、存储系统间的互操作性差

    新增存储设备与原有存储设备之间互操作性差,相近的管理功能需要独立管理,从而带来了重复投入和人力成本,这也是很多用户寄希望于存储虚拟化的主要原因。企业购买的存储设备越来越多,管理成本投入也在等比增加。而由于不同厂商的存储产品有不同的特性,所以,为了适应企业自身的业务发展需要,通常都需要多种类型的存储设备。有些在存储介质、存储管理等方面的差异非常大,也经常出现购买多厂商存储设备的现象,从而造成企业的存储环境愈发复杂。由于管理标准不兼容的问题,这些设备的管理系统也很难整合,给企业存储管理带来昂贵的成本。
    存储虚拟化目标是整合高、中、低端存储设备,磁盘、磁带、光盘设备,以及FC、IB、Ethernet(IP)等不同连接方式的设备,在统一管理的标准下,实现存储系统之间良好的互操作性。

 

2、存储资源利用率不高 

     随着企业的发展,数据量大幅增长,使得很多企业出现存储预算超支现象,存储设备的投入在生产投入中的比重逐渐加大,而50%到60%左右的存储利用率对存储资源又造成了巨大的浪费。相反地,存储投入所带来的收益却并不高,因此,如何提高存储资源利用率的问题,已成为很多企业的现实需求。从技术手段上讲,存储虚拟化在结构虚拟化方面的技术,可以很好地解决这一问题。它利用虚拟的逻辑卷来满足应用的需求,利用虚拟化层将前端的逻辑卷映射到后端物理存储介质上,而物理存储介质的配备,则可根据实际需求量动态增长,从而实现了很高的存储利用率,至少可以提高到80%至90%以上。

 

3、缺乏管理多介质的存储系统

    考虑到信息也有其从产生、发展、变化,和活跃到不活跃或消亡的发展规律。在不同的时期,配以具有不同性能和安全性等特性的存储,是完全符合信息拥有者利益的自然选择。这需要在存储系统的设计和管理上有统一的解决方案和技术支持,比如在同一存储设备的管理范围内,可以对不同特性的存储加以管理,提供对用户数据的活跃程度(或热度)等特性的监控信息,并给出适当的调整方案建议;在技术上,支持数据的有效流动(提供本地或远程镜像、快照、支持增量备份,以及数据由高性能存储向低性能存储的迁移等等)。

 

4、利益冲突和技术难度

    各存储厂商之间,由于对存储虚拟化概念的不同理解,以及实现方法的不同,增加了用户的选择难度,这也在一定程度上制约着整个存储市场的发展。
    在对存储虚拟化的理解方面,即便是主流的厂商也存在着较大的分歧,例如:HDS与HP的观点和方法比较相似,而IBM与EMC更为接近;再如,不同厂商对信息生命周期管理(ILM)有不同的理解,有的厂商将其解读为,只是涉及到数据的存储;有的厂商将其具体划为管理软件等等。这些技术在认知上的分歧,使得厂商之间在标准的制定和实施方面需要更长的磨合过程,在这一过程中,势必会出现产品或管理上的不兼容,而最终给用户的选择和使用带来困惑。
    对于存储厂商来说,支持网络存储标准所带来的长远利益和维护现有产品市场的现实利益之间,目前的首选是后者。厂商之间并急于进行标准化,因为标准的制定和实施的过程也意味着市场占有率等利益问题。从而可以预见,存储标准得到普遍推行的时候就是存储虚拟化最理想的发展时期;而在现有条件下的存储虚拟化难度很大,要实现不同厂商之间产品的统一管理,只有在与厂商间建立战略合作关系的情况下,才能更好地实现。
    虽然网络存储行业的标准化还需要一段时间,但从主流厂商在新产品中,开始采用SMI规范所定义的管理协议这一情况来看,标准化过程势在必行,从参与SNIA制定和实践网络存储标准的厂商和研究机构的规模来看,一场具有决定性意义的变革正在悄然兴起。

 

(二)   市场发展方向 

    从存储的发生、发展过程来看,存储虚拟化的过程始终伴随其间,而不断发展变化的是存储虚拟化的层次和分布;从长远来看,随着存储市场的不断发展,存储虚拟化将呈现层次不断提高,随应用需求等因素,其种类多样化的发展态势。

 

1、以存储虚拟化技术为核心的企业解决方案 

    目前,EMC、IBM和SUN等公司都把目标瞄准了企业数据中心市场,纷纷推出了新的存储虚拟化产品,帮助企业IT管理者计划向虚拟化数据中心转移,并承诺帮助企业降低成本和简化业务流程,提供全方位的解决方案。
    由于数据已经成为企业核心价值的载体,数据的保存和维护是企业投资、预算,以及成本核算的关键部分之一,承担着维系企业命脉的作用,因此必须以相对完整的、可持续发展的,在投资回报率方面最优的方式来构建存储系统,而企业的这些需求是一个多目标优化问题,在此前提下,存储虚拟化是迄今为止的一个最佳选择。

 

2、角逐中端市场

    高端存储市场被少数大型企业如EMC、IBM、HDS、HP等所垄断的局面很难动摇,而广阔的中端市场,已成为众多存储厂商相互角逐的新赛场。目前,中端市场的发展远未饱和,每个存储企业都在谋求进入中端市场。而存储用户在众多的存储厂商中,也谋求寻找到适合自身需求的存储产品和解决方案,在这一市场中,相比于传统的存储更省钱,并且更具灵活性的存储产品和解决方案最受欢迎。

 

3、 低端市场有待开发

    相比于中高端市场,传统存储(DAS等)仍占据大部分的低端市场,这与低端市场的多数企业对网络存储的认知度有关,另外,高成本投入的产品和解决方案,也是低端市场企业对存储产品谨慎投资的主要原因之一,而作为以软件和硬件的灵活配置见长的存储虚拟化技术,开发低端存储市场的价格优势是其它网络存储技术无可企及的。

    由于存储管理的行业标准没有普遍推行,因此,存储厂商之间的合作是实现异构系统虚拟化的必由之路。也正因为如此,很多大型公司之间进行了不同领域、不同形式的合作,例如IBM最近推出的SAN卷控制器,通过扩展支持管理EMC磁盘存储系统;HDS也推出TagmaStore平台,可以实现对EMC生产的近乎全线产品实现虚拟化。

 

5、SMI-S标准化进程稳步推进

    虽然标准化的结果势必将使得网络存储市场的竞争更趋激烈,但标准化的进程却丝毫没有趋缓。在标准的制定过程中,技术和利益的较量始终在进行,同时IBM、EMC、HP等大型公司也分别在适当的时候推出了符合SMI-S规范或通过SNIA认证(SNIA-CTP测试)的产品,这些产品多数都集中在高端市场,而如Adaptec等公司也试验性地推出了符合SMI-S规范的产品,但这更多地是着眼于未来的市场。

 

6、存储管理软件独立发展 

    随着存储系统管理的标准化,为存储系统管理软件的独立发展提供了可能。目前,所有大型存储及存储相关厂商的高端产品中,都集成了基于开源项目(Pegasus项目、OpenWBEM项目,以及由IBM支持的Sblim开源项目等)开发的、通过SNIA认证的存储管理软件,其中主要包括:EMC、HP、IBM、HDS、AppIQ、ADIC、StorageTek(SUN控股子公司)、Dell、Symantec、Cisco和NetApp等存储及相关厂商,另外,MicroSoft也进入了存储管理软件市场,与多家存储管理软件厂商的产品实现集成。

 

7、IP存储异军突起

    由于历史等因素,IP存储一直没有成为网络存储市场的主流,但近几年的一系列重要事件为IP存储的发展奠定了坚实的基础,其中之一就是iSCSI标准的确立,另外千兆网卡、万兆网卡的普及等为构建可用的IP存储提供了技术上的保障。IP存储在系统造价和环境兼容性方面的优势始终是开拓市场的关键,加之并不逊色的性能表现也吸引了不少用户的注意力,同时,相对简单的系统开发技术也大大降低了技术门槛,使得许多看好网络存储市场的企业有进入这一行业的机遇。目前,IP存储的市场定位仍以中低端市场为主,近些年,随着许多大型存储厂商,如IBM、EMC等开始开发中低端市场,IP存储的优势将会显现,这一点在国内市场表现会比较明显。

 

8、存储服务市场更加广阔

    自从网络普及之初,存储服务就成为一种网络环境中存储提供方式,目前很多网站提供的免费和收费邮箱就是一种最基本的与邮件服务相结合的存储服务,而作为存储服务的支撑技术——存储虚拟化技术几乎是必不可少的。
随着存储虚拟化技术的发展,存储服务的质量将会不断提高,而且随着市场信用度的提高、服务市场的规范以及相关保障机制的不断完善,人们对存储服务的信赖程度将会越来越高,企业关键数据的委托管理等存储服务业务将会成为一种重要的服务被人们普遍接受,就如同今天的人们信赖银行一样。

 

三、产品 

    2005年,IBMEMCHPNetAppSUN等厂商相继推出了多款应用存储虚拟化技术的产品。

 

1、国外存储虚拟化产品

    作为最基本的存储虚拟化形式,存储资源虚拟化也是市场上,几乎所有磁盘存储产品的基本功能,特别是结构虚拟化功能,比如基本的卷管理功能等。

 

    单一系统的存储虚拟化产品

    在众多的国外存储相关产品生产厂商中,HP是实力比较强的一家跨国公司,虽然HP存储虚拟化产品,在生产方面同样非常具有实力,但在兼容其它厂商产品方面却没有产品推出。
    HP生产的存储虚拟化产品是比较全面的,无论是基于主机的虚拟化、基于存储设备的虚拟化,还是基于网络层的虚拟化方式的产品,以及磁带存储,其中包括HP StorageWorks EVA、HP StorageWorks Virtual Array,以及提供多种存储服务,例如复制、snapshot和数据迁移功能的HP OpenView CASA,特别地,基于存储设备的虚拟化产品——HP StorageWorks企业虚拟阵列(EVA)是广大用户最熟悉的网络存储产品。另外,惠普凭借其100多项虚拟化技术的专利,在工业领域提供最广泛的虚拟化解决方案。

 

    异构系统的存储虚拟化产品 

    IBM TotalStorage SAN卷控制器第五版,拥有更强大的新功能和增强的设备支持能力。基于开放行业标准的IBM SAN卷控制器是第一个通过SNIA存储管理主动规范(SMI-S)一致性测试计划(SNIA-CTP)的虚拟产品。该产品可以支持EMC当前所有的Symmetrix DMX和CLARiiON产品系列,以及EMC最新的CLARiiON CX系列产品,包括CX300、CX500和CX700磁盘阵列。此外,该产品还支持日立和HP的多种磁盘阵列。
    IBM的Tivoli Storage Network Manager是一种遵循ANSI SAN标准的可扩展解决方案,可发现、监控和管理企业SAN架构组件,并可分配和自动操纵企业的附加磁盘存储资源。Tivoli NetView使客户可以从一个单一控制台监视和控制其SAN、LAN及WAN等网络。在没有存储空间的情况下,可自动扩展文件系统,系统管理人员可定义Policy(策略)阈值,如果超过了该阈值,Tivoli Storage Network Manager将自动分配额外的磁盘资源,并扩展文件系统来保持持续的应用过程。
    EMC正式在国内宣布推出其Invista的存储虚拟化产品,Invista采用EMC一直力推的基于网络的存储虚拟化结构,在这一点上EMC与IBM有着相同的主张,这和二者在建造大型的计算机系统方面的技术优势密不可分。在结构上,Invista采用的是In-band模式,虚拟化子系统具有很强的功能,后端支持多种异构存储设备。
    日立公司的TagmaStore™通用存储虚拟化平台,已实现对EMC Symmetrix DMX 800、1000、2000、3000、CLARiiON和Symmetrix 3000、5000及8000系列存储系统的支持;另外,也包括对EMC CLARiiON CX系列存储系统的支持。基于这一平台可以将数据从CLARiiON移动到Symmetrix,或从后者移回前者。此外,它还支持主机的ESCON和FICON,以及文件服务NAS的连接,更加有效地实现了对ILM的支持。
    从1999年公司在以色列成立开始,StoreAge公司就一直致力于开放环境中的存储虚拟化产品的研发。到2002年,StoreAge的存储虚拟化产品正式推向欧美市场,公司的营业额和客户数每年都呈倍数增长,其在多厂商异构系统的存储虚拟化方面,有着自己独特的解决方案,特别是其主推产品SVM所采用的带外虚拟化方式,在系统扩展性方面具有更多优势。在对硬件设备的支持上,SVM目前支持光纤设备,支持iSCSI以及更多的工业标准和开放系统也是SVM的目标。
    美国的FalconStor(飞康)公司是网络存储行业中少有的几家以存储软件作为主要产品的企业,其开发的IPStor 智能网络存储软件,充分体现了虚拟存储的精髓——从设备的整合到存储服务的整合,是针对异构存储产品进行虚拟化的产品,它采用的是In-band虚拟化模式,也是基于存储设备来实现存储虚拟化的功能软件。

 

    虚拟磁带库产品

    作为全球最大的磁带存储生产厂商,也是最早提出信息生命周期管理概念的StorageTek公司被SUN公司收购,在业界引起了不小的震动。作为SUN公司来说,这是站稳存储领域的一大举措,而对于StorageTek公司而言,并不意味着磁带产品的衰落,被收购后StorageTek又推出了L1400磁带库,在访问效率和存储容量上都有了很大的提高,很好地实现了结构虚拟化,有效地支持了信息生命周期管理。
    在几个大型存储厂商中HP和IBM的磁带存储产品也颇具影响力,HP StorageWorks VLS6000使用磁盘存储代替了磁带存储,并模拟磁带存储接口,使得系统在随机读写性能和吞吐率方面都有了大幅提升。

 

2、国内存储虚拟化产品 

    国内厂商多生产磁盘阵列或中低端的NAS系统等,或者通过代理和采用OEM国外厂商的产品。另外,由于国内市场远未达到饱和状态,DAS产品仍占有很大的比例,在中低端市场其表现尤为突出,这既有用户认识的问题,也有目前中低端产品的价格偏高的因素。预计到2007年,国内中低端存储市场总量将达到20多亿元,而目前的产品销售尚不到一半,且基本为国外存储厂商所占有,国内厂商占的却很少。面对巨大的市场空白,国内大型IT企业在自主研发方面的投入不足、战略决策的滞后和短视行为还很严重。
    在为数不多的几家国内厂商中,以网络存储作为主营业务的寥寥无几,大恒存储是比较典型的企业;另有部分厂商,如联想和浪潮分别与HDS和EMC先后进行了战略合作,要真正生产出具有自主核心知识产权的产品尚待时日,在存储虚拟化产品方面尚无产能。
    此外,依托于中国科学院计算技术研究所的国家高性能计算机工程技术研究中心始终坚持着自主研发的发展方向,并通过北京中科储天信息技术有限公司,将其国内领先的、自主研发的先进技术进行产品化,形成蓝鲸网络存储系列产品,而其中的蓝鲸虚拟存储系统具有鲜明的技术特点,是国内唯一采用带外存储虚拟化方式的、具有自主知识产权的IP SAN系统,该系统具有超强的在线可扩展能力。

 

四、存储虚拟化的未来发展方向

 

(一)   存储网格 

    自从网格思想产生之初,人们就常以电力网为例来类比网格的思想和现实形态,这无疑是一种较为现实的、易于理解的类比方式,也道出了网格的很多本质特性,自治性(机制)和共享性(机制)是人们关注网格的最主要原因。但不得不提的是,作为一个系统网格必须是可控的,这一点在现实的电力网中也是如此。同时,网格也必须是可测量的、安全的,这几点是作为现实可行的技术所必须具备的条件,而正是在这样几点上对网格的发展,构成了很大的障碍,原因在于到目前为止,在这些方面的理论和技术准备并不充分。
    存储网格是实现存储资源自主、有序、合理“流动”的系统,由存储网格软件所构成的存储资源的势能评价体系(内存“脏”页的标记就是一种简单的评价)为存储资源的调配提供了可实时决策的依据。存储资源是一种概念抽象,它既可能包含了类似Cache这样易失特性的存储介质,也可能包含了磁盘存储、磁带存储这样的非易失性存储,而光盘存储也是可以涵盖在其中的,那么应该如何理解存储资源的“流动”呢,存储资源的“流动”表现为由存储网格软件所评价出的存储资源对象的特性与数据对象的匹配过程,例如:数据对象的重要性或安全性需求降低后,原来用来保存该数据对象的存储资源对象将不适合,那么也就产生了数据对象迁移的需求,而存储网格可以按照一定的规则实现这一自动的迁移过程,从而产生了存储资源的“流动”(由此也可以看出这种所谓的“流动”有如电流和电荷的关系一样,是一种相对的概念,是一种理论抽象的结果)。存储网格中实现共享和自治机制的存储网格软件,以及实现存储对象与数据对象匹配的操作等等是存储网格的技术支撑,而这些软件所依托的理论和实现模型,以及对象(包括存储资源对象、数据对象、系统资源对象等)的概念抽象是存储网格的核心之所在。
    目前,存储网格被理解为多种多样的形式,但多片面地强调其某一个侧面,而忽略了其内在规律性,无论是将存储网格描述为全交换或全联通的网络拓扑结构,还是强调它所带来的灵活性、安全性、互操作性等等,包括p2p技术,这都是存储网格的外在表现或实现层面的局部特征,而构成存储网格的核心思想并不在于此。
    存储网格从思想到实现并不存在半点玄妙的东西,它所想表达的思想和技术是人们习以为常的众多自然、物理规律,乃至社会规律在计算机系统构成中的自然延伸,存储网格将是人们尊重规律来发展技术的必然选择。而就存储虚拟化这一论题而言,存储网格与其并不在一个层面上,但从广义上讲存储网格是存储虚拟化技术的归宿之一。

(二)   以数据为核心的存储构成理念

 

    随着人们对信息需求的不断增长,数据量呈现不断激增的态势,其直接表现是社会各单位对于存储资源的需求量也越来越大,而随着整个社会对信息的依存度的不断提高,信息载体——数据的重要性也随之得到提升。由此也促使着人们的管理理念正从以计算为核心、以存储为核心逐步转向以数据为核心,随着数据存储容量和数据服务种类的增加,如何更为合理、有效地保证数据服务质量的问题便愈显突出,但目前的解决方式还是在单一HSM的配置下,对所有的数据服务均配以相同质量的存储服务,或者人为地针对不同数据服务要求设定存储服务质量,例如ILM管理理念指导下的方法,但这些都不是从根本上给出解决这一问题的方法。

 

1、现有的存储构成理念

    从网络存储设备及接口方面考虑,卡耐基梅隆大学(Carnegie-Mellon University或CMU)还在研究和标准化NASD(Network Attached Secure Disk);从智能化磁盘设备方面,国外已有一些相关研究。从国内来看,网络存储方向的新技术研究相对较少。

 

    NASD

    CMU的NASD(Network Attached Secure Disk)是一个较早提出的磁盘系统。它的提出为网络智能磁盘的标准化做出了很大的贡献。美国国家存储工业委员会NSIC(National Storage Industry Consortium)提出的OSD(Object-Based Storage Device)模型就是基于NASD。

    这些系统的研究重点是存储设备的功能及其接口协议。NASD提供给用户的不是磁盘块接口,而是磁盘对象接口。在多数情况下,磁盘对象都是对应着文件。一个磁盘对象可以有许多由磁盘系统管理的属性,其中包括大小、各种时间等。

 

    活跃磁盘设备(Active Disk

    卡耐基梅隆大学(Carnegie Mellon University)和加州大学的Santa Barbara分校与马里兰大学(Maryland University)分别进行了活跃磁盘相关的研究项目。
    两个关于活跃磁盘的研究项目都是利用磁盘内部的CPU和内存资源。随着硬件技术及磁盘技术的发展,磁盘内部的CPU及内存资源越来越丰富。在近几年内,服务器所使用磁盘内部的嵌入式CPU可达到200 MIPS的处理能力,而内存容量也相应地可达到32MB~64MB。活跃磁盘的这两个研究项目就是研究和设计一个分布式的系统结构,使得应用程序的一部分可以动态地下载到磁盘中去并在磁盘的运行环境中执行。其结果不仅充分地利用了磁盘的处理能力,大大降低了存储容量的增长速度与CPU处理能力的增长速度之间的差异。与此同时,由于磁盘内嵌入式CPU的有效使用,大大降低了对于I/O带宽的要求。
    卡耐基梅隆大学所进行的项目主要研究基于扫描算法的各种应用,其中包括最近邻居的查找,常用的集合,以及图像边缘的探测等。这些问题对于磁盘的处理能力及内存容量要求都较低,对于磁盘间的通讯没有任何要求。
    加州大学的Santa Barbara分校与马里兰大学联合所进行的项目主要研究类似的问题,其中包括数据库内的选择操作,并行排序,数据立方操作,以及图像处理等。该研究要求更强的磁盘CPU处理能力及内存容量,对于磁盘间的通讯也有一定要求。

 

    智能磁盘设备(Intelligent Disk)

    在活跃磁盘研究项目的基础上,加州大学的伯克利分校开始了智能磁盘设备的研究。与活跃磁盘不同,智能磁盘对于磁盘的CPU能力、内存容量、磁盘间的通讯带宽都有更高的要求。与此相应,智能磁盘除了针对数据库、决策支持系统之外,还面向更为广泛的应用,其中包括降低数据写延迟、软件RAID的实现、系统自动配置等。

    在智能磁盘的研究中,还有许多问题并未能够解决。例如,智能磁盘的软件系统结构,及智能磁盘的操作系统所应提供的服务等。

 

   自省存储设备(Introspective Storage for Data-Intensive Network Services

    与前面几个研究项目类似,加州大学的伯克利分校所进行的自省存储设备项目也是在充分意识到存储容量的增长与CPU处理能力的增长之间的差异,基于嵌入式CPU技术的发展和普及所设计的一种新型智能存储系统结构。与以上的研究不同,处理试图解决系统的性能和可扩展性外,该项目的研究焦点更集中在系统的高可用及自我管理和维护功能方面。其所面向的应用主要包括电子商务、信息检索和获取、以及在线决策支持等。
    在这个系统结构中,I/O设备,特别是存储设备,都具有智能处理能力,并且成为系统的最为基本的子系统。从硬件构成方面,自省系统是以I/O为核心,所有的设备都是标准的、可互换的,通过智能机箱与网络相连,从而构成完整系统。软件系统的系统结构主要支持各种的系统检测和相应处理能力的需求,并且系统能够自动生成常用的检测和处理程序。该项目已衍变为另一个研究领域:ROC(Recovery Oriented Computing)。
    上述研究的重点更多地还是关注于系统的计算能力,I/O是所有优化的核心,但从中也可以看到有些研究开始关注于应用的特性,如上述的活跃磁盘设备和智能磁盘设备,而这仅仅是一种理念转变的开端。

 

2、现有存储构成理念的问题 

    HSM是在以计算为中心的历史条件下,由IBM首先提出的一种存储管理结构。为了更好地适应计算能力的发展速度,计算机系统的构成必须将存储部件按照与计算部件的交互关系有层次的连接,与计算部件直接交互的为读写速度最快的存储部件,其它间接交互的存储部件的读写速度次之,依次形成了一级Cache、二级Cache、内存以及磁盘设备或磁带设备这样一个分层的存储管理结构,这种构成的主要出发点是为了使存储能力适应计算能力。
    ILM是二十世纪九十年代产生的一种以合理使用存储资源为目标的理念,它之所以没有能够像HSM一样在存储系统结构方面产生较大的影响,原因在于人们对于存储系统的理解普遍认识是,存储系统是计算机系统中最不活跃的成分,它受硬件构成等因素的影响无法实现自主灵活性。因此,ILM仅停留在管理理念的层面上,而具体体现在数据管理功能上,对存储系统的需求是对多介质存储系统的统一管理。

 

3、以数据为核心

    计算系统存在的价值在于它能够实现数据处理功能,计算系统是一种重要的、难以替代的工具,但无论怎样,数据才是最终的核心所在,在以数据为核心的理念指导下,存储系统构建的思想也必然应该进行相应的调整。
以数据为核心首先关注的是存储如何更好地表达和体现数据对象的特性,从这一观察角度来看,适应数据对象特性的变化,存储结构必然是对象化的,HSM和ILM仅是一些特例的实现手段,而存储的性能(带宽、缓存等)、存储的效能(造价、能耗)、存储的安全性(有无单点故障、是否支持冗余)等等都是描述存储对象所应考虑的重点,这将是存储虚拟化未来发展的重要方向之一。

 

五、结束语 

    纵观网络存储市场,存储虚拟化技术产品已经非常普遍,但用户所渴求的、能够实现对异构系统或多厂商产品进行统一管理的存储虚拟化技术和产品并不多,而且对于中低端市场用户来说,这些产品还难以企及,这也预示着,这方面的存储虚拟化技术和产品的广阔市场前景。随着国内外存储厂商的不断努力,以及网络存储管理标准的不断推进,预计在3到5年的时间内会有很大的突破。