大数据存储解决方案提供商

媒体报道 当前位置 >> 新闻中心 >> 媒体报道

计算机报:备份技术浅析

发布日期:2011-08-19

中国科学院计算技术研究所工程中心 徐伟

 

序言

    信息化建设的不断深入,越来越多的业务通过计算机处理,越来越多的数据需要保护。数据是否安全已和企业命运紧密相关,数据的重要性日益凸现。根据Strategic Research Corporation公司对2004年企业IT部门在存储的六大方面费用的预测,数据备份占据了首位,超过存储管理、容灾等方面花销一倍以上,数据备份在存储系统中的重要性由此可见一斑。本文介绍了备份的概念,并概述了相关技术,力图使读者对备份有个概略性的理解。同时,本文重点详细说明了中国科学院计算技术研究所国家高性能计算机工程技术研究中心所研发的具有自主知识产权的备份产品。

 

概述

概念

    备份:存储在非易失性存储介质(通常是可移动存储介质)上的数据集合,这些数据用来进行原始数据丢失或者不可访问条件下的数据恢复,也称为备份拷贝。为了保证恢复时备份的可用性,备份必须在一致性状态下通过拷贝原始数据来实现。

 

相关技术

    我们将从备份级别、备份方式和备份层次这几个方面概述一下备份的相关技术,力图使读者对备份有个概略性的理解。

 

备份级别

    全量备份:将所有指定的数据对象进行备份(不论数据对象自上次备份之后是否修改过)的备份过程。全量备份是进行增量备份的基础。

    累积增量备份:自上次全量备份以来所有修改过的数据对象都要进行备份。对于使用累积增量备份技术的数据,要实现数据的恢复,只需要最近一次的全量备份数据以及最近一次的累积增量备份数据。

    差分增量备份:对所有自上次全量备份或者增量备份操作以来所修改过的数据对象进行备份。要恢复使用差分增量备份技术的数据,需要最近完全备份操作的备份数据以及所有差分增量备份所备份的数据(而非最近全量备份所备份的数据)。

 

备份分类

    离线备份:在离线备份中,正在备份的数据在备份过程中不能被应用程序访问。

    在线备份:在在线备份中,正在备份的数据在备份过程中仍然可以被应用程序访问。数据集合的在线备份通常是使用数据的冻结映像(frozen image)来完成。

 

备份方式

    本地备份:应用服务器读数据,并直接存储在本地的介质(磁盘或者磁带),因此备份数据流会对应用服务器产生显著的影响。

    Lan备份:应用服务器读数据,并通过LAN将其发送到备份服务器上,因此备份数据流不仅要影响应用服务器,而且会影响LAN。

    LAN-free备份:在这种备份技术中,某个SAN装置执行实际的备份I/O操作,从而将LAN服务器从为LAN客户端执行I/O操作的工作中解放出来。LAN-free备份技术与Server-free备份技术的差别在于:LAN-free备份需要额外的SAN装置来执行备份I/O操作。

    Serverless备份:在该方法中,实际的备份I/O操作由需要备份的磁盘或者接收备份的磁带来管理和执行。Serverless备份使得LAN服务器无需参与LAN客户机的I/O操作过程,同时减少了备份数据经过处理器内存的时间。与LAN-free备份技术不同的是:Serverless备份不需要额外的SAN装置来从LAN服务器上卸载备份I/O操作。

 

产品

    目前市场上著名的备份软件品牌有国外的 VERITAS NetBackup和Backup exec 、CA BrightStor 、Legato NetWorker 、IBM TSM 等等,但这些国外巨头的产品因为如下原因并不适合国内许多发展中的企业:

1.主要针对磁带进行数据备份,价格昂贵,总体拥有成本(TCO)高。

2.对于国内中小企业来说其价格,足以让人望而却步.

3.功能庞大、复杂、冗余,需要专业操作人员,受使用环境、水平的限制,它们的许多功能对于国内中小企业来说可能永远不会使用,而且操作人员需要经过专业培训——这不仅是一种资源浪费,而且提高了企业的人力成本。

4. 国内中小企业数据备份近年来才逐渐兴起,这些软件还没有充分做好本地化。

近年来,中国科学院计算技术研究所国家高性能计算机工程技术研究中心(以下简称工程中心)一直致力于以网络存储为中心的计算机系统的研究。在国家863、973、自然科学基金以及百人计划等项目资助下,先后研究开发了蓝鲸集群文件系统、蓝鲸服务部署系统、蓝鲸虚拟存储系统等一系列网络存储核心技术和相关衍生产品。结合存储系统,工程中心研制了蓝鲸数据备份系统(耀马系统,简称YOM),该系统是一个高可扩展的备份系统,实现集中管理,提供高性能的备份和简便的管理,简化复杂网络环境中的客户机备份工作。

 

                 图1. 耀马系统结构图

    耀马系统组成如图1所示,主要由备份管理服务器、备份介质服务器、备份客户端代理和管理控制台组成。备份管理服务器:任务发起、调度,负事件处理,管理数据库和整个备份系统;备份介质服务器:将数据保存在存储介质上,并完成数据整合;备份客户端代理:客户端的数据备份和恢复;Web管理控制台:备份管理员通过管理控制台对备份系统进行管理和操作。

    耀马系统特点如下所示:1. 基于D2D2T的备份结构。 2. 基于快照的数据保护。3. 提供设备级的块级增量、差量和全量备份方式。4. 提供文件级的块级增量、差量和全量备份方式。 5. 支持检查点的重启动。 6. 基于WEB的管理。 7. 基于策略备份管理。8. 基于策略的融合功能。9. 提供事件处理机制。 10. 支持LAN-Free和Off-Host的备份方式。11. 可扩展性强。

下面,我们将详细说明耀马系统的几个主要特点。

基于D2D2T的备份结构

图2. 以磁盘备份管理为核心的备份架构

    图2 描述了工程中心以磁盘备份管理为核心的备份结构。备份数据首先存放在磁盘上,作为近线存储。用户系统所使用的所有数据都由生产存储系统直接提供,而用户系统的“原始”数据完全存储于磁带存储系统之中。在生产存储系统与磁带存储系统之间,磁盘备份管理系统将备份所用的磁盘资源,按需组织为(多级)缓存存储系统。作为智能化的数据管理系统,磁盘备份系统可以按照用户的需求合成所需的中间数据(如自主数据融合),满足用户的生产需求。备份系统在磁盘部分完成主要的备份管理工作,备份数据根据需求在磁盘备份系统与磁带库间迁移。磁盘特性使得备份数据融合、备份数据冗余配置等备份管理灵活高效,数据保护变得更简单,更可靠。

 

基于策略备份管理

    根据企业业务数据可用性要求配置备份策略,备份系统根据配置的策略自动实现无人值守备份,降低备份管理成本。例如:现有三台计算机c1、c2和c3, 这三台计算机上数据保护要求分别为:c1要求每周做一次全量备份,每天做一次增量备份;c2要求每两周做一次全量备份,每天做一次增量备份;c3要求每一个月做一次全量备份,每天做一次差量备份。利用耀马系统得策略备份管理功能,可以使用户轻松的配置三个备份策略,即可满足这三台计算机的备份要求。

   

基于策略的融合功能

    提供根据数据的特性进行智能化的备份数据管理。备份管理员不需要知道备份数据在介质端的详细信息,仅仅通过备份管理控制台进行简单的数据融合策略配置,系统就能够根据策略对备份数据进行智能化的管理,提高介质资源使用率,降低数据管理成本。

    基于策略的自主融合模式让用户能够仅以时间概念定义数据的保护周期和粒度,简化了用户管理的复杂度。例如用户可定义在三个月前的数据以月粒度保存备份数据,而在最近两个月以周粒度、本月以日粒度来保存备份数据。备份系统可根据具体要求在后台自动进行备份融合,使用磁盘作为存储介质使这一操作能快速方便地完成。

 


                  图3. 融合算法示意图

    如图3所示,数据1在版本n和版本2中都修改了,则选择版本n的状态,因为此数据在版本2中的状态已经在版本n中被修改了,所以版本n中的状态才是最近的;同理,数据2只在版本2修改过,则选择版本2的状态;数据4在版本1和版本n都修改过,只选择版本n的状态。所有数据融合完成后,这n个版本融合成一个版本,代表此段时间内所有的数据修改。

      

 

基于快照的数据保护:

    通过工程中心存储系统的底层设备级和文件级快照机制支持,可以进行设备级和文件级的在线备份,并能以更小粒度的备份单位实现备份,从而使得备份数据更少,备份窗口更小,备份速度更快。

 

支持LAN-Free和off-Host的备份方式:

    YOM提供企业SAN环境下LAN-Free备份方式的支持,使备份任务不占用企业应用网络带宽,使得大量数据流无需流过服务器,极大降低了备份操作对生产系统的影响。YOM支持OFF-Host方式的备份,使得备份任务不占用备份客户机的资源。

 

可扩展性强:

    耀马系统通过备份管理服务器控制客户代理和介质服务器,由客户代理和介质服务器之间传送数据流,从而实现了控制流和数据流的分离。由于控制流所占用资源非常小,所以备份管理服务器可以并发控制多个客户代理和介质服务器。而数据流对磁盘I/O占用非常大,所以使客户代理与介质服务器一一匹配。当添加客户代理时,根据所计算出的最大并行度,添加介质服务器,即可保持扩展后系统性能仍然最佳。

 

结束语

    中科院计算所工程中心将会在此基础上进一步完善现有的备份产品,并积极向数据保护相关领域进发,为打造国有自主产权的数据保护产品倾注全力。