大数据存储解决方案提供商

媒体报道 当前位置 >> 新闻中心 >> 媒体报道

计算机报:从高性能计算排行榜看存储系统发展

发布日期:2006-02-16

作者:中科院计算所工程中心主任 许鲁研究员


    随着计算机应用技术、硬件技术和网络技术的日新月异,存储技术也在飞速发展。在发展过程中,经历了以CPU和以内存为中心的发展阶段之后,计算机系统已经进入到以存储为中心的发展阶段。这使能存储系统逐渐地不再直接依附于计算机或服务器本身,而成为了相对独立的系统。但是,存储系统与计算系统依然有着密不可分的关系,特别是在以数据处理为中心的今天。面向未来,高性能计算领域(HPC)对于存储技术的发展趋势有着重要的推动和牵引作用。鉴于HPC的这种影响,本文主要从HPC市场的发展,试图分析未来存储系统的发展趋势。

    根据2005年底,国际高性能计算行业发布的TOP 500分析报告,以下分别对未来全球高性能计算和存储系统的技术发展趋势,以及对存储技术的发展远景进行总体分析与展望。

 

一、高性能计算发展趋势


    在过去的二十年中,高性能计算发展相当迅速,而且后续发展势头依然强劲。纵观其发展历史,高性能计算已表现出相当明确的发展趋势,如下图中所示。
 


在图中,可以明显地推断出如下几个发展趋势:

首先,x86及其兼容的处理器在过去的发展中不断占有更大的市场份额,逐渐形成了压倒性优势;

Linux操作系统不断蚕食其它操作系统的市场,已经成为HPC中的“标准”系统选择;

工业应用已经成为主体应用,这表明了HPC应用需求和应用技术越来越旺盛和成熟。其中,数据处理成为核心问题,如在地球物理、大气气象、生物信息等领域。微软在HPC领域的推动是这方面的明证,值得充分重视;

经过长时间的发展,集群系统结构已经成为主流结构,具有压倒性优势;

千兆以太网技术已经成为发展互联技术的首选,占有了近于一半的市场份额。随着万兆以太网的推广,以太网作为互联技术值得密切关注;

随着硬件成本的迅速降低,系统规模越来越大,数百个计算节点的系统已经司空见惯。

 

 

二、存储技术的发展趋势


    由于高性能计算依然会持续发展,这些发展趋势在一定时间内也依然会不断持续。在应用需求和应用技术日益成熟的今天,这些发展趋势对于中高端存储技术的发展,提出了重要的影响和更高的需求。下面,我们针对相关发展趋势,分析其影响所在。

    应用领域日趋广泛,特别是在各种工业应用领域,发展尤为迅速。其中,在地球物理、半导体、大气气象等以数据处理为核心的应用领域迅速崛起。高性能计算的日益成熟与数据处理的巨大需求,直接推动了面向高性能计算的存储系统发展。在应用技术日益成熟的今天,应用系统与存储系统的持续、可集成性需求也日益强烈。IP/以太网络技术的开放性和可集成性成为IP网络存储技术发展的直接推动力。

    集群系统:针对集群系统技术日益成熟,并成为主流的现状,对于集群文件系统的需求日益强劲。集群文件系统应该具备可以支持大规模数据的有效传输,支持多计算节点间的数据有效共享。此外,计算节点的重复安装、配置等管理工作降低了集群系统的使用效率。因此,以存储为中心的集群系统高效管理技术已经成为研发热点。

    以太网技术作为互联技术已经成为高性能计算的主流技术(占49.8%),而且其比例仍然在扩大。一方面,说明了以太网技术的日益成熟(包括聚合带宽、单端口带宽和成本、技术集成度等);另一方面,说明了即使在高性能计算领域,用户对于系统成本(包括采购、管理和运营)也是较为敏感的。这同样将会影响存储技术的选择,特别是在存储系统成本,在整个系统成本中的所占比例日渐提高的今天。若将互联网络技术与存储网络技术统一,势必将大大降低系统总体成本,提高整体系统的集成度。IP/以太网络技术的成熟程度,特别是其开放性和可集成性使得IP网络存储技术具有特殊的诱惑力。

    大规模系统:随着软、硬件成本的下降,计算设备数量日益增加,动辄数十乃至于数百台服务器的计算环境已为常见。由此出现以下一些问题:

    计算机数量的增加,不仅导致计算系统本身能耗过高,而且相应机房制冷设备的能耗也同比例增长。与数量的增加相反,计算机的利用效率反而不断降低。这种高昂成本和低利用率,不仅限制了现有规模系统应用领域的进一步拓展,而且限制了计算机系统规模的持续增加。这直接引发了存储与计算分离技术,和以此为基础的计算资源部署技术的发展。通过两者的分离,有效地将计算设备资源化,并且按照需求调度计算资源,从而大大提高计算资源的利用率,降低对计算资源总体数量的需求。

    计算机管理问题越发严重。计算机的安装、配置、维护成本,已经成为不可忽视的成本组成部分。为了解决系统管理与维护问题,以存储与计算分离技术为基础的层叠式快照和虚拟共享存储卷管理等多种存储核心技术,以及相关的备份和恢复技术迅速崛起。

    数据通道已经成为瓶颈。数量众多的计算节点、高并发的数据访问,势必给存储系统带来极高的压力,从而要求存储网络及存储系统可以满足聚合高效率、高带宽的数据访问需求。高聚合带宽的需求,直接推动了集群存储技术的发展。此外,IP/以太网络技术的成熟程度和其高聚合带宽的优势,使能了IP存储技术的发展。随着万兆以太网络的普及,将一定程度上解决以太网络单端口带宽低的问题,并进一步强化IP网络高聚合带宽的优势。

    数据量日渐庞大。众多的计算节点具有巨大的数据处理能力,如地球物理、大气气象、遥感信息等相关应用领域,数据量巨大。这些需求,要求存储系统能够提供巨大的存储容量和丰富的数据管理功能,以此将推动PB级存储系统的研究热潮。大容量、高性能的存储与优异的性价比形成反差,进一步强化了存储与数据分离的趋势。在分离的基础上,使能存储和数据的资源化,基于存储对象技术和层次化存储技术,增强存储系统的层次化,推动数据的集中管理和数据的按需部署等技术的发展。

 

 

三、存储技术的远景展望


    为了满足各种应用需求,存储系统已经开始向高速发展的阶段迈进。目前主要分为以下几个发展方向:虚拟存储系统、服务部署系统、集群文件系统和数据管理系统。

(一)     虚拟存储系统:国外的IBM、HP、StoreAge、VERITAS、EMC和 StorageTek等厂商,已把虚拟存储(虚拟磁盘存储、共享虚拟磁盘阵列和虚拟存储管理)作为其核心技术。

(二)     服务部署系统:现已有IBM实验室研发的Oceano、Purdue大学研究的SODA和Duke大学提出的COD系统。

(三)     集群文件系统:在国外,已呈现出由Lustre(Linux Cluster)设计并实现的一个基于存储区域网的集群文件系统、IBM公司的Storage Tank以及基于Storage Tank的TotalStorage SAN File System和Panasas公司的PanFS系统。

(四)     数据管理系统:EMC和国外厂商基于ILM理念推出了各种管理系统。此外,数据搜索和数据索引技术发展迅速。Google和微软都推出了桌面搜索工具。

    然而,作为国内的权威研发机构的中国科学院计算技术研究所国家高性能计算机工程技术研究中心,在上述发展方向上,相继研发出具有自主知识产权的蓝鲸虚拟存储系统、蓝鲸服务部署系统、蓝鲸集群文件系统和蓝鲸数据备份系统。

    在社会的迅速发展中,伴随着各行业中数据量的不断地增加,存储技术的研究和开发热潮也将迅速升温。面向未来,以高性能计算为龙头牵引,在iSCSI和SATA/SAS等技术的作用下,存储系统将朝着IP存储技术、部署技术、虚拟化技术、集群技术、对象化技术、数据管理技术等多个方面迅速发展。