项目背景
新疆油田公司勘探开发研究院地球物理研究所(以下简称新疆石油地物所),位于新疆首府乌鲁木齐,是集石油地震勘探数据处理、资料解释及地质综合研究和计算机软件开发为一体的高科技单位。2006年中油股份公司为改善勘探环境,对新疆油田PC集群地震处理系统进行了扩充。目前该所已拥有1000多个计算节点、1900多个CPU的PC集群地震处理系统、56个CPU的SGI Origin 2000并行计算机系统、200多套高性能图形工作站,数据存储系统总容量达到了180TB。多台万兆高效交换机进行互联,使新疆油田公司物探技术水平继续保持在世界领先水平。被称为中国西北地区最具影响力的地震资料处理解释中心。随着业务规模的不断扩大,在工作中存储系统性能瓶颈与计算节点部署与管理限制了生产效率的提高。
解决方案
采用3套BWStor CSA为业务数据提供存储服务:
1、756台PC Cluster安装BWFS的客户端通过以太网接入使用共享存储平台。
2、选择双控光纤盘阵,8台16盘位磁盘柜+6台IO节点模式进行数据存储。
3、元数据服务器以带外方式进行整个文件系统的元数据管理,提供文件级共享的集中存储。
采用3套Bladmin系统数据提供存储服务:
1、采用Bladmin服务器双机,后端连接光纤磁盘阵列,前端连接1000台PC Cluster。
2、PC Cluster的系统数据(系统盘+应用)、通过Bladmin服务器存储与阵列上。
3、通过Bladmin服务器提供系统数据的网络启动,克隆,批量分发和动态绑定等操作。

蓝鲸存储助力新疆石油勘探信息处理拓扑图
应用效果
|
存在问题 |
解决方案 |
提升
计算效率 |
共享存储性能低,发挥不出大规模刀片的计算性能。 |
在并行计算中,128个计算节点同时完成一个作业,其I/O性能呈线性分布,高性能计算得出结果的时间能够比NAS系统缩短一半甚至更多。

在常规计算中,计算时间比NAS系统缩短的更多,而且性能呈线性稳定增长。 |
部署便捷 |
对集群节点上进行系统和应用软件的升级、更新等方面的部署操作,目前软件费时、费力,安装时间平均每个计算节点需要30分钟左右,两个刀片机柜28片需要半天时间,全部刀片则需要更长时间。 |
只需对一台机器的网络磁盘进行应用程序的完全安装升级操作,通过快照技术对上百个节点在15分钟内就可以完成集群节点的统一安装部署与并发启动,省时、省力降低传统部署带来的能源消耗等问题,并且同时可以马上对升级的节点进行统一可用性测试,减小工作量与时间。 |
降低管理维护成本 |
随着集群节点的增加,计算节点磁盘以及磁盘相关的散热装置损坏概率大为上升,已成为大规模集群管理与维护的主要负担并带来较长的业务中断时间;
而计算节点本地硬件Raid保护以及全光纤SAN连接的成本也带来较高负担。 |
首先,集中存储的高Raid级别保护提高可靠性,减小业务中断概率;
其次,出现软硬件故障修复后软件重新部署时间由30分钟缩短到几分钟,减小业务中断时间;
再者,不需要计算节点本地磁盘冗余,减少相当数量本地磁盘,降低用电以及发热带来的成本。 |
灵活切换调度 |
操作系统和应用系统与计算资源紧密绑定,计算资源无法被充分快速的进行系统级别的调度以满足不同情况的计算需求,从一定程度上降低了利用率。 |
灵活调度节点资源,将需求节点进行整合,通过快速切换功能实现合理调度资源的功效。 |
灵活监控 |
不能对集群的各个节点进行物理级别性能运行情况的实时监控和总结分析。 |
可以实现对各节点CPU、内存、网络流量、I/O负载等按日、周、月、年为单位进行统计。 |