大数据存储解决方案提供商

媒体报道 当前位置 >> 新闻中心 >> 媒体报道

计算所所刊:看新媒体行业存储发展需求

发布日期:2011-08-17

  2006年以视频网站为代表的新媒体迅速崛起,例如IPTV、视频分享网站、视频搜索网站、有视频服务的互动社区、交友、博客、播客等新兴媒体发展迅猛。新媒体行业现已成为众多产业关注与投资的焦点,这为新媒体产业的发展提供了良好的环境基础。其后,伴随着投资、收购、合并等产业的变革,更为新媒体的高歌猛进提供了动力。在新媒体行业发展前景一片大好的同时,问题也随之显现,到2007年情况发生了一些变化,资本对新媒体行业变得谨慎,对商业模式的创新和成本控制提出了更高的要求。

 

  IT架构将会如何应对商业模式创新和成本控制的挑战? 商业模式的创新,需要满足人们对更丰富多彩的媒体资源的渴求和交互体验的欲望。仅有纯文字的表现形式已经不能满足需求,用户需要更丰富的数字出版物、图片、声音以及视频来表达和交流;仅有单向的传播已经不能满足需求,用户需要更丰富的交流与互动体验;IT架构必须能够承载和传播这些呈爆发式增长的非结构化的数据。成本控制的压力,需要我们采用可扩展的柔性结构,IT架构的整体拥有成本最好能随着业务需求的增长而增长,而不是需要超前的投资。然而,用户访问量的增长却从没有停止过──相对于传统应用,视频应用有着非常大的用户数量上涨空间,随着网站的优化整合,用户将更加集中于优秀的新媒体,IT设施将面临更大挑战。

 

  那么,新媒体需要什么样的IT结构、什么样的存储系统才能更好地来支撑商业模式的创新,并合理地控制成本呢?下面将以在新媒体中最具代表性的视频分享网站为例,来分析新媒体对IT结构及其中的存储系统的需求。

 

  一、视频网站的结构及需求

  视频网站的IT结构:分别由流媒体服务器、Web服务器、在线录制服务器、视频转换服务器、数据库服务器、管理服务器、图片服务器和其他服务器等一系列不同数量的服务器组成。

 

  

 

  1.由这几个部分组合起来的IT结构,如何才能支撑视频分享门户的竞争优势呢?我们从以下两方面来分析:

  交互性体验方面:首先,为满足用户对交互体验的需要并保持自身的原创优势,需要为用户提供视频上传和在线录制视频的功能;其次,需要把不同格式的视频,转换成该网站统一的格式;最后,需要在上传后尽快发布以供播出。

  服务压力方面:首先,不但需要应对已有的大数量的用户访问,而且将迎接持续的访问量增长;其次,当用户访问量增加时,需要保持良好的反映速度和响应时间;最后,必须面对清晰度日渐提高后,码流增大所带来的服务压力。

  2.在各个技术层面上,我们如何更好地满足上述诸多需要呢?

  在编解码技术层面:编解码技术不断推陈出新,我们可以看到解码效果更好,编码压缩率更高的编解码方式等诸多方面均有良好进展。由中科院计算所牵头制定的AVS标准,是具有我国自主知识产权的新一代编解码标准,将促进我国新媒体行业的健康发展。

  在媒体的传输层面:CDN技术已经比较成熟,P2P技术的发展也非常迅速,虽然存在缺乏统一标准等问题,但无法掩盖P2P技术的锋芒。目前,已有不少的视频平台运营商采用了P2P技术。此外,CDN+P2P的复合技术也有了比较好的发展。

  在媒体的服务提供层面:服务器集群技术已经相当成熟:双机到多机的数据库集群、由DNS轮询或相关技术实现的Web服务器集群、由相关查询指向技术实现的流媒体服务器集群等都可以比较方便地实现。成熟的服务器集群技术可以实现按需增加相应应用服务器来应对业务需求,足以为新媒体行业提供良好的支撑。

  在媒体资源存储方面:需要有大容量、高带宽、可共享的存储技术来支撑,而传统的存储结构和存储技术却不能很好地满足视频网站的存储需求。那么视频网站在存储方面都有什么具体的要求,怎么样才能够满足这些要求呢?

 

  二、存储需求

  下面我们通过一个实例来详细分析视频网站的存储需求:

  首先是选择存储系统的体系结构。传统存储的体系结构无非有两种:集中式和分布式。新媒体存储方案面临着集中式存储和分布式存储两种选择,两种结构各有优缺点,选择起来其实是比较困难的。本案中的视频网站的存储结构经历了“集中──分布──分布式的集中存储”的变迁:

  1.集中式存储

  网站建立之初,采用了集中式的存储结构。

  集中式的存储方案如下图:

 

  

 

  很多新媒体的存储采用的大多类似于上图的、集中式的存储结构来存放所有媒体数据,通常为NAS架构。简单地说,就是一台大容量的文件服务器,而高端的NAS结构是由一个NAS头后面接SAS、SCSI或光纤盘阵。

  集中式存储的优点是比较明显的:

  ·集中存储可实现服务的负载均衡,由于流媒体服务间的数据都是共享且统一的,当发生热点繁忙时,所有流媒体服务器都可为其提供服务,分减压力,而不像分布式的存储会出现热点繁忙、没有热点内容的存储出现空闲这种不均匀情况。

  ·集中存储提高了存储资源的利用率。

  ·集中的高Raid级别保护成本较低,分布式存储都实现Raid保护成本高昂。

  ·集中的备份(快照)恢复,能方便地实现远程容灾。

  ·集中存储方案管理复杂度相对较低,以管理Mount点为例:需管理Mount点的数量为16(M+N+F+W)个,即上图中的16根蓝线。

  ·集中存储同时也是对流媒体服务器视频内容的集中管理。

  虽有以上优点,但在视频网站发展和访问量增长的同时,该网站最终还是放弃集中式的存储结构转而采用分布式的存储结构,这是为什么呢?

  原因是:NAS头成为存储瓶颈……

 

  

 

  在这幅图中,我们可以看到传统的集中存储方案存在如下问题:

  ·I/O瓶颈

  ·容量扩展性差

  ·性能不可扩展

  ·专业高端NAS成本高昂

  ·单点故障

 

  

 

  随着数据量的增加,存储压力也变得越来越集中,NAS已不足以支撑现有的应用,无法更好地应对未来的挑战。

  2.分布式存储

  后来,该网站从集中式的存储方式转向了采用分布式的存储方式。

  下图中,每台服务器上都提供文件共享服务,由应用层来实现媒体资源数据在各个服务器集群之间的迁移,从而比较好地解决了集中存储的I/O瓶颈问题。但是问题也随之而来:

  ·分布式的存储没有负载均衡,例如:发生热点的时候,部分流媒体服务器忙或部分闲置

  ·分布式存储利用率相对较低,重复数据大量存在,且份数多

  ·无法实现集中的高Raid级别保护

  ·快照、备份、恢复、远程容灾比集中存储实现成本高

  ·需要在应用层对存储层过多关注,管理复杂度呈几何级增长,整体系统维护工作越来越复杂、繁重。以管理Mount点为例:同样的服务器数,需管理Mount点的数量为48?[M*(N+F)+W*N]个,即上图中的48根红线,远大于集中存储结构。这仅仅是Mount点一项,还不包括各个点存储数据的维护,在实际应用中相关的工作量相当惊人,管理员疲于奔命。

 

  

 

  3.视频网站的存储需求

  既然传统的集中和分布都存在不同的问题,怎么样去解决?在给出答案之前,我们重新归纳前面分析的视频网站对存储的需求:

  ·各种服务器集群之间有视频传递的需求,需要上传服务器、流媒体服务器、在线录制服务器和转换服务器之间的视频文件是互相可见的,翻译成存储的语言则需要文件级共享的存储。

  ·各种应用服务器可能使用着不同的操作系统平台,都需要无差异地访问到存储空间,而翻译成存储的语言则需要跨平台共享的存储。

  ·多台流媒体服务器之间的存储容量需要共享,从而提高存储空间的利用率。如采用传统SAN上面划分独立的存储空间,给每台服务器的类似做法显然是不可接受的,并且需要视频内容合理地分布在各个存储设备上,翻译成存储的语言则需要存储容量的负载均衡。

  ·单台存储设备的存储速度始终是有限的,需要多个存储设备的聚合才能满足视频内容访问量的爆炸式的增长,翻译成存储的语言则需要多台存储设备间的存储速度的聚合,从而实现存储速度的负载均衡。

  ·新增视频内容的不断添加会导致存储容量的不断扩大,在添加设备扩展容量的时候,能够不影响原有系统,且平滑扩展,能够实现在线的扩展业务系统不停机,翻译成存储的语言则需要容量线性可扩展,能够实现在线扩容。

  ·随着用户访问量增长和视频清晰度提高带来的带宽增长等诸多增长因素的影响,对存储带宽的增长需求要求存储系统实现带宽随容量呈线性增长。

  ·合理的成本控制是一个恒久的话题,需要存储系统的总体拥有成本随容量的扩展而合理的扩展,不能出现突变式的增长。

  ·稳定性自然不用说,需要存储系统采用冗余结构以提高系统的稳定性。