网络存储设备
随着计算机及其网络的应用发展与普及,信息的存储与管理已经成为核心问题。受这种变化的影响,计算机和网络系统的设计也在发生结构方面的变化。
早期的计算机系统把数据作为应用的附属,着眼点是从功能服务的角度为每一位用户提供数据集合的管理服务,即便是中央处理机直接管理的存储器也会被分割成若干部分后提供给各个终端用户。此时存储器只是系统附属的外部设备,中央处理机十分繁忙,数据的使用效率不高,而系统开销却很大。具有代表性的存储管理方式是直接存储,简称DAS(Direct Attached Storage)。
随着数据地位的提升,信息设备制造者和系统集成设计者将数据存储设备与网络系统中的各种服务器同等对待,使用户群按数据服务器进行分类管理。在这种系统中,数据处理较为方便,系统资源得到较为合理的分配,不过仍存在数据资源较为分散的问题,使数据的一致性、安全性、有效性的保证比较复杂。与此相对应的是档案信息管理与文件管理结合而出现的信息跨部门流动的文档一体化的应用模式。具有代表性的存储管理方式是网络附属存储,简称NAS(Network Attached Storage)。
随着信息网络应用的扩展,信息处理量的进一步扩大,信息处理本身已经占据了系统运行的主要位置。于是以信息存储设备为中心的计算网络系统应运而生。在这种系统中,数据成为系统的主角,用户群的分类和管理是围绕着数据处理设备进行的。在这种系统中,数据的真实性、完整性和安全性等都可以得到很好的保证,数据的管理效率很高,且系统资源的配置和使用更为合理。与此相对应的是档案信息化工作中的多种信息的整合,以及数字档案馆的建设与应用。具有代表。性的存储管理方式是存储域网络,简称SAN(Storage Area Network)。
以下分别对上述几种存储管理结构或模式的特点进行介绍和比较,以利于在此基础上进行档案信息化系统的规划、设计和应用。
1 直接连接存储(DAS)
直接连接存储是最为常见的在线存储方式。在这种方式决定的存储结构下,存储设备通过集成电路设备(IDE/SCSI)等I/O总线与通用文件服务器相连,客户机的数据访问必须通过服务器,然后经过其I/O总线访问相应的存储设备,服务器实际上起到一种存储转发的作用,安全性比较高。IDE是集成电路设备的缩写,微机中的标准IDE设备有两种:硬盘和光驱。SCSI是小型计算机系统接口的缩写,这个设备可以提高I/O性能,同时又消除外设连接上的困难,减少软件问题的PC接口。当同时提到IDE/SCSI时,常是指两种硬盘的数据传输方式。
这种存储结构的缺陷是,客户机(用户终端)访问的所有数据都需要通过通用文件服务器存储转发,较多地占用了服务器的内存、CPU和I/O总线等系统资源,当客户连接数增多时,I/O 总线将会成为一个潜在的瓶颈,并且会影响到服务器本身的功能,严重时甚至会导致系统的崩溃。此外,这种结构的可扩展性差,其扩充网络存储容量的方法是为服务器增加更新、更快速的存储器。如服务器上可供挂接的驱动器已满,就只有考虑另买一台昂贵的服务器来扩容了。随之而来的是响应时间变长,复杂性、维护及管理负载增加以及数据可用性等问题。另外增加几个存储器,其价格虽不昂贵,但是关掉服务器安装存储盘所造成的停工时间使用户的服务得不到保障,也会给用户带来一定的损失。
因而,这种存储结构不适用于信息量或业务量较大的用户对信息的存取处理,而多用于数据量不大、信息处理不频繁的中小用户。
2 网络附加存储(NAS)
网络附加存储是从传统的文件服务器发展起来的一种专有系统,它和其他节点设备一样直接连接在局域网上,可以像网络打印机一样被其他节点共享。 NAS设备包括存储器件(如磁盘阵列RAID、CD或DVD驱动器、磁带驱动器或可移动的存储介质)和功能服务器。也就是说,采用NAS结构时,存储系统不再通过I/O总线附属于某个特定的服务器或客户机,而是直接通过网络接口与网络直接相连,由用户通过网络访问。可见在NAS中,存储器已经提升到“用户”的位置,也就是说用户与数据可融为一体,这样系统对用户的数据处理效率自然提高了很多。与DAS相比,NAS具有一些明显的优势。这种存储设备的优点体现在:
(1)易于安装。一般通用服务器的安装和配置较复杂,而NAS具有安装容易、快速的特点,只需将它与网络相连,通过Web浏览器即可完成其配置和管理。
(2)成本较低。由于NAS设备专为文件共享功能设计,不需要键盘、显示器、光驱等通用服务器所需部件,其价格比通用服务器便宜。使用NAS较其他解决方案,可节约成本1/3.
(3)易于维护。在需要增加存储空间时,只需在网络上增加新的NAS设备即可,不影响网络中的其他任何节点。
对于信息量不断增大,数字化档案数量不断增长的一些中小型用户来说,NAS是DAS更新换代时的较好的选择,因为增加NAS设备并不仅仅是以较低的成本扩大了网络的存储空间。NAS设备可以与原有的文件服务器配合使用,较好地保护了用户的前期投资, NAS也可以与多功能服务器配合使用,这样可以减轻服务器的工作压力,节省更多的时间进行其他应用,从而提高网络的性能。
但同时NAS也有一些不足之处,对于信息量很大的数字化档案来说,也许更为明显。如它的安全性较差,由于NAS的存储设备直接与以太网连接,其安全性较DAS大大降低,通常必须设置防火墙;它的数据备份能力较差,通常NAS 设备不能直接备份在设备(如专用磁带机或磁带库)上,只能采用基于网络的备份,增加了网络信息流量,同时也给灾难恢复造成困难。
对于NAS 的应用也有一些争议。有人指出,1996年以来 NAS开始成为最佳的网络存储解决方案。对广大的政府部门及学校等事业单位和中小型企业来说,NAS将是较好的选择。在档案信息管理的文档一体化应用阶段,NAS的确是很好的应用模式,但对数据量更大的情况,应用NAS就不一定适用了,这也就是在NAS开始大展身手的时候,出现了强有力的竞争对手,即存储域网络(SAN)的原因。
3 存储域网络(SAN)
存储域网络是一种类似于普通局域网的一种高速存储网络。它通过专用的集线器、交换机和网关建立起与服务器和存储设备(如磁盘阵列和磁带库)之间的直接连接,但其接口通常不是以太网,而是ESCON企业系统连接)、SCSI、SSA(串行存储区域)、HIPPI(高性能并行接口)或FC(光纤通道)。从某种意义上说,与其把SAN当作一种产品,倒不如把它看作配置网络化存储的一种模式。SAN这种网络技术使存储设备不再附属于某个服务器,而允许存储设备脱离服务器,从而组成与计算网相对应的存储区域网络,由此产生了通常所说的前端网和后端网。在SAN中不同平台的服务器可以对多个存储设备进行存储,使存储成为可由所有服务器共享的资源。SAN还能在存储设备之间传输、复制数据,实现无主机备份。可以说,在SAN中,存储设备是网络的核心,这对于以数据处理为主要业务对象的用户来说,是非常合适的。与其他存储结构相比,SAN具有一些明显的优势:
(1)在可扩展性方面,SAN比传统的存储架构具有更明显的优势,传统的服务器连接存储通常难以更新或集中管理,必须关闭服务器才能增加和配置新的存储,而SAN不必宕机和中断与服务器的连接即可增加存储容量,SAN还可以集中管理数据,从而降低了总体成本。同时,它还克服NAS了在扩展中对IP地址的依赖,达到了真正的易于扩展性。
(2)在SAN结构出现以前,服务器与存储设备之间一般采用SCSI总线连接,连接距离以往最长为15米,连接设备数目最大为16个,局限性很大。SAN结构采用光纤连接,其连接距离最长可达10公里,如果与数据通讯网络连接,距离可达数千公里以上,连接设备的数量几乎不受限制。利用光纤连接距离长的特点,可以提高容灾的远程实时备份能力。将存储设备同时部署在本地和数公里外的其他地点,本地和远程存储设备中的数据完全一致,在发生灾害时,部署在远程地点的网络设备可以接管各种应用,为用户提供不中断的服务。
(3)以太网及其他局域网技术是基于不可靠介质而设计的,在计算机中需要对每个网络包进行传输校验及重发,消耗大量的CPU资源,增加服务器的负担,而光纤通道比传统网络的可靠性提高了数个数量级,传输误码率极低。目前光纤的传输速度为100MB/s,很快将会发展到200MB/s和400MB/s。在光纤通道上以SCSI协议进行大规模数据传输时,在如此高的传输速度下,对CPU资源的占用却极小。
(4)备份操作是将磁盘阵列中的数据复制到磁带库上,在传统的DAS和NAS结构中,数据须经由局域网传输,服务器先将数据从磁盘阵列中读出,再通过LAN传送到另一服务器,由该服务器将数据备份到磁带库中。
在SAN结构中,服务器可同时访问磁盘阵列和磁带库,因此可由同一台服务器来完成备份,将数据从磁盘阵列中读出后备份到磁带库中。由于备份操作不需要经过局域网,而直接通过光纤传输,备份速度很高,而且不占用局域网的带宽,因此SAN备份也被称作独立于局域网的备份(LAN – free Backup)。SAN备份的一个发展趋势是Serve-Free备份,可以做到在备份操作中不需要服务器参与,数据直接在磁盘阵列和磁带库之间传输。SAN在推广应用中也有一些问题或缺陷:
(1)系统造价较高,实现SAN需要在原有网络设施外另外组建一个光纤网络。SAN部件的价格较高,根据统计,平均每GB数据,NAS的费用为20-50美元,而SAN则是150-200美元。
(2)SAN的硬件、软件之间目前还存在兼容性问题,所以它虽然实现了SAN环境中数据的集中存储,但要实现数据完全共享还受到较大限制,需要客户端的操作系统对其他操作系统的数据格式有较好的支持。
SAN主要用于电信、银行、保险等数据量较大的用户。在数字档案馆的建设中,SAN有很好的应用前景。
在档案信息化建设中上述几种存储模式和相应的设备都可以获得适当的应用,选择要点有以下一些:已经保有的数据量;每年的数据增加量;数据的使用频率;需要联机存储的数据量;数据的重要程度;数据的种类多少;数据来源和采集方法;数据的安全等级;数据的容灾等级等。