档案之窗

扫一扫关注

当前位置: 首页 » 技术 » 档案信息化 » 正文

数据库系统概述

放大字体  缩小字体 发布日期:2018-09-13 16:45:26    浏览次数:11    评论:0
导读

数据库系统概述数据库是20世纪60年代末期发展起来的数据管理技术,经过近40年的发展,各方面的性能有了长足的进步,建立了较完整的数据库理论体系,出现了一批相当成熟的数据库平台,如Oracle、DB2、Sybase、SQL-Server等。数据库技术的应用使信息系统有了一个可实际运行的存储、维护信息和向应用系统提供数据的软件系统。

数据库系统概述

数据库是20世纪60年代末期发展起来的数据管理技术,经过近40年的发展,各方面的性能有了长足的进步,建立了较完整的数据库理论体系,出现了一批相当成熟的数据库平台,如OracleDB2SybaseSQL-Server等。数据库技术的应用使信息系统有了一个可实际运行的存储、维护信息和向应用系统提供数据的软件系统。档案数据库的建设与应用,为档案信息资源的建设和管理奠定了一个坚实的技术基础。

1 数据库的构成

数据库系统是存储介质、处理对象和管理系统的集合体。它通常由软件、数据库和数据管理员组成。其软件主要包括操作系统、各种宿主语言、实用程序以及数据库管理系统。数据库是依照某种数据模型组织起来并存放于二级存储器中的数据集合。这些数据为多个应用程序服务,独立于具体的应用程序。数据库由数据库管理系统统一管理,数据的插入、修改和检索均要通过数据库管理系统进行。

数据库管理系统是一种系统软件,它的主要功能是维护数据库并有效地访问数据库中任意部分数据。对数据库的维护包括保持数据的完整性、一致性和安全性。数据管理员负责创建、监控和维护整个数据库,使数据能被任何有权使用的人有效使用。

数据库系统要完成的工作包括:

1)建立数据模型,使用户可以根据数据模型访问数据库中的数据(如检索、插入、删除和修改),而不必关心数据的物理存储位置。数据模型要能反映各种数据之间的内在联系。

2)数据也应有组织地存放在存储设备上,并建立数据模型到物理存储位置的对应表(这种对应称为映射),它使系统能够按照用户的访问请求,找到被访问数据的存储位置。建立数据模型和设计数据的物理存储(组织)方法,其目的是方便用户对数据的应用,与数据的存放位置和存储结构无关。后者的变动不影响前者,这称为数据独立性。

3)数据库系统要为不同用户确定不同的访问权限并进行访问控制。

4)提供以数据库为基础的各种应用服务。

上述各种功能都是在数据库管理系统(英语缩写为DBMS)的统一管理和控制下实现的。数据库系统需要设立数据库管理员,负责协调和监视数据库的使用,一旦发现违反安全保密或性能下降的现象,立即采取相应对策。因此,一个数据库系统由数据库、数据库管理系统、应用程序和数据库管理员四部分组成。在不引起混淆的情况下,数据库系统有时也简称数据库。

至此不难理解,数据库系统是实现有组织地、动态地存储大量关联数据,支持多用户访问的计算机软、硬件资源及DBA组成的系统。

2 数据库的类型

1.关系式数据库

数据库是在文件系统的基础上发展起来的,这种文件管理方式也就是我们在Windows系统中使用的资源管理器的前身。需要先将所有的各种信息数据存放在各自的文件里面,当要使用这些信息数据的时候,将文件打开,读取文件中的数据到内存中。当执行完信息处理计算过程后,将计算结果仍旧写入到文件中去。这种工作方法虽然简单,但有很多不足之处,如无法对数据进行有效的统一管理。应用程序的设计者需要对程序所使用的文件的逻辑结构和物理结构都了解得非常清楚。如有若干个格式相差很大的文件协同工作,程序编制工作就会变得复杂,这样就大大增加了编程的工作量,从而使得在文件级别上开发应用程序的效率非常低下,严重影响应用软件的发展。基于操作系统的文件系统一般都不支持并行工作,这样对于计算机来说,大多数部件在工作中处于等待状态,对于计算机资源浪费极大。

基于文件系统的数据管理缺乏整体性、统一性,在数据的结构、编码、表示格式等诸多方面不能做到标准化、规范化,不同的操作系统有风格迥异的表示方式,因此在一定程度上造成了数据管理的混乱。另外,基于文件系统的数据管理在数据的安全性和保密性方面难以采取有效的措施,在一些对安全性要求比较高的场合,这种安全上的缺陷是不允许的。人们针对基于文件系统的数据管理的缺陷,从理论到实践都进行了一系列的改进,至20世纪70年代初,E.F.Codd在总结当时存在的各种数据库模型优缺点的基础上,提出了关系数据模型的概念,提出了关系代数和关系演算(直到今天,E.F.Codd的这些基本理论还在左右着数据库系统的发展,也依然是高校计算机专业课堂上所要讲述的重要内容)。在整个70年代,关系数据库系统无论从理论上还是实践上都取得了丰硕的成果。在理论上,确立了完整的关系模型理论、数据依赖理论和关系数据库的设计理论。在实践上,世界上出现了很多著名的关系数据库系统,比较著名的如Ingres.OracleSybase等。

关系模型建立在严密的数学概念之上,它用“二维表格”来表示事物及事物之间的联系。反映事物的信息数据是二维表格中的元素,而二维表格即表示关系。表格中的一行称为一个元组,相当于一个记录;表格中的一列称为一个属性,相当于一个字段。属性的取值范围称为域。一个或若干个属性的集合称为关键字,它惟一地标识一个元组。表格有几列,则称这种关系为几元关系。关系应满足:二维表中每一列中的元素是类型相同的数据;列的顺序可以任意;行的顺序也可以任意;表中的元素是不可再分的最小数据项,即一列只能有一个属性;表中任意两行的记录不能相同,表中不允许有表。因此,关系数据库中的每一个记录是惟一的,所有的记录具有相同个数和类型的字段,即每一个记录都有固定的长度和格式。具有:对事物描述的一致性,即事物和事物之间的联系都用关系表来表示;可以直接表示“多对多”的联系,如上级业务主管部门可以向各地的对口部门或企业收取多种业务报表,基层单位也可以向多个上级业务部门递送同一张业务报表;关系规范化,不允许有表中表存在;概念简单,操作方便,数据独立性高,用户使用方便,容易掌握。

2.非关系式数据库

关系式数据库的出现,使得大部分信息资源数据库应用都可以使用这种方式予以解决。但是,也应看到,关系式数据库是基于字段的记录结构,对于文本类型的信息存储、检索、修改等等仍有许多不便之处,不便于对大量文本内容的查询,而此项工作恰恰是办公自动化中的重要内容,需要一种面向文档处理的数据库。非关系式数据库就是为适应这类问题的处理而产生的。著名的Lotus Domino中的数据库就是这类数据库的代表。首先,Notes是一个文档数据库管理系统。在Notes中,所有的应用都以数据库的形式出现,所处理的对象实际就是数据库中的文档。这里所说的文档可以将其理解为前面所讲关系数据库中的“记录”。关系数据库是由一个个“记录”组成,Notes数据库则是由一个个“文档”组成,用户可以使用按需求设计的数据库管理程序在数据库中建立文档,并且按照定制的工作流程对文档进行处理。每个数据库都可以包含不同格式和类型的文档。

文档数据库系统的一大特征是,它实现了对非结构化信息的存储和管理,而这正是一般关系型数据库系统的不足之处。

为了方便信息的管理,Notes提供了以下功能:

1RTF文本域。可以在Notes文档的RTF(一种可以在不同结构的计算机中通用的文件格式)文本域中保存多种类型的信息,例如:从其他程序(如字处理软件、电子邮件、绘图或关系型数据库等)获得的文本、表格、OTE对象、 Web页面以及图片、声音和动画等多媒体信息。

2)视图和文件夹。使用视图和文件夹来组织数据库中的文档,它们能方便用户查询数据库中的文档。在形似树状目录结构的视图和文件夹结构中,用户可以根据自己的需要来选择不同的视图或文件夹,通过不同的视角查询和处理文档。

3)链接和热点。Notes文档中可以包含指向一个文档、视图(或文件夹)或数据库的链接,当用户单击代表该链接的图标时,当前窗口将切换到链接所指向的对象。另外,在Notes文档中还可以包含各种热点文本,用户单击热点文本时可以显示出文本提示框或者执行预先指定的操作。这样,用户就可以在一个文档中同时访问多个数据库中的信息,从而提高了 文档的灵活性和实时性。

4)搜索和索引。Notes带有内置的全文搜索引擎,用户可以在数据库的搜索条件框中输入搜索条件来搜索所需的文档,并可按某种条件对搜索结果进行排序。另外,还可以对数据库进行全文索引,这样可以加速对数据库的搜索。

5)版本跟踪。为了体现多用户协同工作的特性,适应工作组协同行动的需要,Notes提供了文档的版本跟踪功能。当一个用户在共享数据库中保存了文档之后,他不必担心因其他用户的编辑而丢失自己所保存的内容。对文档实行了版本跟踪以后, 将把对文档所做的修改另存为新的文档,即原文档的新版本。这样,用户对文档进行修改就不会影响到其他用户的工作内容。

3.多媒体型数据库

多媒体数据库技术是计算机多媒体处理技术与数据库技术的结合,是当前最有吸引力的数据库技术之一。多媒体数据信息的数据库管理方法就是要像传统商业数据的数据库管理方法一样,以数据模型为中心,支持多媒体数据间的语义关联,相应地,把支持这种管理方式的软件称为多媒体数据库管理系统(MDBMS)。由于多媒体数据库所处理的对象比传统的关系数据库管理系统(RDBMS) 所处理的对象要复杂得多,因此,应采取不同的技术措施,以满足多媒体信息管理的要求。多媒体数据库中包含的多媒体数据有字符、数字、文本、声音、图像(包括视频、动画)、图形等主要类型。然而声音与图像的媒体形式较多,如声音可以用音乐数据:五线谱、简谱、波表等,也有语音数据(波形数据),还可以有单声道数据或多声道数据。图像数据就更复杂了。由于一种媒体格式往往又可以演变成多种,不同的媒体类型需要一些不同的处理方法,这就要求多媒体数据库系统要有一定的可扩展性,以支持新的媒体类型和相应的处理方法。

多媒体数据库所具有的数据量庞大、类型种类多、联系复杂、需要多种媒体的综合表现和处理等特点,使得现有的文件系统和基于字符、数值型的数据库管理技术难以满足对多媒体数据管理的要求,必须研究和探索新的多媒体数据管理技术。

目前,因对多媒体数据管理的强烈要求,众多关系数据库厂商纷纷推出其支持多媒体数据管理的数据库产品,一般是采取扩展关系系统的方式来实现的。其扩展体现在数据类型、存取方式、开发工具等层次上,如Borland公司的Paradox for windows 就增加了四种数据类型用以管理多媒体数据,它们是动态注释(Dynamic memo、格式注释(Formatted memo、图形(Craph和二进制大对象(BLOB。前两种用于存储文本数据,格式注释类型还可用于描述文本的字体大小、颜色等属性,图形属性可用于存储具有标准图形、图像格式的图形图像文件(如BMPEPSGWTIFPCX等格式),BLOB 类型可用于存储任意类型的二进制数据,如可BLOB用存储音频和运动视频、CAD中的图形等。Microsoft公司的FoxPro 2.5 for Windows中引入了一个新的属性类型General,它可以存放包括文本、图形、图像或声音在内的任何一种多媒体数据。InformixInformix-Online中引入了BLOB类型,使之可以把高达2GB的数据存放到该域之中,考虑到系统的效率,专门开设了BLOB空间区,使之与非BLOB数据分开存储。SybaseOracle都在此方面做了一些努力,如Oracle7.0有文本和视频两个服务器及一个源程序编辑工具集Media Object

但是我们也应看到,在多媒体信息数据检索、索引等方面,尚有许多有待解决的问题,因此多媒体数据库尚属于需要进一步完善探讨的技术,使用现有的多媒体数据库时必须注意条件和范围。

4.数据仓库

现代政府机构经常面临各种挑战和决策,如何最大限度地挖掘各种有用信息,也为计算机信息处理技术提出了新的要求。例如,如何支持数据集成。政府在发展过程中建立了许多应用系统,如公文管理、财务管理及人事管理等,积累了大量数据,并且原有应用可能是针对某个部门独立设计的,如何去运行新的应用,使这些应用可以用到已有的数据;又如,业务部门除对日常业务数据进行增、删、改等事务处理和简单汇总外,决策者往往要综合利用历史的和现在的各种数据进行综合分析。这些应用对于业务处理频繁的数据库系统而言,将成为沉重的负担。数据仓库面向复杂的数据分析,以支持决策过程,而且可以集成企业范围内的数据。它把支持决策的数据进行收集、归纳、整理,使企业的业务操作环境和信息分析环境分离,从而有效地提供实时的信息服务。数据仓库有这样几个基本特性:

1)数据仓库是“面向主题的数据组织方式”,即对应于某一个宏观分析的领域所涉及的分析对象,可以根据最终用户的观点组织和提供数据。

2)数据仓库是集成数据的统一体,即数据仓库的内容来自于前几节所描述的各种传统数据库内所累积的大量事务处理数据。经处理后将不同数据库的数据形成了整合的、结构化的、易于导航的数据,能够对决策分析进行快速、正确的响应。

3)数据仓库在一定时间内保持稳定性。一般事务性操作的数据库按工作需要经常进行数据增加、删除、修改的操作,而数据仓库的内容主要是大量历史数据,是对不同时期数据资料的综合、重组、统计导出的数据集合,一般关注于查询,仅必要时更新数据。所以数据仓库在一个较长的时期内要保持数据稳定,对其操作一般都是数据的读取。

4)数据仓库比较强调时间序列性。数据仓库的内容是对事务性数据库内容的带有时间标记的整合,以时间变化的动态过程来发现和挖掘事物发展和变化的规律,使得决策查询变得更容易、有效。而数据仓库是要建立在现有基础应用数据库内大量数据积累的基础之上的,只有搞好基础信息资源建设,才能为决策服务提供坚实的信息数据依据。

3 据库的工作类型

分布在计算机网络中每一个节点上的计算机,必须要通过一种数据存取的体系结构来获得信息资源,并通过技术手段得到维护和发展。这对于信息资源的利用和信息资源的安全很重要。了解信息资源数据库在网络中的工作结构,正确利用技术手段也是很必要的。

1.客户一服务器型

客户/服务器结构包括连接在一个网络中的多台计算机。那些处理应用程序、请求另一计算机的服务的计算机称为客户机(Client,而处理数据库的计算机称为服务器(Server),故客户/服务器结构也简称C/S结构。其中,所有用户都拥有自己的计算机来装备和处理应用程序。

客户机计算机可以是大型机、小型机或微机。但是由于微机具有成本的优势,因而通常选择它们作为客户机。同样地,服务器通常是一台微机,但在需要较大能力时,也可以使用一台大型机或小型机。在数据库环境下,通过若干称作中间件(Middle Ware)的程序设计接口,客户机可以与服务器通信。这些接口提供应用程序和数据库之间的连通性。

客户/服务器是将处理工作分散到工作站和服务器上去处理,服务器不仅负责存取数据,还要对数据做一定的处理,这样在数据发送给工作站之前即求得查询结果集,从而在大部分情况下可大大减少网络传输的开销,因此,也减轻了工作处理负担,从而只需关心用户界面的处理工作即可。

服务器处理数据带来的另一个好处是,当服务器中数据库引擎使用了缓冲机制时,多个工作站可以从中受益。例如,一用户查询了某数据,当另一用户要查询同样的数据时,即可从服务器缓冲中直接得到结果,从而免去很多开销。

客户/服务器系统一般都是由一个公司开发的,因此在数据安全方面都做得比较好,可以在客户和服务器两端都有较完整的保护措施。

客户/服务器系统的成功与否在很大程度上依赖于服务器硬件质量和容量。用户越多,服务器的处理负担越重,相应服务器硬件性能也要跟得上,否则就会导致响应时间比本地型数据库还要差的结果。

客户/服务器的客户端程序是要到客户端逐个安装的,当信息资源数据库的规模和分散程度达到一定范围时,客户端的维护和升级将变成每一个网络管理员都感到十分头疼的工作。

2.浏览器一服务器型

这种结构在20世纪90年代末期开始盛行,随着因特网浏览器功能越来越强大,在许多场合下,浏览器可以取代客户机/服务器结构的客户端软件。在这种结构下,用户界面通过ww浏览器获得对信息数据库的输入、修改、查询和数据删除信息,而主要事务处理逻辑在服务器端实现。浏览器/服务器结构利用不断成熟和普及的浏览器技术,实现原来需要复杂专用软件才能实现的强大功能,并节约了开发成本,是一种全新的软件系统构造技术,简称为B/S结构。

本质上,浏览器/服务器也是一种客户/服务器结构,它是一种由传统的二层客户/服务器结构发展而来的三层客户/服务器结构在Web上应用的特例,即浏览器/Web数据库服务器的三级客户服务器结构。三层的浏览器/服务器体系结构是把二层客户/服务器结构的事务处理逻辑模块从客户机的任务中分离出来,由单独组成的一层来负担其任务,这样客户机的压力大大减轻了,把负荷均衡地分配给了服务器,于是原来的两层客户/服务器结构转变成三层浏览器/服务器结构。

浏览器在表示层中包含系统的显示逻辑,位于客户端。它的任务是由浏览器向网络上的某一Web服务器提出服务请求,Web服务器对用户身份进行验证后,用HTTP协议把所需的主页传送给客户端,客户机接受传来的主页文件,并把它显示在Web浏览器上。

具有应用程序扩展功能的Web服务器,在功能层中包含系统的事务处理逻辑,位于Web服务器端。它的任务是接受用户的请求,首先需要执行相应的扩展应用程序与数据库进行连接,通过SQL等方式向数据库服务器提出数据处理申请,数据库服务器将数据处理的结果提交给Web服务器,再由Web服务器传送回客户端。

数据库服务器在数据层中包含系统的数据处理逻辑,位于数据库服务器端。它的任务是接受Web服务器对数据库操纵的请求,实现对数据库查询、修改、更新等功能,把运行结果提交给Web服务器。

浏览器/服务器结构极大地简化了客户机的工作,客户机上只需安装、配置少量的客户端软件即可,服务器将担负更多的工作,对数据库的访问和应用程序的执行将在服务器上完成。

3.分布式服务器型

分布式服务器是针对一些超大型数据库提出的工作方式。某些信息资源的信息量极大,如地理信息系统、全国人口户籍信息系统等,无法在一个服务器的存储单元中存放,并且也不可能在一地存放,因此必然需要利用分布式数据库来协同完成。这样的数据库体系就成为分布式数据库体系。在这个体系中,工作方式仍然是客户/服务器或浏览器/服务器方式,但信息存取和服务器端的信息管理要比单一服务器系统复杂多了。

4 数据库正常运行的基本要素

要使数据库正常工作,不仅需要有一套完善的数据库管理系统,而且要有一套保证数据库可以经常更新和不断发展的措施和制度来保障,这样才能保证数据库始终处于生命的活力区,不出现呆库、死库的情况。这些措施包括了信息资源的采集、存储与检索、分析与挖掘及信息资源共享几个方面。

1.信息资源的采集

数据库的建设,首先要做的工作就是依据信息源的内容类别进行采集工作。信息源可分为五类:自然信息源(自然界)、社会信息源( 民间)、经济信息源(产业界)④科技信息源(学界)、控制信息源(政府各部门)。在信息采集的过程中,信息产生的源头的信息采集工作,应由产生这些信息资源的所在部门的有关人员完成。政府部门最主要的信息采集方式,是从获得这些最初信息的部门或个人收集信息。由于政府要面对整个社会的各个方面,获得如此繁多种类的信息,要使其形成信息资源,就必须各部门分别行动,各负其责,才可能保证采集到的信息的完整性、一致性、真实性、连续性和权威性。因此,明确信息资源采集部门,明确信息采集目标和任务及采集内容,是政务信息资源库建设过程中进行信息采集时所必不可少的一项任务。否则,各行其是重复采集,造成信息混乱无法形成政务信息资源,将是必然的结果。

2.信息资源的存储与检索

信息存储是有组织的信息的一种表现形式,是一种形成信息资源、使之可被重复利用的行为。信息存储必须考虑两方面的因素:一是存储介质的空间容量问题,无论人的大脑还是纸张、磁盘、档案馆库房或计算机存储设备,其容量都是有限的,而信息存储的根本问题,就是如何通过有效的信息组织,高效率地利用有限的存储空间;二是存储信息的利用问题,信息存储的最终目的是为人们的随时利用提供方便,如仅考虑空间的节约,就可能妨碍人们对存储信息的利用。因此在组织信息数据库时,也要考虑大量信息如何存储,如何方便地取用。因此,信息存储不仅要有存储空间,而且要有明确的存储分类规则,便于按分类进行信息资源的组织和管理,保证信息资源可以得到有效的利用。

信息检索是信息采集和存储的反变换过程。信息采集和存储的目的是将零散的信息组成一个有序的体系,信息检索的目的则是迅速地从这个体系中搜寻出用户所需的信息。信息检索方法依据不同标准可划分为多种类型。对应于信息来源,信息检索方法可分为事实(或效据)检索方法、人名或机构名称检索方法、文献检索方法和信息资源体系(如档案馆馆藏等)检索方法等。对应于信息组织方法,信息检索方法可分为字顺(如题名、作者等)检索方法、类号检索方法、主题检索方法、关键词检索方法和加权检索方法等。由于计算机技术的发展,在计算机网络中的信息量变得越来越大,种类也越来越复杂。要保证检索得到的不发生缺漏,需要做好信息存储时的组织工作,充分利用网络组织发展出的一系列解决方法,其中包括指导式服务、资源目录、服务器注册目录、网络目录和电子图书馆等信息检索方法。由于它们都具有更多的技术含量,是网络环境中查询信息的“领航员”,可以帮助我们很好地检索分类信息。

3.信息的分析与挖掘

信息分析是将概念化的用户信息需求分解为各种简单要素及其关系,然后分别进行研究,找出其中的主要因素及其关系,并以此为依据组织信息资源的方法。信息分析主要包括要素分析、实质分析、结构与功能分析和动态平衡分析等方法。

信息分析也是一种高层次的信息工作,它既不是纯粹的学术研究活动,也不是纯粹的政务处理活动,而是两者的结合。形象地说,是政务信息资源储藏量的积累发展到一定的程度,由拥有信息资源的部门所设计或引进的一种“发电机制”,目的是将蕴藏在信息资源体系中的“势能”转化为“电能”,变输水为送电;通过信息分析工作可以进一步提高已有的信息资源的利用价值,为政府监管、政策制定和社会导向提供服务。例如各类专题编研成果就属于信息分析的一种产品。值得注意的是,专题编研成果等再生型信息产品的生命周期比较短,用户层次又比较高,需求量也比较小,这就要求信息分析必须注意速度和时效,及时地针对主要工作方向进行信息更新,不断改善信息结构,提高信息质量,尽可能地预测用户将要产生的新的需求并为之服务。

数据挖掘是从信息资源建设中建立的大型数据库或数据仓库中提取人们感兴趣的知识,这些知识是事先未知的潜在有用的信息,提取的知识表示为概念、规则、规律、模式等。也可以说,数据挖掘过程是在一些事实或观察数据的集合中寻找模式的决策支持过程。其主要功能有:自动预测趋势和行为、关联分析、聚类、概念描述、偏差检测。建立专题性的档案文献数据库,就是将数据库中的记录划分为一系列有意义的子集,即聚类。


 
(文/小编)
免责声明
• 
本文为小编原创作品,作者: 小编。欢迎转载,转载请注明原文出处:http://www.dawindow.com/tech/201809/1067.html 。本文仅代表作者个人观点,本站未对其内容进行核实,请读者仅做参考,如若文中涉及有违公德、触犯法律的内容,一经发现,立即删除,作者需自行承担相应责任。涉及到版权或其他问题,请及时联系我们kf@dawindow.com。
 

Copyright © 2018 档案之窗(dawindow.com)     深圳司捷科技有限公司    版权所有       粤ICP备18047471号-1