分布式数据库存储模型是如何实现数据高效存储与管理的?
分布式数据库存储模型
分布式数据库系统(Distributed Database System, DDBS)是一种在多个物理位置存储和管理数据的系统,通过网络实现数据通信和协调,这种系统能够提供高可用性、高性能和灵活的数据管理方式,适用于现代大规模数据处理需求,本文将详细介绍分布式数据库存储模型的各个方面,包括其定义、特点、优缺点以及分类。
一、分布式数据库系统
1、定义:
分布式数据库系统是指数据存放在计算机网络的不同场地的计算机中,每个场地都具有自治处理能力并且可以完成局部应用,而且每一个场地也参与全局应用程序的执行,全局应用程序可以通过网络通信访问系统中多个场地的数据。
2、与集中式系统的区别:
集中式数据库系统是指数据库中所有数据都集中储存在一台计算机上,数据的处理也集中在一台计算机上,而分布式数据库系统是把分散在各处的数据库系统通过网络通信连接起来形成的系统。
3、特点:
数据独立性:除了具有常规的逻辑独立性与物理独立性外,还具有数据分布独立性。
集中与自治相结合的数据结构:各局部的DBMS可以独立的管理局部数据库,具有自治功能;系统也设有集中控制机制,协调各局部DBMS的工作,执行全局应用。
适当增加了数据冗余度:通过适当增加数据冗余可以方便检索,减少通信代价,提高系统的查询速度。
全局的一致性:可串行性和可恢复性。
4、优缺点:
优点:
具有灵活的体系结构
适应分布式的管理和控制机构
系统可靠性高
局部应用的响应速度快
可扩展性好,易于集成现有系统
经济性能优越
缺点:
系统开销大,主要花在通信部分
存取结构复杂
数据的安全性与保密性较难处理
5、数据共享:
局部共享:在局部数据库存储局部场地上各用户共享的数据,这些数据是本地用户常用的。
同构异质型DDBS:在分布式数据库系统的各个场地也存储供其他场地的用户共享的数据,支持系统的全局应用。
6、分类:
同构同质型DDBS:各场地采用同一类型的数据模型(比如都是关系型),并且都是同一型号的数据库管理系统。
同构异质型DDBS:各个场地采用同一类型的数据模型,但是数据库管理系统不是同一型号(譬如:SQL/DS, DB2, ORACLE等)。
异构型DDBS:各个场地的数据模型是不同的类型。
二、分布式数据库系统体系结构
1、数据存储:
数据分布:数据分布也称为“数据分配”,是指数据在计算机网络各场地上的分配策略,数据的分配策略主要有集中式、分割式、全复制式和混合式。
集中式:所有数据均安排在同一个场地。
分割式:所有数据只有一份,分割安置在若干个场地。
全复制式:数据在每个场地重复存储。
混合式:数据库分为若干个可相交的子集,每个子集安置在一个或多个场地上,但是每一个场地未必保存全部数据。
数据分片:数据分片的主要方式有水平分片、垂直分片、导出分片和混合型分片。
水平分片:按照一定的条件把全局关系按行分为若干不相交子集,每个子集为关系的一个片段。
垂直分片:把每一个全局关系的属性集分为若干子集,在子集上做投影运算,每个投影为垂直分片。
导出分片:又称为导出水平分片,即水平分片的条件不是本关系属性的条件,而是其他关系属性的条件。
混合型分片:按水平或垂直分片方式得到的片段继续按另一种方式进行分片。
2、模式结构:
全局外模式:是全局应用的用户视图,是全局概念模式的子集。
全局概念模式:定义了分布式数据库系统的整体逻辑结构,使得数据如同没有分布一样。
分片模式:定义片段以及全局关系与片段之间的映像。
分布模式:片段是全局关系的逻辑部分,一个片段在物理上可以分配到网络的不同结点上,分布模式定义片段的存放结点,根据分部策略选择定义片段的存放场地。
局部概念模式:定义了分布式数据库中局部数据的逻辑结构。
局部内模式:定义了分布式数据库中局部数据的物理结构。
3、分布透明性:
分片透明性:指用户或应用程序只对全局关系进行操作而不必考虑关系的分片,当分片模式改变了,由于有全局概念模式到分片模式的映像存在,全局模式不变,应用出现不必改写。
位置透明性:是指用户和应用程序不必知道片段的存储场地,当存储场地改变,由于分片模式到分布模式的映像存在,应用程序不必改写。
局部数据模型透明性:是指用户和应用程序不必了解局部场地上使用的是哪种数据模型,模型的转换以及数据库语言的转换均由映像完成。
三、分布式数据库管理系统
1、组成:
查询子系统:负责接收用户请求,访问网络数据字典,数据的分布式处理,协调局部DBMS与其他计算机的DBMS,在异构型分布式环境中,提供数据与进程移植的支持。
完整性子系统:确保数据的完整性和一致性。
调度子系统:负责任务的调度和资源的分配。
可靠性子系统:确保系统的稳定运行和数据的可靠存储。
2、存在的问题:
不同场地的通信速度:与局部DBS的存储部件的存取速度相比,是非常慢的。
通信系统有较高的存取处理延迟。
在CPU上处理通信的代价很高。
不同通信系统有不同意义的字符,数据的转换速度不一样,可能会相差1000倍,存取延迟也可能相差1000000倍。
四、分布式查询处理
1、查询处理的传输代价:
在分布式查询中,数据传输是衡量查询时间的主要指标,不同查询处理技术差别很大。
在集中式数据库中,查询执行开销为I/O代价+CPU代价。
在分布式查询数据库中,查询执行开销为I/O代价+CPU代价+通信代价。
2、连接查询的优化:
为了减少数据网络传输量,提高查询速度,需要连接查询优化,主要有两种策略。
使用半连接来缩减关系(或片段)进行节省传输开销。
直接使用连接的查询优化方案。
分布式数据库存储模型通过其独特的体系结构和管理模式,提供了高可用性、高性能和灵活的数据管理方式,适应了现代大规模数据处理的需求,它也面临着通信开销大、存取结构复杂和数据安全性等问题,未来的发展将更加注重性能优化、智能化管理和安全保障,以满足更高技术要求的应用开发。
小伙伴们,上文介绍了“分布式数据库存储模型”的内容,你了解清楚吗?希望对你有所帮助,任何问题可以给我留言,让我们下期再见吧。
暂无评论,1人围观