大数据时代数据管理技术研究综述论文

精品范文 时间:2024-02-09 07:12:57 收藏本文下载本文

第1篇:大数据时代数据管理技术研究综述论文

大数据时代数据管理技术研究综述论文

随着计算机技术和网络的快速发展,半结构化和非结构化等类型数据成几何倍增长,学习和使用大数据管理技术顺应时代发展潮流。本文从数据管理技术的发展进程出发,介绍了人工管理方式、文件系统管理方式、数据库管理方式三种阶段的管理方式。然后详细介绍了关系数据库和NoSQL非关系数据库,并且将两者从三种角度进行了对比。最后对未来大数据时代信息管理方式作出了展望。

引言

随着计算机和网络技术的快速发展,移动互联、社交网络、电子商务、云计算等各种新兴服务的兴起,极大拓展了互联网的疆界和应用领域,随之产生的是海量的数据,这些数据不仅来源的渠道多样,并且数据规模和数据种类也是快速的增长,大数据时代已经来临。大数据时代,无法将海量数据存储和管理在一台或者有限数目的服务器内,更无法借助有限的计算机去处理和管理大数据。因此,如何利用现有的资源应对当前数据量的快速增长,实现对大数据的有效、便捷、安全的管理,是当前国内外关于数据管理和数据分析亟需解决的问题。

1 数据管理技术的发展

数据管理是指对各种类型的数据进行采集、存储、分类、计算、加工、检索和传输的过程。随着计算机和网络技术的不断发展和改进,数据库管理技术也在不断的更新换代。到目前阶段为止,数据管理技术主要发展历程经历了以下阶段:人工数据管理方式、文件系统管理方式和数据库系统管理方式。

1.1 人工数据管理方式

20世纪50年代中期,计算机初期被应用于科学计算方面,因此,早期的数据处理都是手工完成的。数据存储只有磁带、卡片和纸带等低速存储设备。既没有操作系统,也没有管理数据的专门软件,此阶段管理的数据,不能进行共享,且没有独立性,数据纯粹面向应用,服务于应用。

1.2 文件系统管理方式

20世纪60年代中期,随着计算机进一步的发展,不仅用于科学计算,而且更多地用于信息处理。对于数据存储,有了磁盘、磁鼓等存储设备。操作系统和高级语言的出现为文件系统管理提供了可能。此阶段的文件系统,是按照相应的规则将数据组织成一个独立的命名文件。这一时期的数据特点是:数据可以长期存储在磁盘上、有专门的软件进行管理维护、数据不再独立存在,数据不止服务于应用,在一定程度上,数据的共享性得到了提高。

1.3 数据库系统管理方式

20世纪60年代后期,数据库系统管理方式逐渐形成并具有一定的规模。由于磁盘技术的不断进步和发展,低成本、高速的硬盘占领了市场,为新的数据管理技术提供了产生的必要条件。对应的软件技术也有一定的发展。数据库系统是由计算机的软硬件资源共同组成,实现了数据的动态、有规则、独立存储。如图1所示。

2 大数据管理技术

大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。归结为四个特点就是四“V”,即大量(Volume)、高速(Velocity)和多样性(Variety)和价值(Value)。大数据首先体现在数据量上:全球著名咨询机构IDC(国际文献资料中心)在2006年估计全世界产生的数据量是0.18ZB(1ZB=100万PB),而截至2011年这个数字已经提升了一个数量级,达到1.8ZB。这种数据产生的速度仍在增长,预计2015年将达到8ZB。随着数据量的增长,得到庞大的数据源和样本数据后,人们并不能容忍对于这些庞大的数据处理响应时间。因此,大数据需要在数据量提高的前提下,数据的处理和响应能力进行提高,从而确保数据延迟可以在人们的接受范围之内。因此数据处理要得到有效的保证,那如何存储和组织管理这些海量数据,值得我们去探索和研究。

2.1 关系型数据库(RDBMS)

2.1.1 关系数据库的提出

20世纪70年代初,IBM工程师Codd发表了一篇论文“A Relational Model of Large Shared DataBanks”,随之关系数据库时代宣告到来。关系数据库管理系统(Relational Database ManagementSystem,简称RDBMS)就是基于上述的论文而被设计出来的。在关系数据库之前的系统主要有基于层次模型的层次数据库、基于网状模型的网状数据库等。以上几种数据库的主要不足是数据模型是很难被用户所理解,并且编写的软件与数据模式依赖性比较高。Codd提出的关系数据模型是基于表格、行、列、属性等基本概念,将现实世界中的各类实体及其关系映射到表格上,并且还为关系模型建立了关系代数运算。

2.1.2 关系数据库的应用

关系数据库系统最初主要是应用于事务处理领域。随着数据的不断积累增长,人们需要对数据进行分析操作,提取出有用的信息以支持决策等等。这些分析操作主要包括简单汇总、联机分析处理(online analytical processing,简称OLAP,主要是多维分析)、统计分析、数据挖掘等。有些分析处理需要对数据集进行多次的扫描,分析查询执行的时间以分钟或者小时计。与普通行存储模式不同,一些学者提出了列存储模式(columnar storage model)。列存储模型有行存储没有的优势特征,当查询只涉及关系的某些数据列时,不会造成无关数据的提取,减少I/O操作,提高了查询的效率。围绕RDBMS,形成了一个完整的生态体系(厂家、技术、产品、服务等),提供了包括数据采集、数据管理、数据查询与分析、数据展现(即可视化)等技术和产品,创造了巨大的数据库产业,为社会发展做出了巨大贡献。

2.1.3 关系数据库的不足

大数据时代的到来,关系型数据库并未做好全面的准备,出现了诸多问题,主要问题有以下几个方面:

(1)关系模型不容易组织和管理所有类型多样的数据,例如在关系数据库里,管理大规模的高维时空数据、大规模的图像数据等都显得力不从心。

(2)如何才能通过大量节点的并行操作实现大规模数据的高速处理,仍然值得我们去探索。在关系数据库上进行大规模的事物处理,不但需要解决查询的性能问题,更需要解决修改操作的性能问题,大量的事物处理,需要高效完成,才能保证数据的持久性和可靠性。

(3)在关系数据库上进行数据的复杂分析,能够使用的是统计分析和数据挖掘软件包;现有的统计分析、数据挖掘软件包能够处理的数据量受限于内存开销,并行化程度不高。从数据库中提取数据,注入到分析软件中进行分析,在大数据时代,这样的数据移动以及不合适了。通过数据的划分和并行计算,实现高性能的数据分析成为必然选择。

从中可以得出,现如今的数据管理已经不是简单的关系型数据库可以解决的,关系型数据库在一定程度上只能解决初期的大数据管理。

2.2 NoSQL数据库管理技术

随着时代的发展,传统的关系型数据库已经无法满足人们对于更高的'并发读写、海量数据的高效存储和访问以及高扩展性和可用性等需求,出现了NoSQL数据技术。

对于NoSQL技术,学术界有两种对其的解释:(1)“Non-Relational”,也就是非关系型数据库;(2)“Not Only SQL”,即数据库不仅仅是SQL。当前第二种解释比较流行。NoSQL数据库是指数据模型定义不明确的非关系型数据库。NoSQL数据库具有灵活的数据模型、高可扩展性和美好的发展前景。下面主要介绍NoSQL的几种管理技术。

NoSQL数据库普遍采用的数据管理方式有四种:Key-Value存储方式、BigTable存储方式、Document存储方式以及Graph存储方式。2010年Rick Cattell对各种典型NoSQL系统从各个方面做了比较系统的分析。

2.2.1 基于Key-Value存储的NoSQL技术

Key-Value是NoSQL系统比较常用的数据存储方式,每个Key值对应每一个任意类的数据值,对应的对象可以是结构化数据,也可以是文档。Key-Value存储的思想是将抽取唯一可以确定数据的特征属性,作为key,并将作为value对象。基于Key-Value模型组织数据,需要将数据按照Key-Value形式存储,而后可以通过对Key-Value进行序列化排序操作继而存储、将Key-Value存储为字符串或者字节数据,并且对key建立索引以便进行快速查询。Key-Value存储方式的NoSQL系统有的采用的DISK方式存储实现同步数据复制(例如Membase等),有的采用RAM存储数据实现异步数据复制(例如Redis等)。

Jing Han等人基于Key-Value存储提出了CDSA(Cloud Data Storage Architecture),体系结构可以较好优化云计算过程中的数据查询,同时也保证了海量数据的存储。CSDA包括三层:DCL(DataCache Layer)、MDL(Memory Database Layer)、DDL(Disk Database Layer)。

2.2.2 基于BigTable存储的NoSQL技术

BigTable管理方式是Google提出来并广泛采用的存储方式,而且也被HBase、HyperTabley以及Cassandra等系统借鉴使用。在BigTable存储中,同样是通过Key-Value基础模型对数据进行建模,不一样的是Value具有了比较精巧的结构,即一个Value包含多个列,这些列还能进行分组(column family),表现出了多层嵌套映射的数据结构特点。HBase是受BigTable启发而开发的基于Column Family存储的NoSQL技术。Hbase提供系统的SQL查询接口,用户可以轻松的对数据进行管理工作。Cassandra技术也是受到BigTable的启发,只不过Cassandra做了大幅度的修改。Cassandra在Column Family下加入了超级列(super column)概念层次的映射关系,方便对数据进行建模。Cassandra还可以将多个Column Family在磁盘存储在一起,这样就可以在同时访问时提高效率。

2.2.3 基于Document存储的NoSQL技术

基于Document(文档)存储的技术以及发展很久了,例如IBM的Lotus Notes。这里所说的基于Document存储的NoSQL技术是基于传统文档存储技术的新发展、新技术。基于Document存储技术仍是以Key-Value存储模型为基本模型,此模型可以对文档的历史版本进行追踪,单个文档又是一个Key-Value的列表,形成循环嵌套的结构,对于某些特定的查询方式来说,Document存储的效率更高。因为其数据的循环嵌套的结构特点,应用程序可能会越来越复杂并且难以维护和理解。主要的技术和产品有CouchDB, MongoDB和Dynamo。

2.2.4 基于Graph存储的NoSQL技术

基于Graph存储的系统包括Ne04J, InfoGrid,Hyper Graph DB等。有些图数据库是基于面向对象数据库创建的,例如Infnite Graph,在节点的遍历等图数据的操作中,展现出了高效的性能。Graph存储方式是将整个数据集建模成一个大型的网络结构,之后再采用一系列图操作实现对数据的操作。由于图由结点和边构成,对于海量数据不能完全装入内存,因此,Graph存储方式一般是基于DISK的,NoSQL系统实现图索引,完成图的调入调出。

从数据管理的角度来看,使用非结构化Key-Value存储管理结构化大数据仍然是顺应应用需求的。因为基于Key-Value存储的Hadoop数据仓库实现技术尚处于起步阶段,需要其他数据库技术来加速器发展进程。

2.2.5 NoSQL的不足

与传统的关系型数据库相比,NoSQL非关系型数据库在并行处理方面有一定优势,但也是存在一些问题,主要体现在:

( 1) NoSQL很难实现数据的完整性

由于NoSQL项目中很难实现数据的完整性,而在企业中数据完整性又是必不可少的。因此,在企业中,NoSQL的应用还不是很广泛。

(2)成熟度不高

大部分的NoSQL数据库都是开源项目,没有世界级的数据库厂商提供完整的服务,出现问题,都是自己解决,风险较大。

(3)关系数据库比NoSQL在设计时更能够体现实际,而NoSQL数据库缺乏这种关系,难以体现业务的实际情况,对于数据库的设计与维护都增加了难度。

2.3 关系数据库和NoSQL数据库的区别

传统的关系数据库与NoSQL数据库在数据管理系统发展不同的时间段里都体现出了自己的可用性和实用性,能够解决的一定的问题。表格l将两者进行了对比。

3 数据管理方式的展望

通过上述研究分析可以看出,关系数据库已经无法满足现阶段即大数据时代人们对于数据存储和管理的需求,更高的存储效率和更快的查询速度等一系列高要求,促使数据管理方式不断向前发展。NoSQL技术在一定程度上解决了大数据时代的数据管理需求,但仍需采用新技术提高数据库的一致性和可用性。关系数据库主要优点表现在其属性值之间可以通过SQL操作进行关联操作,体现出了数据的完整性,NoSQL数据库将数据进行分布式存储,为之后的大数据处理作铺垫。关系数据库的ACID强调数据一致性通常指的是关联数据之间的逻辑关系是否正确和完整,而对于很多互联网应用来说,对一致性和隔离性的要求可以降低,而可用性的要求则更为明显。关系数据库和NoSQL数据库并不是对立的矛盾体,而是可以相互补充的,可以根据不同的需求使用不同的技术,各取所需,甚至可以共同存在,互不影响。

目前大数据的应用领域还是主要以民用为主,以电信通信为例,客户之间通信传输过程中产生海量数据,将这些海量数据进行实时存储,再利用大数据方法提取有效信息,形成整套的数据管理与分析的流程。在电信.气象、企业等领域大数据管理与分析已经有比较成熟的思路和解决方法。在航天试验领域,空间飞行器执行任务可以产生海量数据,包括飞行器自身载荷数据,以及试验任务数据,这些数据的类型多样、数据量大,随着试验任务的频率和在轨航天器数量的增大,数据管理问题日益凸显,采用大数据管理的思维解决航天试验任务中数据管理问题,是未来航天试验任务数据存储和分析的必然趋势。

4 结论

大数据时代已经向我们走来,数据管理技术已经进入了新的阶段。本文研究分析了数据管理技术的发展进程,分析了关系数据库和NoSQL数据库,并且进行了对比区分。最后,对大数据未来的管理方式作出了展望。关系数据库和NoSQL数据库系统是随着人们对于数据管理的需求产生和发展的,在不同的数据管理发展阶段,根据需要对其进行分析的数据特点,选择适当的数据管理方式,帮助人们解决了一定的问题和需求。

第2篇:大数据时代的大数据管理研究论文

大数据时代的大数据管理研究论文

信息技术作为时代不断发展的象征,不管是在我国行业的发展中,还是在人们的日常生活,都起到了重要作用。同时,在信息技术不断发展的过程中,大数据时代的应用范围也在不断的扩大,其来源渠道也非常多,数量也在不断增加。在这种情况下,大数据时代的大数据信息管理就显的尤为重要。由于大数据的数量不断增加,现有的管理形式已经无法满足大数据时代的发展,并且在利用计算机对大数据进行全面分析和处理的过程中,也受到了严重的影响,因此,要想有效的对大数据进行充分利用,就要对大数据管理形式给予高度重视,采取有效的措施,不断加强大数据的管理形式,最终实现有效、便捷、安全等管理性能,这也为对我国信息技术提供了重要的发展方向。

1 大数据时代的大数据管理发展历程

近几年,在大数据管理不断发展的过程中,也取得了一定的成绩。但是,大数据管理也经历了一个漫长的过程,主要经历的人工、文件、数据库等管理阶段。同时,随着大数据时代的大数据不断增加,所管理的范围和环境也在不断的变化。并且,在大数据管理不断发展的过程中,一些管理问题逐渐的暴露出来,为大数据管理的发展带来了新的挑战和机遇,下面就大数据管理的发展历程,管理中存在的不足进行简要的分析和阐述。

1。1 大数据时代的大数据人工管理形式

在20世纪50年代,计算机技术的形成主要是针对科学计算等形式。同时,根据当时的发展技术来说,并没有磁盘、U盘等一些先进设备,将其计算的结果进行去全面的保存和整理,仅仅只是依靠纸带、卡片等形式,对大数据的进行有效的记录。大数据时代的大数据管理的人员管理形式,不仅仅对大数据的记录存在着一定程度上的误差,并且在保存的过程中,也会经常发生丢失的现象,对大数据时代的大数据管理形式的发展,是没有任何的帮助。但是,依照当时的技术水平来看,也只能的依靠人工管理的形式了。

1。2 大数据时代的大数据的文件管理形式

在大数据时代的大数据管理的人员管理形式,不断发展和改革的过程中,计算机的软件和硬件都得到了有效的提高,磁盘、磁鼓等储存软件,得到了全面的普及和发展。同时,在在不断发展的过程中,计算机将大数据的组成形式,叫做大数据文件,并且在大数据文件上就可以直接的取名字,直接的进行查看,这对大数据的管理,无疑不是一个新的发展的起点。在大数据时代的大数据文件管理的过程中,由于大数据长期的保存在外面的,这样在对的大数据处理、分析、查找、删除、修改等操作的过程中,提供了极大程度上的便利,其对其操作的程序,也具有特点的要求。但是,在文件管理的过程中,由于共享性能较大,数据与数据之间缺乏一定的独立性,对其管理和维护的费用和时间较大,这样往往工作效率提高,不能被广泛的使用。

1。3 大数据时代的大数据库管理形式

数据库管理形式是大数据管理不断发展的重要成果,也是到目前为止最后的一个阶段。在计算机技术不断发展的过程中,计算机内部的容量得到了很大程度的提高,并且大数据的管理和维护成本也相应的有所下降。同时,在大数据管理形式不断发展的过程中,对其系统管理内存不足等现象,进行了全面的提高,有效的实现了资源共享,也在最大程度上保证了大数据的安全、稳定等性能。另外,在大数据时代的大数据库管理的过程中,不在近几年只是固定在某一个计算技术应用体系,而是面向整个管理体系,以此在最大程度上提高了大数据共享的性能,使大数据与大数据形成一个独立的个体,对其大数据进行了全面、有效的、统一的管理,为我国信息技术的发展提供了重要方向。

2 大数据时代的大数据管理策略

2。1 对大数据时代的大数据管理框架进行创新

在大数据时代的大数据管理形式不断发展过程中,给企业发展带来冲击非常巨大。因此,企业要根据我国信息技术不断发展的形式,对大数据管理框架进行全面的设计和创新,如图1所示。在大数据的处理的过程中,主要是围绕着数据资产进行管理的,同时对大数据时代的大数据管理制度,进行全面的规划行、设计、创新,这样对其它信息技术管理领域,提供了便利的条件。其实,大数据时代的大数据管理最主要的目的,就是将大数据的价值进行充分的展现。另外,在大数据时代的大数据管理框架不断创新的过程中,有效的实现了大数据共享等性能,不断扩大了大数据时代的大数据管理的内容,对我国现代化信息技术的发展,起到了重要的作用和意义。

2。2 开发与内容的管理形式

在不断提高大数据时代的大数据管理形式的过程中,可以从两个方面进行,一是大数据开发管理,二是内容管理。其中大数据开发管理注重于大数据管理的定义,和管理解决策略,对其大数据的`存在价值,进行有效的开发。换句话说,其实也就是在大数据时代的大数据管理的过程中,对其管理形式的开发,对大数据的功能和价值,进行充分的理解。

大数据时代的大数据管理中的内容管理是指:企业对大数据进行不断的获取、使用、存储、维护等工作活动。因此,传统的大数据时代的大数据管理形式,已经无法满足对这个时代发展需求。因此,在时代快速发发展的推动下,要对开发管理和内容管理,进行全面的创新和设计,对需要专门设定的管理形式,要给予高度的重视,可以利用的集合型的保存形式,进行全面的保存。

其实,大数据时代的大数据管理主要是为企业提供重要的发展方向,为企业提供重要的价值信息。大数据时代的大数据管理在数据应用和开发的过程中,起到了重要的衔接作用,也为我国信息技术的发展,打下了坚实的基础。

2。3 对大数据架构进行全面的管理

在大数据时代的大数据管理的过程中,数据框架管理起到了重要的作用,并且与大数据开发的过程中,有很多相似的地方。在传统的大数据时代的大数据管理的过程中,对其数据的开发、处理、保存等形式,都受到了一定程度上的限制。因此,在对大数据时代的大数据架构管理的过程中,对其操作形式,进行了全面的管理创新,避免受到范围的限制。另外,随着大数据不断的增加,大数据构架管理可以根据大数据的用途,质量良好的应用形态。例如:社交网络等形式。

与此同时,在最近几年的发展中,大数据时代的大数据管理形式,也面临着新的挑战基机遇。以此,只有对大数据时代的大数据管理形式,对个人信息、隐私等进行全面的管理,避免个人信息、隐私等发生泄露、不对称等现象的发生,这样不仅仅企业在发展的过程中,提供了最大程度上的安全保障,也为大数据时代的发展,带来了新的发展篇章。

3 结语

综上所述,大数据时代是信息技术时代不断发展的产物,不管对我国经济的发展,还是人们在日常工作、生活的过程中,都起到了重要的作用和意义。因此,本文对大数据时代的大数据管理发展的历程进行了简要的分析,并对大数据时代的大数据管理形式,提出了一些可参考性的建议,只有对大数据时代的大数据管理形式,进行不断的创新,对大数据时代的大数据管理框架,进行不断的构建,也只有这样的才能在最大程度上促进了我国信息技术的发展,也为我国各行各业的发展,提供了重要的发展方向,对我国经济的发展,也起到了推动性的作用。

第3篇:“大数据时代”来临,企业数据管理面临挑战

“大数据时代”来临,企业数据管理面临挑战

IDC研究表明,到2020年,全球以电子形式存储的数据量将达到35ZB,是2009年全球存储量的40倍。这其中企业数据正在以55%的速度逐年增长。人们不禁感叹随着信息化的逐步推进,我们迎来了大数据时代。

何谓“大数据”?哈佛大学社会学教授加里·金谈到大数据时曾说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”通过上述的话我们可以概括出大数据主要的三个特征:量大(PB级别的数据)、实时性(更短的时间处理数据)、多样性(非结构的文档数据为主)。

以金融行业为例,当前金融行业面临的一个非常大的问题就是海量数据的存储以及对海量数据的查询优化。传统的数据存储方案已经不能满足大多数金融企业的需求,例如目前

未完,继续阅读 >

下载大数据时代数据管理技术研究综述论文word格式文档
下载大数据时代数据管理技术研究综述论文.doc
将本文档下载到自己电脑,方便修改和收藏。
点此处下载文档

文档为doc格式

相关专题
热门文章
点击下载本文