数据挖掘试题_数据挖掘期末考试试题

其他范文 时间:2020-02-28 01:15:22 收藏本文下载本文
【www.daodoc.com - 其他范文】

数据挖掘试题由刀豆文库小编整理,希望给你工作、学习、生活带来方便,猜你可能喜欢“数据挖掘期末考试试题”。

《数据挖掘》总复习题

1.数据挖掘系统可以根据什么标准进行分类?

答:根据挖掘的数据库类型分类、根据挖掘的知识类型分类、根据挖掘所用的技术分类、根据应用分类

2.知识发现过程包括哪些步骤?

答:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示3.什么是概念分层?

答:一个映射序列,将低层概念映射到更一般的较高层概念。4.多维数据模型上的 OLAP 操作包括哪些?

答:上卷、下钻、切片和切块、转轴 / 旋转、其他OLAP操作5.OLAP 服务器类型有哪几种?

答:关系 OLAP 服务器(ROLAP)、多维 OLAP 服务器(MOLAP)、混合 OLAP 服务器(HOLAP)、特殊的 SQL 服务器6.数据预处理技术包括哪些?

答:聚集、抽样、维规约、特征子集选择、特征创建、离散化和二元化、变量变换。7. 什么是数据清理?

答:填写缺失的值,平滑噪声数据,识别、删除离群点,解决不一致性 8. 什么是数据集成?

答:集成多个数据库、数据立方体或文件 9.什么是数据归约?

答:得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果 10.数据清理的内容包括哪些?

答:缺失值、噪声数据、数据平滑、聚类、回归11.将下列缩略语复原

OLAP——on-line analytical proceing DM——data mining

KDD——knowledge discovery in databases OLTP——on-line transaction proceingDBMS——database management system DWT——discrete wavelet transform

(DMQL)--Data Mining Query Language 12.什么是数据挖掘?

答:简单地说,数据挖掘是从大量数据中提取或挖掘知识。具体地说,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际 应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和 知识的过程。13.什么是关联规则? 答:(关联规则是形如X→Y的蕴涵式,其中且,X和Y分别称为关联规则的先导和后继。)假设I是项的集合。给定一个交易数据库,其中每个事务(Transaction)t是I的非空子集,即,每一个交易都与一个唯一的标识符TID(Transaction ID)对应。关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比,即概率;置信度(confidence)是包含X的事务中同时又包含Y的百分比,即条件概率。关联规则是有趣的,如果满足最小支持度阈值和最小置信度阈值。这些阈值是根据挖掘需要人为设定。

(关联规则反映一个事物与其它事物之间的相互依存性和关联性,如果两个事物或者多个事物之间存在一定的关联关系,那么其中一个事物就能够通过其他事物预测到。)15.什么是概念描述?什么是特征化?什么是属性相关分析?

答:概念描述:用汇总的、简洁的和精确的方式描述各个类和概念可能是有用的。特征化:是目标类数据的一般特性或特征的汇总。

属性相关分析:可能需要在分类和预测之前进行,它试图识别对于分类或预测过程无用的属性。这些属性应当排除。

16.什么是数据仓库?其主要特征是什么?

答:数据仓库是一个提供决策支持功能的数据库,它与组织机构的操作数据库分别维护。它允许将各种应用系统集成在一起,为统一的历史数据分析提供坚实的平台,对信息处理提供支持。

特征:面向主题、数据集成、随时间而变化、数据不易丢失(数据不易丢失是最明显特征)17.什么是数据集市?

答:数据集市包含企业范围数据的一个子集,对于特定的用户群是有用的。其范围限于选定的主题。

(是完整的数据仓库的一个逻辑子集,而数据仓库正是由所有的数据集市有机组合而成的)18.数据库中的知识发现过程由哪几个步骤组成?

答:数据清理、数据仓库、任务相关数据、数据挖掘、模式评估、知识表示 19.典型的数据挖掘系统有哪几个主要成分?

答:数据库、数据仓库、万维网或其他信息库;数据库或数据仓库服务器;知识库;数据挖掘引擎;模式评估模块;用户界面

20.从软件工程的观点来看,数据仓库的设计和构造包含哪些步骤?

答:规划、需求研究、问题分析、仓库设计、数据集成和测试、部署数据仓库。21.在数据挖掘系统中,为什么数据清理十分重要?

答: 脏数据的普遍存在,使得在大型数据库中维护数据的正确性和一致性成为一个极其困难的任务。

22.脏数据形成的原因有哪些?

答:滥用缩写词、数据输入错误、数据中的内嵌控制信息、不同的的惯用语、重复记录、丢失值、拼写变化、不同的计量单位、过时的编码23.数据清理时,对空缺值有哪些处理方法?

答:忽略元组、人工填写缺失值、使用一个全局变量填充缺失值、使用属性的平均值填充缺失值、使用与给定元组属同一类的所有样本的属性均值、使用最可能的值填充缺失值 24.什么是数据变换?包括哪些内容?

答:将数据转换或统一成适合于挖掘的形式。包括:光滑、聚集、数据泛化、规范化、属性构造 25. 数据归约的策略包括哪些?

答:数据立方体聚集、性子集选择、维度归约、数值归约、离散化和概念分层产生 26.提高数据挖掘算法效率有哪几种思路?

答:减少对数据的扫描次数;缩小产生的候选项集;改进对候选项集的支持度计算方法 27.假定属性income的最小值与最大值分别为12000和980到区间[0.0,1.0],根据 min-max 规范化,income的值73600将变为_3631/551_。

28.假定属性income的平均值和标准差分别为54000和16000,使用 Z-score 规范化,值73600被转换为_1.225_。

29.假定A的值由-986到917.A的最大绝对值为986,使用小数定标规范化,-986被规范化为_-0.986_

30.从结构角度来看,有哪三种数据仓库模型。答:企业仓库、数据集市、虚拟仓库

31.什么是聚类分析?它与分类有什么区别?

答:将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程 区别:分类有监督 聚类无监督 分类要靠学习 聚类要靠启发式搜索 32.与数据挖掘类似的术语有哪些?

答:数据库中挖掘知识、知识提取、数据/模式分析、数据考古和数据捕捞。33.解释下列术语 34.翻译下列术语

Data Mining 数据挖掘Data warehousing 数据仓库Data Mart 数据集市

drill-down 下钻roll-up上卷OLAP 联机分析处理Data cube 数据立方体 Aociation rule 关联规则Data cleaning数据清理Data integration 数据集成 Data transformation数据变换Data reduction 数据归约

35.可以对按季度汇总的销售数据进行___B___,来观察按月汇总的数据。A 上卷 B 下钻 C 切片 D 切块

36.可以对按城市汇总的销售数据进行____A__,来观察按国家总的数据。A 上卷 B 下钻 C 切片 D 切块

37.通过不太详细的数据得到更详细的数据,称为____B____。A 上卷 B 下钻 C 细化 D 维规约

38.三层数据仓库结构中,从底层到尾层分别是_仓库数据服务器、OLAP服务器、前端客户层__。

42.常用的四种兴趣度的客观度量。

答:简单性 确定性 实用性 新颖性43.四种常用的概念分层类型。

答:模式分层、集合分组分层、操作导出的分层、基于规则的分层45.如何理解现实世界的数据是“肮脏的”?答:不完整的、含噪声的、不一致的、重复的 46.多维数据仓库有哪几种概念模型?

答:星形模式、雪花形模式或事实星座形模式。

48.在多路数组聚集算法中,如何尽量少地占用内存?

答:将最小的平面放在内存中,将最大的平面每次只是提取并计算一块。49.给出方体的维数,会计算各D方体有多少,总的方体个数有多少?2^n50.什么是离群点?离群点都需要删除吗?为什么?

答:离群点:一些与数据的一般行为或模型不一致的孤立数据。不需要。通常离群点被作为“噪音”或异常被丢弃,但在欺诈检测中却可以通过对罕见事件进行离群点分析而得到结论。

【51.所有模式都是有趣的吗?

答:一个模式是有趣的,如果(1)它易于被人理解 ;(2)在某种程度上,对于新的或测试数据是有效的;(3)具有潜在效用;(4)新颖的;(5)符合用户确信的某种假设。】

数据挖掘

第4章 无监督学习4.1基本概念图4.1数据点的三个自然4.2k-均值聚类4.2.1k-均值算法图4.2k-均值算法计算机组成原理(第三版)图4.3k-均值算法的运行实例4.2.2k-均值算法的硬盘......

数据仓库与数据挖掘期末试题

广西财经学院2007——2008学年2005级《数据仓库与数据挖掘》卷2、请列举您使用过的各种数据仓库工具软件(包括建模工具,ETL工具,前端展现工具,OLAP Server、数据库、数据挖掘工......

数据挖掘作

第二章2.1使用STATISTIC分析软件中的关联规则对数据集bnkserv.sta中的各类银行服务进行关联分析。使用Statistics菜单下的Data-Mining命令,选择Sequence下的Aociation and Li......

数据挖掘心得体会

心得体会这次数据挖掘实验结束了,期间我们小组明确分工并积极去完成,虽然有点辛苦,但我感觉充实而有收获感!根据老师给的一些资料,我们决定采用SQL Server 2000中的Northwind数据......

数据挖掘简历

刀豆文库小编为你整合推荐4篇数据挖掘简历,也许这些就是您需要的文章,但愿刀豆文库能带给您一些学习、工作上的帮助。......

下载数据挖掘试题word格式文档
下载数据挖掘试题.doc
将本文档下载到自己电脑,方便修改和收藏。
点此处下载文档

文档为doc格式

热门文章
点击下载本文