首页
外语
计算机
考研
公务员
职业资格
财经
工程
司法
医学
专升本
自考
实用职业技能
登录
计算机
数据挖掘的分析方法可以划分为关联分析、序列模式分析、分类分析和聚类分析四种。如果某方法需要一个示例库(该库中的每个元组都有一个给定的类标识)做训练集时,这种分析方法属于(41)。
数据挖掘的分析方法可以划分为关联分析、序列模式分析、分类分析和聚类分析四种。如果某方法需要一个示例库(该库中的每个元组都有一个给定的类标识)做训练集时,这种分析方法属于(41)。
admin
2016-09-08
60
问题
数据挖掘的分析方法可以划分为关联分析、序列模式分析、分类分析和聚类分析四种。如果某方法需要一个示例库(该库中的每个元组都有一个给定的类标识)做训练集时,这种分析方法属于(41)。
选项
A、关联分析
B、序列模式分析
C、分类分析
D、聚类分析
答案
C
解析
本题考查数据挖掘基本概念方面的基础知识。数据挖掘就是应用一系列技术从大型数据库或数据仓库中提取人们感兴趣的信息和知识,这些知识或信息是隐含的,事先未知而潜在有用的,提取的知识表示为概念、规则、规律、模式等形式。也可以说,数据挖掘是一类深层次的数据分析。常见和应用最广泛的数据挖掘方法有:
①决策树:决策树方法是利用信息论中的互信息(信息增益)寻找数据库中具有最大信息量的属性字段,建立决策树的一个结点,再根据该属性字段的不同取值构建树的分支;在每个分支子集中重复建立树的下层结点和分支的过程。国际上最早的、也是最有影响的决策树方法是Quiulan研究的ID3方法。
②神经网络:神经网络方法是模拟人脑神经元结构,完成类似统计学中的判别、回归、聚类等功能,是一种非线性的模型,主要有三种神经网络模型:前馈式网络、反馈式网络和自组织网络。人工神经网络最大的长处是可以自动地从数据中学习,形成知识,这些知识有些是我们过去未曾发现的,因此它具有较强的创新性。神经网络的知识体现在网络连接的权值上,神经网络的学习主要表现在神经网络权值的逐步计算上。
③遗传算法:遗传算法是模拟生物进化过程的算法,它由三个基本过程组成:繁殖(选择)、交叉(重组)、变异(突变)。采用遗传算法可以产生优良的后代,经过若干
代的遗传,将得到满足要求的后代,即问题得到解决。
④关联规则挖掘算法:关联规则是描述数据之间存在关系的规则,形式为“A1A2…An=>BIB2…Bn”。一般分为两个步骤:求出大数据项集;用大数据项集产生关联规则。
除了上述的常用方法外,还有粗集方法,模糊集合方法,Bayesian Belief Netords,最邻近算法(k一Nearest Neighbors Method(kNN))等。
无论采用哪种技术完成数据挖掘,从功能上可以将数据挖掘的分析方法划分为四种,即关联(Associations)分析、序列模式(Sequential Patterns)分析、分类(Classifiers)分析和聚(Clustering)分析。
①关联分析:目的是为了挖掘出隐藏在数据间的相互关系。若设R={A1,A2,…,AP)为{0,1)域上的属性集,r为R上的一个关系,关于r的关联规则表示为X→B,其中X∈R,B∈R,且X∩B=0。关联规则的矩阵形式为:矩阵r中,如果在行X的每一列为1,则行B中各列趋向于为1。在进行关联分析的同时还需要计算两个参数,最小置信度(Confidence)和最小支持度(Support)。前者用以过滤掉可能性过小的规则,后者则用来表示这种规则发生的概率,即可信度。
②序列模式分析:目的也是为了挖掘出数据之间的联系,但其侧重点在于分析数据间的前后关系(因果关系)。例如,将序列模式分析运用于商业,经过分析,商家可以根据分析结果发现客户潜在的购物模式,发现顾客在购买一种商品的同时经常购买另一种商品的可能性。在进行序列模式分析时也应计算置信度和支持度。
③分类分析:首先为每一个记录赋予一个标记(一组具有不同特征的类别),即按标记分类记录,然后检查这些标定的记录,描述出这些记录的特征。这些描述可能是显式的,如一组规则定义;也可能是隐式的,如一个数学模型或公式。
④聚类分析:聚类分析法是分类分析法的逆过程,它的输入集是一组未标定的记录,即输入的记录没有作任何处理。目的是根据一定的规则,合理地划分记录集合,并用显式或隐式的方法描述不同的类别。
在实际应用的DM系统中,上述四种分析方法有着不同的适用范围,因此经常被综合运用。
转载请注明原文地址:https://www.kaotiyun.com/show/SJLZ777K
本试题收录于:
系统分析师上午综合知识考试题库软考高级分类
0
系统分析师上午综合知识考试
软考高级
相关试题推荐
请在当前幻灯片中,复制已选择的图形对象。
请在演示文稿的所有幻灯片中使用“谈古论今”模板的一种配色方案。
修改销售情况图表中“上海”数据系列的颜色为绿色,同时设置分类间距,使分类间距为200。
请将工具栏中的“信息检索”工具按钮删除。
工作表行存放的是各地区每月的销售数量,请按一月份销售情况由低至高进行排序。
请利用颜色标记,向图表中添加工作表中新增加的“成都”的销售情况(在工作表最右侧)。
下列关于字符编码标准的叙述中,错误的是________。
IP地址可以用十进制数形式表示,但不能用二进制数表示。
关系运算中的选择运算,就是在表中选择不同的字段形成新的表。
YouneedsubnetaEzonexamnetworksegment.Howmanysubnetworksandhostsareavailablepersubnetifyouapplya/28masktot
随机试题
A.第二产程停滞B.胎头下降停滞C.活跃期延长D.潜伏期延长E.第二产程延长
王某,女,26岁。关节肿痛4年,以四肢小关节为主,僵硬变形屈伸不利,痛处固定,昼轻夜重,口干不欲饮。舌质紫暗,苔白腻,脉细涩。实验室检查:RF阳性。宜辨证
在以下具有优势品质的概念中,属于创造的区位概念的是()。
(操作员:张主管;账套:203账套;操作日期:2015年1月31日)选择卡片号为1403的固定资产变动单,生成记账凭证。
2012年12月份,李某从老家甲省A市来到乙省,租住B市区,在C市文化路科技市场从一些抱小孩的妇女处低价购买假增值税专用发票(12本300份),并印制“代办各类发票”的名片,在B市区各大酒店门口向路人散发,后通过电话联系,向有意购买假发票的人出售假增值税专
自然人监护人的监护职责有()。
从2010年10月1日起,所有经出厂检验合格的轿车产品,办理注册登记前,都无需再进行机动车安全技术检验。经工业和信息化部批准、具备生产一致性保证能力的企业生产的其他小型、微型载客汽车和两轮摩托车,也无需进行机动车安全技术检验。这一政策的实施,既可简化办理机
训练方法的基本结构可从身体练习、动作构成和动作过程三个层面予以解析。
一个作战计划中的弱点是绝密中的绝密,不会向外泄露。但是,日本媒体公布了日本自卫队关于钓鱼岛的“夺岛”计划,除预测未来钓鱼岛可能出现的3种事态、自卫队将分5步夺岛外,还详细列出了自卫队的弱点:没有能力从北海及九州岛迅速向冲绳大规模运送兵力,以满足登陆作战需要
对右半空间x>0内的任意光滑有侧封闭曲面∑,有其中f(x)在(0,+∞)内具有一阶连续的偏导数,且f(0+0)=1,求f(x).
最新回复
(
0
)