决策树加密算法是以实例为基础的归纳学习算法,它着眼于从一组无次序、无规则的事例中推理出决策树表示形式的分类规则,通常用来形成分类器和预测模型,可以对未知数据进行分类或预测、数据挖掘等。那么我们今天就来给大家分析一下决策树加密算法。
一、决策树加密算法实现过程
决策树加密算法通常分为两个阶段:第一个阶段是建树和剪枝。第二个阶段是利用建好的决策树对新的数据进行分类。
1、决策树加密算法的建树阶段
决策树加密算法的建树流程图如图所示。其中S表示训练样本集,A表示分类样本集合,N表示一个分类叶节点。
2、决策树加密算法的剪枝阶段
决策树加密算法剪枝阶段的任务是对生成的决策树按照一定的方法进行剪枝,剪枝是一种克服训练样本集数据噪声的基本技术,对树进行修剪优化时要准确理解分类的特征描述和防止过多的噪声影响,从而达到更好的修剪效果,在确保精确程度的同时,提高可理解性。
二、决策树加密算法的特点
基于决策树的分类算法以其特有的优点广为人们采用。
首先,决策树方法结构简单,它在学习的过程中不需要了解很多的背景知识;
其次,决策树模型效率较高,对训练样本集数据量较大的情况较为适合;
再次,决策树加密算法的计算量相对较小;
然后,决策树方法通常不需要受训数据外的知识,擅长处理非数值型数据;
最后,决策树方法具有较高的分类精确度。据统计,目前决策树加密算法利用率高达19%。
三、常见的决策树加密算法
1、CLS加密算法
CLS加密算法是1966年提出的。它第一次提出用决策树进行概念学习,后来的许多决策树学习算法都可以看作是CLS加密算法的改进与更新。
CLS的主要思想是从一个空的决策树出发,通过添加新的判定结点来改善原来的决策树,直到该决策树能够正确的将训练实例分类为止。它对决策树的构造过程也就是假设特化的过程,所以CLS可以看作是只带一个操作符的学习算法,此操作符可以表示为:通过添加一个新的判定条件(新的判定结点),特化当前假设。CLS加密算法递归调用这个操作符,作用在每个叶结点,来构造决策树。
2、CART加密算法算法
CART加密算法是在1984年提出的。这种加密算法选择具有最小基尼指数值的属性作为测试属性,并采用一种二分递归分割的技术,是将当前样本集分为两个子样本集,使得生成的决策树的每一个非叶节点都有两个分枝。最后生成的决策树是结构简洁的二叉树。
CART加密算法使用后剪枝法。剪枝算法使用独立于训练样本集的测试样本集对子树的分类错误进行计算,找出分类错误最小的子树作为最终的分类模型。有些样本集,由于样本数太少而不能分出独立的测试样本集,CART加密算法采用一种称为交叉确定的剪枝方法。该方法解决了在小样本集上挖掘决策树由于没有独立测试样本集而造成的过度拟合问题。不过CART加密算法最初建立的树也有错误率,因为有些叶子节点并不是纯的。
3、ID3加密算法
ID3加密算法是在1986年提出的。它是决策树算法的代表,绝大数决策树算法都是在它的基础上加以改进而实现的。
ID3加密算法采用分治策略,在决策树各级结点上选择属性时,用信息增益作为属性的选择标准,以便在每一个非叶结点上进行测试时,能获得关于被测试记录最大的类别信息。
具体方法是:检测所有的属性,选择信息增益最大的属性产生决策树结点,由该属性的不同取值建立分支,再对各分支的子集递归调用该方法建立决策树结点的分支,直到所有子集仅包含同一类别的数据为止。最后得到一棵决策树,它可以对新的样本进行分类。
四、决策树加密算法面临的问题
1、可扩展性亟待提高
决策树加密算法具有良好的可扩展性是指算法具有处理大量的数据或加速数据挖掘过程的能力。在大型数据集中,能从中快速而准确地发现隐藏于其中的主要分类规则,即认为算法具有良好的可扩展性。数据挖掘面临的数据往往是海量的,对实时性要求较高的决策场所,数据挖掘方法的主动性和快速性显得日益重要。应用实时性技术、设计快速的算法、数据分割、主动关系数据库技术和分布并行算法设计技术等现代计算机先进技术,是数据挖掘方法实用化的有效途径。
2、适应多数据类型和容噪性
随着计算机网络和信息的社会化,数据挖掘的对象已不单是关系数据库模型,而是分布、异构的多类型数据库,数据的非结构化程度、噪声等现象越来越突出,这也是决策树技术面临的困难问题。
3、递增性问题
数据挖掘出来的知识,只是相对于某一时间的某些数据,新的数据可能使发现的新知识与原来的知识冲突。这是因为数据挖掘基础是归纳逻辑,而归纳逻辑是一个非单调的过程。因此,结合非单调逻辑的理论,设计具有递增性决策树挖掘方法,也是实用化的基本要求之一。
决策树加密算法已经有了广泛的应用,并且已经有了许多成熟的系统,这些系统广泛应用于各个领域,如语音识别,医疗诊断,客户关系管理,模式识别,专家系统等。决策树各类加密算法,各有优缺点,在实际工作中,必须根据数据类型的点及数据集的大小,选择合适的加密算法。
小知识之决策树
决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。