<small id='Hdkjy7l'></small> <noframes id='upYj'>

  • <tfoot id='zEdH'></tfoot>

      <legend id='FYt7dCvy'><style id='UN2Jq81'><dir id='HvOFx9'><q id='2vhOJo'></q></dir></style></legend>
      <i id='1DrvHhCY'><tr id='y1c92'><dt id='w34t9lW'><q id='nwEp'><span id='CIZp'><b id='ugT0qS'><form id='VbrI'><ins id='nY6O2duF'></ins><ul id='uWmF5eL'></ul><sub id='LTmu56'></sub></form><legend id='RHLFb5NvcK'></legend><bdo id='SPBj9ay'><pre id='bpA3uKNl'><center id='PQp86N'></center></pre></bdo></b><th id='W2cJKjHzZ'></th></span></q></dt></tr></i><div id='7o5OLia'><tfoot id='efnxE'></tfoot><dl id='pjWHtIaJho'><fieldset id='0pzFcZN8'></fieldset></dl></div>

          <bdo id='pKVZnLqY'></bdo><ul id='5DsBVpSq0L'></ul>

          1. <li id='nFAvw8LSf'></li>
            登陆

            章鱼彩票网页版-C4.5算法2

            admin 2019-06-20 284人围观 ,发现0个评论

            作者:柏安之    封面:自己想吧

             C4.5算法的基本原理


                设S是s个数据样本的调集。假定类标号ci(I = 1,……,m)具有m个不同的值,设si是类Ci中的样本数。对一个给定的样本分类所需的希望信息由下式给出:

                其间,pi是恣意样本归于Ci的概率,并用si/s来估量。设特点A具有v个子集si,……,sv;其间,sj包括S中这样一些样本,它们在A上具有值aj。假如A选作测验特点,则这些子集对应于由包括调集S的节点成长出来的分枝。设sij是子集sj中类ci的样本数。依据由A区分红子集的熵由下式给出:




            其间,项充任第j个子集的权,而且等于子集(即A值为aj)中的样本个数除以s中的样本总数。熵值越小,子集区分的纯度越高。关于给定的章鱼彩票网页版-C4.5算法2子集sj有:


              其间,pij=sij/sj是中的样本归于类ci的概率。

            在A上分枝将取得的编码信息是:

              章鱼彩票网页版-C4.5算法2以上和ID3算法的基本原理相同,而C4.5所不同的是在后面运用信息增益份额来替代信息增益。

               其间,s1到章鱼彩票网页版-C4.5算法2s3是c个值的特点A切割S而构成的c个样本子集。

              这时,在特点A上所得到的信息增益比为


              

            C4.5算法核算每个特点的信章鱼彩票网页版-C4.5算法2息增益比。具有最高信息增益比的特点选作给定调集S的测验特点。创立一个节点,并以该特点符号,对特点的每个值创立分枝,并据此区分样本。


             C4.5算法的完成


                假定用S代表当时样本集,当时候选特点集用A表明,则C4.5算法C4.5formtree(S, A)的伪代码如下。

              算法:Generate_decision_tree由给定的练习数据发生一棵决策树

              输入:练习样本samples;候选特点的调集attributelist

              输出:一棵决策树

            (1)创立根节点N;

            (2)IF S都归于同一类C,则回来N为叶节点,符号为类C;

            (3)IF attribute list为空 OR S中所剩的样本数少于某给定值,则回来N为叶节点,符号N为S中呈现最多的类;

            (4)FOR each  attribute l1986年属什么生肖ist中的特点,核算信息增益率information gain ratio;

            (5)N的测验特点test.attribute = attributelist具有最高信息增益率的特点;

            (6)IF测验特点为接连型,则找到该特点的切割阈值;

            (7)For each由节点N一个新的叶子节点

             {

                If该叶子节点对应的样本子集S’为空

            则割裂此叶子节点生成新叶节点,将其符号为S中呈现最多的类

               Else

               在该叶子节点上履行C4.5formtree(S’, S’.attributelist),持续对它割裂;

            }

            (8)核算每个节点的分类过错,进行剪枝。


            参考文献

            [1] Han Jiawei,Micheline K.数据发掘:概念与技能[M] TP274.范明,孟小峰 译.北京:机械工业出版社,2001:70-218

            [2] 毛国君,段立娟,王实.数据发掘本来与算法[M].北京:清华大学出版社,2005

            [3] Quinlan J R. C4.5:Programs for Machine Learning[M]. NewYork:Morgan Kaufnan,1993

            [4] Quinlan J R. Induction of decision tree[J]. Machine Learning 1986, 1(1):81-106

            [5] 冯少荣. 决策树算法的研讨与改善[J]. 厦门大学学报(自然科学版),2007,17(5):16-18

            [6] 李慧慧,万武族. 决策树分类算法C4.5中接连特点进程处理的改善[M] TP301. 1006-2475(2010)08-0008-03

            [7] 黄爱辉. 决策树C4.5算法的改善及使用[J].科学技能与工程, 2009,9(1):34-36

            [8] J.R.Quinlan. Improved Use of Continuous Attributes in C4.5[J]. Journal of Artificial Intelligence Rearch 4 (1996) 77-90

            书院君的前史合辑:

              菜鸟也爱数据剖析之SPSS篇

              问卷规划与统计剖析

              线性回归

              量表信效度剖析

              聚类剖析

              时刻序列剖析

              粉丝常见问题


            欢迎增加:

            【数据剖析服务】微信号:LYJ_312

             【社群服务帮手】微信号:spss_shequn

            &n章鱼彩票网页版-C4.5算法2bsp;【参加团队】:请点击招募,咱们是仔细的!


            请关注微信公众号
            微信二维码
            不容错过
            Powered By Z-BlogPHP