广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python机器学习之决策树
  • 894
分享到

Python机器学习之决策树

2024-04-02 19:04:59 894人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

目录一、要求二、原理三、信息增益的计算方法四、实现过程五、程序六、遇到的问题一、要求 二、原理 决策树是一种类似于流程图的结构,其中每个内部节点代表一个属性上的“测试”,每个分支代

一、要求

在这里插入图片描述

二、原理

决策树是一种类似于流程图的结构,其中每个内部节点代表一个属性上的“测试”,每个分支代表测试的结果,每个叶节点代表一个测试结果。类标签(在计算所有属性后做出的决定)。从根到叶的路径代表分类规则。
决策树学习的目的是为了产生一棵泛化能力强,即处理未见示例能力强的决策树。因此如何构建决策树,是后续预测的关键!而构建决策树,就需要确定类标签判断的先后,其决定了构建的决策树的性能。决策树的分支节点应该尽可能的属于同一类别,即节点的“纯度”要越来越高,只有这样,才能最佳决策。

经典的属性划分方法:

  • 信息增益
  • 增益率
  • 基尼指数

本次实验采用了信息增益,因此下面只对信息增益进行介绍。

三、信息增益的计算方法

在这里插入图片描述

其中D为样本集合,a为样本集合中的属性,Dv表示D样本集合中a属性为v的样本集合。

Ent(x)函数是计算信息熵,表示的是样本集合的纯度信息,信息熵的计算方法如下:

在这里插入图片描述

其中pk表示样本中最终结果种类中其中一个类别所占的比例,比如有10个样本,其中5个好,5个不好,则其中p1 = 5/10, p2 = 5/10。

一般而言,信息增益越大,则意味着使用属性α来进行划分所获得的“纯度提升”越大,因此在选择属性节点的时候优先选择信息增益高的属性!

四、实现过程

本次设计用到了pandas和numpy库,主要利用它们来对数据进行快速的处理和使用。
首先将数据读入:

在这里插入图片描述

可以看到数据集的标签是瓜的不同的属性,而表格中的数据就是不同属性下的不同的值等。


if(len(set(D.好瓜)) == 1):
        #标记返回 
        return D.好瓜.iloc[0]
    elif((len(A) == 0) or Check(D, A[:-1])):
        #选择D中结果最多的为标记
        cnt = D.groupby('好瓜').size()
        maxValue = cnt[cnt == cnt.max()].index[0]
        return maxValue
    else:
        A1 = copy.deepcopy(A)
        attr = Choose(D, A1[:-1])
        tree = {attr:{}}
        for value in set(D[attr]):
            tree[attr][value] = TreeGen(D[D[attr] == value], A1)
    return tree

TreeGen函数是生成树主函数,通过对它的递归调用,返回下一级树结构(字典)来完成生成决策树。

在生成树过程中,有二个终止迭代的条件,第一个就是当输入数据源D的所有情况结果都相同,那么将这个结果作为叶节点返回;第二个就是当没有属性可以再往下分,或者D中的样本在A所有属性下面的值都相同,那么就将D的所有情况中结果最多的作为叶节点返回。

其中Choose(D:pd.DataFrame, A:list)函数是选择标签的函数,其根据输入数据源和剩下的属性列表算出对应标签信息增益,选择能使信息增益最大的标签返回


def Choose(D:pd.DataFrame, A:list):
    result = 0.0
    resultAttr = ''
    for attr in A:
        tmpVal = CalcZengYi(D, attr)
        if(tmpVal > result):
            resultAttr = attr
            result = tmpVal
    A.remove(resultAttr)
    return resultAttr


最后是结果:

在这里插入图片描述

{‘纹理': {‘稍糊': {‘触感': {‘硬滑': ‘否', ‘软粘': ‘是'}}, ‘清晰': {‘根蒂': {‘硬挺': ‘否', ‘蜷缩': ‘是', ‘稍蜷': {‘色泽': {‘青绿': ‘是', ‘乌黑': {‘触感': {‘硬滑': ‘是', ‘软粘': ‘否'}}}}}}, ‘模糊': ‘否'}}

绘图如下:

在这里插入图片描述

五、程序

主程序


#!/usr/bin/python3
# -*- encoding: utf-8 -*-
'''
@Description:决策树:
@Date     :2021/04/25 15:57:14
@Author      :willpower
@version      :1.0
'''
import pandas as pd
import numpy as np
import treeplot
import copy
import math
"""
@description  :计算熵值
---------
@param  :输入为基本pandas类型dataFrame,其中输入最后一行为实际结果
-------
@Returns  :返回熵值,类型为浮点型
-------
"""
def CalcShang(D:pd.DataFrame):
    setCnt = D.shape[0]
    result = 0.0
    # for i in D.groupby(D.columns[-1]).size().index:
    #遍历每一个值
    for i in set(D[D.columns[-1]]):
        #获取该属性下的某个值的次数
        cnt = D.iloc[:,-1].value_counts()[i]
        result = result + (cnt/setCnt)*math.log(cnt/setCnt, 2)
    return (-1*result)
"""
@description  :计算增益
---------
@param  :输入为DataFrame数据源,然后是需要计算增益的属性值
-------
@Returns  :返回增益值,浮点型
-------
"""
def CalcZengYi(D:pd.DataFrame, attr:str):
    sumShang = CalcShang(D)
    setCnt = D.shape[0]
    result = 0.0
    valus = D.groupby(attr).size()
    for subVal in valus.index:
        result = result + (valus[subVal]/setCnt)*CalcShang(D[D[attr] == subVal])
    return sumShang - result
"""
@description  :选择最佳的属性
---------
@param  :输入为数据源,以及还剩下的属性列表
-------
@Returns  :返回最佳属性
-------
"""
def Choose(D:pd.DataFrame, A:list):
    result = 0.0
    resultAttr = ''
    for attr in A:
        tmpVal = CalcZengYi(D, attr)
        if(tmpVal > result):
            resultAttr = attr
            result = tmpVal
    A.remove(resultAttr)
    return resultAttr
"""
@description  :检查数据在每一个属性下面的值是否相同
---------
@param  :输入为DataFrame以及剩下的属性列表
-------
@Returns  :返回bool值,相同返回1,不同返回0
-------
"""
def Check(D:pd.DataFrame, A:list):
    for i in A:
        if(len(set(D[i])) != 1):
            return 0
    return 1
"""
@description  :生成树主函数
---------
@param  :数据源DataFrame以及所有类型
-------
@Returns  :返回生成的字典树
-------
"""
def TreeGen(D:pd.DataFrame, A:list):
    if(len(set(D.好瓜)) == 1):
        #标记返回 
        return D.好瓜.iloc[0]
    elif((len(A) == 0) or Check(D, A[:-1])):
        #选择D中结果最多的为标记
        cnt = D.groupby('好瓜').size()
        #找到结果最多的结果
        maxValue = cnt[cnt == cnt.max()].index[0]
        return maxValue
    else:
        A1 = copy.deepcopy(A)
        attr = Choose(D, A1[:-1])
        tree = {attr:{}}
        for value in set(D[attr]):
            tree[attr][value] = TreeGen(D[D[attr] == value], A1)
    return tree
"""
@description  :验证集
---------
@param  :输入为待验证的数据(最后一列为真实结果)以及决策树模型
-------
@Returns  :无
-------
"""
def Test(D:pd.DataFrame, model:dict):
    for i in range(D.shape[0]):
            data = D.iloc[i]
            subModel = model
            while(1):
                attr = list(subModel)[0]
                subModel = subModel[attr][data[attr]]
                if(type(subModel).__name__ != 'dict'):
                    print(subModel, end='')
                    break
    print('')
name = ['色泽', '根蒂', '敲声', '纹理', '脐部', '触感', '好瓜']
df = pd.read_csv('./savedata.txt', names=name)
# CalcZengYi(df, '色泽')
resultTree = TreeGen(df, name)
print(resultTree)
# print(df[name[:-1]])
Test(df[name[:-1]], resultTree)
treeplot.plot_model(resultTree,"resultTree.gv")

绘图程序


from graphviz import Digraph

def plot_model(tree, name):
    g = Digraph("G", filename=name, fORMat='png', strict=False)
    first_label = list(tree.keys())[0]
    g.node("0", first_label)
    _sub_plot(g, tree, "0")
    g.view()
root = "0"

def _sub_plot(g, tree, inc):
    global root

    first_label = list(tree.keys())[0]
    ts = tree[first_label]
    for i in ts.keys():
        if isinstance(tree[first_label][i], dict):
            root = str(int(root) + 1)
            g.node(root, list(tree[first_label][i].keys())[0])
            g.edge(inc, root, str(i))
            _sub_plot(g, tree[first_label][i], root)
        else:
            root = str(int(root) + 1)
            g.node(root, tree[first_label][i])
            g.edge(inc, root, str(i))

./savedata.txt

青绿,蜷缩,浊响,清晰,凹陷,硬滑,是
乌黑,蜷缩,沉闷,清晰,凹陷,硬滑,是
乌黑,蜷缩,浊响,清晰,凹陷,硬滑,是
青绿,蜷缩,沉闷,清晰,凹陷,硬滑,是
浅白,蜷缩,浊响,清晰,凹陷,硬滑,是
青绿,稍蜷,浊响,清晰,稍凹,软粘,是
乌黑,稍蜷,浊响,稍糊,稍凹,软粘,是
乌黑,稍蜷,浊响,清晰,稍凹,硬滑,是
乌黑,稍蜷,沉闷,稍糊,稍凹,硬滑,否
青绿,硬挺,清脆,清晰,平坦,软粘,否
浅白,硬挺,清脆,模糊,平坦,硬滑,否
浅白,蜷缩,浊响,模糊,平坦,软粘,否
青绿,稍蜷,浊响,稍糊,凹陷,硬滑,否
浅白,稍蜷,沉闷,稍糊,凹陷,硬滑,否
乌黑,稍蜷,浊响,清晰,稍凹,软粘,否
浅白,蜷缩,浊响,模糊,平坦,硬滑,否
青绿,蜷缩,沉闷,稍糊,稍凹,硬滑,否

六、遇到的问题

graphviz Not a directory: ‘dot'

解决办法

在这里插入图片描述

到此这篇关于python机器学习之决策树的文章就介绍到这了,更多相关Python决策树内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: Python机器学习之决策树

本文链接: https://www.lsjlt.com/news/125022.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Python机器学习之决策树
    目录一、要求二、原理三、信息增益的计算方法四、实现过程五、程序六、遇到的问题一、要求 二、原理 决策树是一种类似于流程图的结构,其中每个内部节点代表一个属性上的“测试”,每个分支代...
    99+
    2022-11-12
  • 机器学习python实战之决策树
    决策树原理:从数据集中找出决定性的特征对数据集进行迭代划分,直到某个分支下的数据都属于同一类型,或者已经遍历了所有划分数据集的特征,停止决策树算法。   每次划分数据集的特征都有很多,那么我们怎么来选择到底...
    99+
    2022-06-04
    实战 机器 决策树
  • Python机器学习之决策树和随机森林
    目录什么是决策树决策树组成节点的确定方法决策树基本流程决策树的常用参数代码实现决策树之分类树网格搜索在分类树上的应用分类树在合成数据的表现什么是随机森林随机森林的原理随机森林常用参数决策树和随机森林效果实例用随机森林...
    99+
    2022-06-02
    Python 决策树 Python 随机森林
  • 分析机器学习之决策树Python实现
    目录一、环境准备二、决策树是什么三、快速入门分类树四、详细分析入门案例五、分类树参数解释5.1、criterion5.2、random_state & splitter5.3、剪枝参数5.4、目标权重参数:c...
    99+
    2022-06-02
    Python 决策树 Python 机器学习
  • 机器学习——决策树
    决策树是一种用于分类和回归的非参数监督学习方法。目标是创建一个模型,通过从数据特性中推导出简单的决策规则来预测目标变量的值 1 import numpy as np 2 import pandas as pd 3 from skl...
    99+
    2023-01-30
    机器 决策树
  • 机器学习之决策树算法怎么实现
    决策树是一种常用的机器学习算法,主要用于分类和回归问题。下面是决策树算法的实现步骤:1. 数据预处理:将原始数据进行清洗和转换,包括...
    99+
    2023-10-11
    机器学习
  • Python机器学习应用之决策树分类实例详解
    目录一、数据集二、实现过程1 数据特征分析2 利用决策树模型在二分类上进行训练和预测3 利用决策树模型在多分类(三分类)上进行训练与预测三、KEYS1 构建过程2 划分选择3 重要参...
    99+
    2022-11-12
  • Python学习教程:决策树算法(三)sklearn决策树实战
    前面有跟大家出过两期关于决策树算法的Python学习教程,伙伴们学了学了,今天来点实际的吧,实践一把!做个巩固!Python有一个著名的机器学习框架,叫sklearn。我们可以用sklearn来运行前面说到的赖床的例子。不过在这之前,我们需...
    99+
    2023-06-02
  • Python机器学习算法之决策树算法的实现与优缺点
    目录1.算法概述2.算法种类3.算法示例4.决策树构建示例5.算法实现步骤 6.算法相关概念7.算法实现代码8.算法优缺点9.算法优化总结1.算法概述 决策树算法是在已知各...
    99+
    2022-11-12
  • 机器学习——线性回归-KNN-决策树(实
    1 import numpy as np 2 import pandas as pd 3 from sklearn.linear_model import LinearRegression 4 from sklearn.preproc...
    99+
    2023-01-30
    线性 机器 决策树
  • Python机器学习应用之基于决策树算法的分类预测篇
    目录一、决策树的特点 1.优点 2.缺点 二、决策树的适用场景 三、demo一、决策树的特点 1.优点 具有很好的解释性,模型可以生成可以理解的规则。可以发现特征的重要程度。模型...
    99+
    2022-11-12
  • python机器学习基础决策树与随机森林概率论
    目录一、决策树原理概述1.决策树原理2.信息论①信息熵②决策树的分类依据③其他决策树使用的算法④决策树API二、决策树算法案例1.案例概述2.数据处理3.特征工程4.使用决策树进行预...
    99+
    2022-11-12
  • web安全之机器学习入门——3.2 决策
    目录 简介 决策树简单用法 决策树检测P0P3爆破 决策树检测FTP爆破 随机森林检测FTP爆破   简介 决策树和随机森林算法是最常见的分类算法; 决策树,判断的逻辑很多时候和人的思维非常接近。 随机森林算法,利用多棵决策树对样本进行...
    99+
    2023-01-31
    入门 机器 web
  • 机器学习中的Python问题及解决策略
    机器学习是当前最热门的技术领域之一,而Python作为一种简洁、灵活、易于学习的编程语言,成为了机器学习领域最受欢迎的工具之一。然而,在机器学习中使用Python过程中,总会遇到一些问题和挑战。本文将介绍一些常见的机器学习中使用Python...
    99+
    2023-10-22
    机器学习 Python 解决策略
  • Python机器学习之AdaBoost算法
    目录一、算法概述二、算法原理三、算法步骤四、算法实现五、算法优化一、算法概述 AdaBoost 是英文 Adaptive Boosting(自适应增强)的缩写,由 Yoav Freund 和Robert S...
    99+
    2022-06-02
    Python AdaBoost算法 Python机器学习
  • python机器学习之神经网络
    手写数字识别算法 import pandas as pd import numpy as np from sklearn.neural_network import MLPReg...
    99+
    2022-11-12
  • Python机器学习之基础概述
    目录一、基础概述二、算法分类三、研究内容一、基础概述 机器学习(Machine Learing)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多...
    99+
    2022-11-12
  • Python机器学习之逻辑回归
    目录一、题目二、目的三、平台四、基本原理4.1 逻辑回归4.2 损失函数五、实验步骤一、题目 1.主题:逻辑回归 2.描述:假设你是某大学招生主管,你想根据两次考试的结果决定每个申请...
    99+
    2022-11-12
  • Python机器学习之Kmeans基础算法
    一、K-means基础算法简介 k-means算法是一种聚类算法,所谓聚类,即根据相似性原则,将具有较高相似度的数据对象划分至同一类簇,将具有较高相异度的数据对象划分至不同类簇。聚类与分类最大的区别在于,聚类过程为无...
    99+
    2022-06-02
    Python Kmeans基础算法 python机器学习 python Kmeans
  • Python机器学习三大件之一numpy
    一、前言 机器学习三大件:numpy, pandas, matplotlib Numpy(Numerical Python)是一个开源的Python科学计算库,用于快速处理任意维度的数组。 Numpy支持常见的数组和...
    99+
    2022-06-02
    python numpy python机器学习
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作