首页 > 资讯 > 后端开发 > Python >使用Python中从头开始构建决策树算法

215

分享到

使用Python中从头开始构建决策树算法

算法 python 决策树机器学习 2023-08-31 16:08:00 215人浏览安东尼

Python 官方文档：入门教程 => 点击学习

摘要

决策树（Decision Tree）是一种常见的机器学习算法，被广泛应用于分类和回归任务中。并且再其之上的随机森林和提升树等算法一直是表格领域的最佳模型，所以本文将介绍理解其数学概念，并在python

决策树（Decision Tree）是一种常见的机器学习算法，被广泛应用于分类和回归任务中。并且再其之上的随机森林和提升树等算法一直是表格领域的最佳模型，所以本文将介绍理解其数学概念，并在python中动手实现，这可以作为了解这类算法的基础知识。

在深入研究代码之前，我们先要了解支撑决策树的数学概念:熵和信息增益

熵:杂质的量度

熵作为度量来量化数据集中的杂质或无序。特别是对于决策树，熵有助于衡量与一组标签相关的不确定性。数学上，数据集S的熵用以下公式计算:

 Entropy(S) = -p_pos * log2(p_pos) - p_neg * log2(p_neg)

P_pos表示数据集中正标签的比例，P_neg表示数据集中负标签的比例。

更高的熵意味着更大的不确定性或杂质，而更低的熵意味着更均匀的数据集。

信息增益:通过拆分提升知识

信息增益是评估通过基于特定属性划分数据集所获得的熵的减少。也就是说它衡量的是执行分割后标签确定性的增加。

数学上，对数据集S中属性a进行分割的信息增益计算如下:

 InfORMation Gain(S, A) = Entropy(S) - ∑ (|S_v| / |S|) * Entropy(S_v)

S 表示原始数据集，A表示要拆分的属性。S_v表示属性A保存值v的S的子集。

目标是通过选择使信息增益最大化的属性，在决策树中创建信息量最大的分割。

在Python中实现决策树算法

有了以上的基础，就可以使用Python从头开始编写Decision Tree算法。

首先导入基本的numpy库，它将有助于我们的算法实现。

 import numpy as np

创建DecisionTree类

 class DecisionTree:     def __init__(self, max_depth=None):         self.max_depth = max_depth

定义了DecisionTree类来封装决策树。max_depth参数是树的最大深度，以防止过拟合。

 def fit(self, X, y, depth=0):         n_samples, n_features = X.shape         unique_classes = np.unique(y)                  # Base cases         if (self.max_depth is not None and depth >= self.max_depth) or len(unique_classes) == 1:             self.label = unique_classes[np.argmax(np.bincount(y))]             return

拟合方法是决策树算法的核心。它需要训练数据X和相应的标签，以及一个可选的深度参数来跟踪树的深度。我们以最简单的方式处理树的生长：达到最大深度或者遇到纯类。

确定最佳分割属性，循环遍历所有属性以找到信息增益最大化的属性。_information_gain方法(稍后解释)帮助计算每个属性的信息增益。

 best_attribute = None best_info_gain = -1 for feature in range(n_features):             info_gain = self._information_gain(X, y, feature)             if info_gain > best_info_gain:                 best_info_gain = info_gain                 best_attribute = feature

处理不分割属性，如果没有属性产生正的信息增益，则将类标签分配为节点的标签。

 if best_attribute is None:             self.label = unique_classes[np.argmax(np.bincount(y))]             return

分割和递归调用，下面代码确定了分割的最佳属性，并创建两个子节点。根据属性的阈值将数据集划分为左右两个子集。

 self.attribute = best_attribute self.threshold = np.median(X[:, best_attribute])  left_indices = X[:, best_attribute] <= self.threshold     right_indices = ~left_indices      self.left = DecisionTree(max_depth=self.max_depth)     self.right = DecisionTree(max_depth=self.max_depth)      self.left.fit(X[left_indices], y[left_indices], depth + 1)     self.right.fit(X[right_indices], y[right_indices], depth + 1)

并且通过递归调用左子集和右子集的fit方法来构建子树。

预测方法使用训练好的决策树进行预测。如果到达一个叶节点(带有标签的节点)，它将叶节点的标签分配给X中的所有数据点。

 def predict(self, X):         if hasattr(self, 'label'):             return np.array([self.label] * X.shape[0])

当遇到非叶节点时，predict方法根据属性阈值递归遍历树的左子树和右子树。来自双方的预测被连接起来形成最终的预测数组。

 is_left = X[:, self.attribute] <= self.threshold         left_predictions = self.left.predict(X[is_left])         right_predictions = self.right.predict(X[~is_left])                  return np.concatenate((left_predictions, right_predictions))

下面两个方法是决策树的核心代码，并且可以使用不同的算法来进行计算，比如ID3 算法使用信息增益作为特征选择的标准，该标准度量了将某特征用于划分数据后，对分类结果的不确定性减少的程度。算法通过递归地选择信息增益最大的特征来构建决策树，也就是我们现在要演示的算法。

_information_gain方法计算给定属性的信息增益。它计算分裂后子熵的加权平均值，并从父熵中减去它。

 def _information_gain(self, X, y, feature):         parent_entropy = self._entropy(y)                  unique_values = np.unique(X[:, feature])         weighted_child_entropy = 0                  for value in unique_values:             is_value = X[:, feature] == value             child_entropy = self._entropy(y[is_value])             weighted_child_entropy += (np.sum(is_value) / len(y)) * child_entropy                  return parent_entropy - weighted_child_entropy

熵的计算

 def _entropy(self, y):         _, counts = np.unique(y, return_counts=True)         probabilities = counts / len(y)         return -np.sum(probabilities * np.log2(probabilities))

_entropy方法计算数据集y的熵，它计算每个类的概率，然后使用前面提到的公式计算熵。

常见的算法还有：

C4.5 是 ID3 的改进版本，C4.5 算法在特征选择时使用信息增益比，这是对信息增益的一种归一化，用于解决信息增益在选择特征时偏向于取值较多的特征的问题。

CART 与 ID3 和 C4.5 算法不同，CART(Classification And Regression Tree)又被称为分类回归树，算法采用基尼不纯度（Gini impurity）来度量节点的不确定性，该不纯度度量了从节点中随机选取两个样本，它们属于不同类别的概率。

ID3、C4.5 和 CART 算法都是基于决策树的经典算法，像Xgboost就是使用的CART 作为基础模型。

总结

以上就是使用Python中构造了一个完整的决策树算法的全部。决策树的核心思想是根据数据的特征逐步进行划分，使得每个子集内的数据尽量属于同一类别或具有相似的数值。在构建决策树时，通常会使用一些算法来选择最佳的特征和分割点，以达到更好的分类或预测效果。

https://avoid.overfit.cn/post/212f6b68e0d441c2b3db40304e637e32

作者：Matteo Possamai

来源地址：https://blog.csdn.net/m0_46510245/article/details/132159614

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 使用Python中从头开始构建决策树算法

本文链接: https://www.lsjlt.com/news/386171.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

使用Python中从头开始构建决策树算法

决策树（Decision Tree）是一种常见的机器学习算法，被广泛应用于分类和回归任务中。并且再其之上的随机森林和提升树等算法一直是表格领域的最佳模型，所以本文将介绍理解其数学概念，并在Python...

99+

2023-08-31

算法 python 决策树机器学习
如何使用c++从头开始实现决策树

小编给大家分享一下如何使用c++从头开始实现决策树，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！Python已经成为数据科学的语言之王。大多数新的数据科学家和程序...

99+

2023-06-15
教你用c++从头开始实现决策树

Python已经成为数据科学的语言之王。大多数新的数据科学家和程序员继续学习Python作为他们的第一门语言。这是有充分理由的;Python具有较浅的学习曲线、强大的社区和丰富的数据...

99+

2024-04-02
使用Python从头开始手写回归树

为了简单起见这里将使用递归来创建树节点，虽然递归不是一个完美的实现，但是对于解释原理他是最直观的。首先导入库import pandas as pd import numpy as np import matplotlib.pyplot as...

99+

2023-05-14

数据 Python 回归树
Python中怎么构建一个决策树

本篇文章给大家分享的是有关Python中怎么构建一个决策树，小编觉得挺实用的，因此分享给大家学习，希望大家阅读完这篇文章后可以有所收获，话不多说，跟着小编一起来看看吧。决策树决策树是当今最强大的监督学习方法的组成部分。决策树基本上是一个二叉...

99+

2023-06-16
python中决策树算法指的是什么

这篇文章给大家分享的是有关python中决策树算法指的是什么的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。1、说明决策树算法是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评...

99+

2023-06-15
怎么在Python中实现决策树算法

怎么在Python中实现决策树算法？针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。1.算法概述决策树算法是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大...

99+

2023-06-15
从头开始：使用 Vue Three.js 和 Vue 构建沉浸式 3D 应用程序

npm install vue three npm install @types/three 安装完成后，您就可以在 Vue.js 项目中使用 Vue Three.js 了。 3. 组件介绍 Vue Three.js 提供了许多组件，这些...

99+

2024-02-04

2. 安装要安装 Vue Three.js 您需要先安装 Vue.js 和 Three.js。您可以使用以下命令安装这些库：
怎么用Python实现CART决策树算法

这篇文章主要讲解了“怎么用Python实现CART决策树算法”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“怎么用Python实现CART决策树算法”吧！一、CART决策树算法简介CART（C...

99+

2023-06-25
怎么用Python中从头开始的实现完整的异常检测算法

这篇文章主要介绍“怎么用Python中从头开始的实现完整的异常检测算法”，在日常操作中，相信很多人在怎么用Python中从头开始的实现完整的异常检测算法问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”怎么用Py...

99+

2023-06-16
如何在Python中使用决策树

这期内容当中小编将会给大家带来有关如何在Python中使用决策树，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。python是什么意思Python是一种跨平台的、具有解释性、编译性、互动性和面向对象的脚本语...

99+

2023-06-14
从头开始：使用Java和Unix构建索引容器的完整指南。

从头开始：使用Java和Unix构建索引容器的完整指南索引容器是一个可以存储和处理大量数据的工具，它允许用户快速查找和访问数据。在本文中，我们将介绍如何使用Java和Unix构建一个索引容器，以便您可以轻松地存储和查找数据。第一步：安装...

99+

2023-10-08

unix 索引容器
如何在Python中实现一个决策树算法？

作者：禅与计算机程序设计艺术 1.简介在机器学习领域，决策树（decision tree）是一种常用的模式分类算法。它能够将输入数据划分成不同类别或不同输出值，并据此做出预测。而对于复杂的数据分析任...

99+

2023-10-23

自然语言处理人工智能语言模型编程实践开发语言架构设计
从头开始构建你的Web应用：Flask安装和配置指南

Flask安装配置指南：从零开始构建你的Web应用，需要具体代码示例简介：Flask是一个轻量级的Python Web框架，它非常适合初学者使用。本文将带你从零开始，介绍如何安装和配...

99+

2024-02-23

flask 配置安装
从零开始：使用JavaScript Angular构建复杂应用程序

组件化架构：Angular的组件化架构可以帮助开发人员创建可重用和可维护的应用程序。数据绑定：Angular提供了强大的数据绑定功能，可以实时更新应用程序中的数据。强大的生态系统：Angular有一个庞大的生态系统，提供了许多库和工...

99+

2024-02-02

为什么使用JavaScript Angular？ Angular是一个非常受欢迎的前端框架有很多优点：
Python计算机视觉项目实战：从零开始构建图像识别应用

调整图像大小转换图像格式滤波增强特征提取特征提取是计算机视觉的另一个重要任务。它涉及到从图像中提取具有区分性的信息。常用的特征提取方法包括：边缘检测角点检测颜色直方图局部二值模式分类分类是计算机视觉的最终目标...

99+

2024-02-07

pip install opencv-python 图像预处理图像预处理是计算机视觉任务的重要组成部分。它涉及到对图像进行一系列操作使其更适合于分析。常用的预处理技术包括：
如何用Python从零开始实现简单遗传算法

今天就跟大家聊聊有关如何用Python从零开始实现简单遗传算法，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。遗传算法是一种随机全局优化算法。连同人工神经网络，它可能是最流行和广为人知...

99+

2023-06-15
从零开始：使用Vue和Less构建一个完整的网站

Emmet,Sass和Less 在这一章，我们使用Emmet、Sass和Less来演示创建完整的网站项目，Emmet是一个前端自动化工具，可以帮助您自动生成任务，提高生产力。Sass和Less都是预处理器语言，可以帮助你创建更简洁、更易...

99+

2024-02-14

关键字：Emmet Sass Less HTML CSS 网站
大数据分析案例-基于决策树算法构建员工离职预测模型

🤵‍♂️ 个人主页：@艾派森的个人主页 ✍🏻作者简介：Python学习者 🐋 希望大家多多支持，我们一起进步！😄 如果文章对你有帮助的话，欢迎评论 💬点赞👍🏻 收藏 📂加关注+ 目录 1.项目背景 2.项目简介 2.1项目说明...

99+

2023-09-01

python 数据分析大数据 pandas 人工智能
大数据分析案例-基于决策树算法构建金融反欺诈分类模型

🤵‍♂️ 个人主页：@艾派森的个人主页 ✍🏻作者简介：Python学习者 🐋 希望大家多多支持，我们一起进步！😄 如果文章对你有帮助的话，欢迎评论 💬点赞👍🏻 收藏 📂加关注+ 目录 1.项目背景 2.项目简介 2.1研究目的...

99+

2023-09-24

人工智能大数据 python 数据分析数据挖掘