首页 > 资讯 > 后端开发 > 其他教程 >R语言实现随机森林的方法示例

550

分享到

R语言实现随机森林的方法示例

2024-04-02 19:04:59 550人浏览八月长安

摘要

目录随机森林算法介绍算法介绍：决策树生长步骤：投票过程：基本思想：随机森林的优点：缺点R语言实现随机森林模型搭建1:randomForest()函数用于构建随机森林模型2:impor

随机森林模型搭建
1:randomForest()函数用于构建随机森林模型
2:importance()函数用于计算模型变量的重要性
3:MDSplot()函数用于实现随机森林的可视化
4:rfImpute()函数可为存在缺失值的数据集进行插补（随机森林法），得到最优的样本拟合值
5:treesize()函数用于计算随机森林中每棵树的节点个数

随机森林算法介绍

算法介绍：

简单的说，随机森林就是用随机的方式建立一个森林，森林里面有很多的决策树，并且每棵树之间是没有关联的。得到一个森林后，当有一个新的样本输入，森林中的每一棵决策树会分别进行一下判断，进行类别归类（针对分类算法），最后比较一下被判定哪一类最多，就预测该样本为哪一类。
随机森林算法有两个主要环节：决策树的生长和投票过程。

决策树生长步骤：

从容量为N的原始训练样本数据中采取放回抽样方式(即bootstrap取样)随机抽取自助样本集，重复k（树的数目为k）次形成一个新的训练集N，以此生成一棵分类树；
每个自助样本集生长为单棵分类树，该自助样本集是单棵分类树的全部训练数据。设有M个输入特征，则在树的每个节点处从M个特征中随机挑选m(m < M)个特征，按照节点不纯度最小的原则从这m个特征中选出一个特征进行分枝生长，然后再分别递归调用上述过程构造各个分枝，直到这棵树能准确地分类训练集或所有属性都已被使用过。在整个森林的生长过程中m将保持恒定；
分类树为了达到低偏差和高差异而要充分生长，使每个节点的不纯度达到最小，不进行通常的剪枝操作。

投票过程：

随机森林采用Bagging方法生成多个决策树分类器。

基本思想：

给定一个弱学习算法和一个训练集，单个弱学习算法准确率不高，可以视为一个窄领域专家；
将该学习算法使用多次，得出预测函数序列，进行投票，将多个窄领域专家评估结果汇总，最后结果准确率将大幅提升。

随机森林的优点：

可以处理大量的输入变量;
对于很多种资料，可以产生高准确度的分类器;
可以在决定类别时，评估变量的重要性;
在建造森林时，可以在内部对于一般化后的误差产生不偏差的估计;
包含一个好方法可以估计遗失的资料，并且，如果有很大一部分的资料遗失，仍可以维持准确度;
提供一个实验方法，可以去侦测 variable interactions;
对于不平衡的分类资料集来说，可以平衡误差;
计算各例中的亲近度，对于数据挖掘、侦测偏离者（outlier）和将资料视觉化非常有用;
使用上述。可被延伸应用在未标记的资料上，这类资料通常是使用非监督式聚类。也可侦测偏离者和观看资料;
学习过程很快速。

缺点

随机森林已经被证明在某些噪音较大的分类或回归问题上会过拟合;
对于有不同级别的属性的数据，级别划分较多的属性会对随机森林产生更大的影响，所以随机森林在这种数据上产出的属性权值是不可信的。

R语言实现

寻找最优参数mtry，即指定节点中用于二叉树的最佳变量个数


library("randomForest")
n<-length(names(train_data))     #计算数据集中自变量个数，等同n=ncol(train_data)
rate=1     #设置模型误判率向量初始值

for(i in 1:(n-1)){
  set.seed(1234)
  rf_train<-randomForest(as.factor(train_data$IS_LIUSHI)~.,data=train_data,mtry=i,ntree=1000)
  rate[i]<-mean(rf_train$err.rate)   #计算基于OOB数据的模型误判率均值
  print(rf_train)    
}

rate     #展示所有模型误判率的均值
plot(rate)

寻找最佳参数ntree，即指定随机森林所包含的最佳决策树数目


set.seed(100)
rf_train<-randomForest(as.factor(train_data$IS_LIUSHI)~.,data=train_data,mtry=12,ntree=1000)
plot(rf_train)    #绘制模型误差与决策树数量关系图  
legend(800,0.02,"IS_LIUSHI=0",cex=0.9,bty="n")    
legend(800,0.0245,"total",cex=0.09,bty="n")

随机森林模型搭建


set.seed(100)
rf_train<-randomForest(as.factor(train_data$IS_LIUSHI)~.,data=train_data,mtry=12,ntree=400,importance=TRUE,proximity=TRUE)

importance设定是否输出因变量在模型中的重要性，如果移除某个变量，模型方差增加的比例是它判断变量重要性的标准之一；
proximity参数用于设定是否计算模型的临近矩阵；
ntree用于设定随机森林的树数。

输出变量重要性:分别从精确度递减和均方误差递减的角度来衡量重要程度。


importance<-importance(rf_train) 
write.csv(importance,file="E:/模型搭建/importance.csv",row.names=T,quote=F)
barplot(rf_train$importance[,1],main="输入变量重要性测度指标柱形图")
box()

提取随机森林模型中以准确率递减方法得到维度重要性值。type=2为基尼系数方法


importance(rf_train,type=1)
 
varImpPlot(x=rf_train,sort=TRUE,n.var=nrow(rf_train$importance),main="输入变量重要性测度散点图")

信息展示


print(rf_train)    #展示随机森林模型简要信息
hist(treesize(rf_train))   #展示随机森林模型中每棵决策树的节点数
max(treesize(rf_train));min(treesize(rf_train))
MDSplot(rf_train,train_data$IS_OFF_USER,palette=rep(1,2),pch=as.numeric(train_data$IS_LIUSHI))    #展示数据集在二维情况下各类别的具体分布情况

检测


pred<-predict(rf_train,newdata=test_data)  
pred_out_1<-predict(object=rf_train,newdata=test_data,type="prob")  #输出概率
table <- table(pred,test_data$IS_LIUSHI)  
sum(diag(table))/sum(table)  #预测准确率
plot(margin(rf_train,test_data$IS_LIUSHI),main=观测值被判断正确的概率图)

randomForest包可以实现随机森林算法的应用，主要涉及5个重要函数，语法和参数请见下

1:randomForest()函数用于构建随机森林模型


randomForest(fORMula, data=NULL, ..., subset, na.action=na.fail)
randomForest(x, y=NULL, xtest=NULL, ytest=NULL, ntree=500,
             mtry=if (!is.null(y) && !is.factor(y))
               max(floor(ncol(x)/3), 1) else floor(sqrt(ncol(x))),
             replace=TRUE, classwt=NULL, cutoff, strata,
             sampsize = if (replace) nrow(x) else ceiling(.632*nrow(x)),
             nodesize = if (!is.null(y) && !is.factor(y)) 5 else 1,
             maxnodes = NULL,
             importance=FALSE, localImp=FALSE, nPerm=1,
             proximity, oob.prox=proximity,
             norm.votes=TRUE, do.trace=FALSE,
             keep.forest=!is.null(y) && is.null(xtest), corr.bias=FALSE,
             keep.inbag=FALSE, ...)

formula指定模型的公式形式，类似于y~x1+x2+x3…;
data指定分析的数据集；
subset以向量的形式确定样本数据集；
na.action指定数据集中缺失值的处理方法，默认为na.fail，即不允许出现缺失值，也可以指定为na.omit，即删除缺失样本；
x指定模型的解释变量，可以是矩阵，也可以是数据框；
y指定模型的因变量，可以是离散的因子，也可以是连续的数值，分别对应于随机森林的分类模型和预测模型。这里需要说明的是，如果不指定y值，则随机森林将是一个无监督的模型；
xtest和ytest用于预测的测试集；
ntree指定随机森林所包含的决策树数目，默认为500；
mtry指定节点中用于二叉树的变量个数，默认情况下数据集变量个数的二次方根（分类模型）或三分之一（预测模型）。一般是需要进行人为的逐次挑选，确定最佳的m值；
replace指定Bootstrap随机抽样的方式，默认为有放回的抽样
classwt指定分类水平的权重，对于回归模型，该参数无效；
strata为因子向量，用于分层抽样；
sampsize用于指定样本容量，一般与参数strata联合使用，指定分层抽样中层的样本量；
nodesize指定决策树节点的最小个数，默认情况下，判别模型为1，回归模型为5；
maxnodes指定决策树节点的最大个数；
importance逻辑参数，是否计算各个变量在模型中的重要性，默认不计算，该参数主要结合importance()函数使用；
proximity逻辑参数，是否计算模型的临近矩阵，主要结合MDSplot()函数使用；
oob.prox是否基于OOB数据计算临近矩阵；
norm.votes显示投票格式，默认以百分比的形式展示投票结果，也可以采用绝对数的形式；
do.trace是否输出更详细的随机森林模型运行过程，默认不输出；
keep.forest是否保留模型的输出对象，对于给定xtest值后，默认将不保留算法的运算结果。

2:importance()函数用于计算模型变量的重要性


importance(x, type=NULL, class="NULL", scale=TRUE, ...)

x为randomForest对象；
type可以是1，也可以是2，用于判别计算变量重要性的方法，1表示使用精度平均较少值作为度量标准；2表示采用节点不纯度的平均减少值最为度量标准。值越大说明变量的重要性越强；
scale默认对变量的重要性值进行标准化。

3:MDSplot()函数用于实现随机森林的可视化


MDSplot(rf, fac, k=2, palette=NULL, pch=20, ...)

rf为randomForest对象，需要说明的是，在构建随机森林模型时必须指定计算临近矩阵，即设置proximity参数为TRUE；
fac指定随机森林模型中所使用到的因子向量（因变量）；
palette指定所绘图形中各个类别的颜色；
pch指定所绘图形中各个类别形状；
还可以通过R自带的plot函数绘制随机森林决策树的数目与模型误差的折线图

4:rfImpute()函数可为存在缺失值的数据集进行插补（随机森林法），得到最优的样本拟合值


rfImpute(x, y, iter=5, ntree=300, ...)
rfImpute(x, data, ..., subset)

x为存在缺失值的数据集；
y为因变量，不可以存在缺失情况；
iter指定插值过程中迭代次数；
ntree指定每次迭代生成的随机森林中决策树数量；
subset以向量的形式指定样本集。

5:treesize()函数用于计算随机森林中每棵树的节点个数


treesize(x, terminal=TRUE)

x为randomForest对象；
terminal指定计算节点数目的方式，默认只计算每棵树的根节点，设置为FALSE时将计算所有节点（根节点+叶节点）。
一般treesize()函数生成的结果用于绘制直方图，方面查看随机森林中树的节点分布情况。

到此这篇关于R语言实现随机森林的方法示例的文章就介绍到这了,更多相关R语言随机森林内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: R语言实现随机森林的方法示例

本文链接: https://www.lsjlt.com/news/132286.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

R语言实现随机森林的方法示例

目录随机森林算法介绍算法介绍：决策树生长步骤：投票过程：基本思想：随机森林的优点：缺点R语言实现随机森林模型搭建1:randomForest()函数用于构建随机森林模型2:impor...

99+

2024-04-02
R语言如何实现随机森林

这篇文章主要为大家展示了“R语言如何实现随机森林”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“R语言如何实现随机森林”这篇文章吧。随机森林算法介绍算法介绍：简单的说，随机森林就是用随机的方式建立...

99+

2023-06-20
R语言中怎么实现随机森林算法

在R语言中，您可以使用 randomForest 包来实现随机森林算法。以下是一个简单的示例代码，演示如何在R中使用随机森林算法进行...

99+

2024-04-03

R语言
使用R语言怎么实现一个随机森林算法

这篇文章给大家介绍使用R语言怎么实现一个随机森林算法，内容非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。R语言包“randomForest”用于创建随机森林。安装R包在R语言控制台中使用以下命令安装软件包。您还必须安装相关...

99+

2023-06-15
R语言关于随机森林算法的知识点详解

在随机森林方法中，创建大量的决策树。每个观察被馈入每个决策树。每个观察的最常见的结果被用作最终输出。新的观察结果被馈入所有的树并且对每个分类模型取多数投票。对构建树时未使用的...

99+

2024-04-02
Python实现孤立随机森林算法的示例代码

目录1 简介2 孤立随机森林算法2.1 算法概述2.2 原理介绍2.3 算法步骤3 参数讲解4 Python代码实现 5 结果 1 简介孤立森林（isolati...

99+

2024-04-02
python随机森林算法怎么实现

要实现随机森林算法，可以使用sklearn库中的RandomForestClassifier类。下面是一个简单的例子：```pyth...

99+

2023-10-10

python
python怎么实现随机森林算法

要实现随机森林算法，你可以使用scikit-learn库中的RandomForestClassifier类。下面是一个示例代码：``...

99+

2023-08-15

python
Python如何实现孤立随机森林算法

这篇文章主要介绍Python如何实现孤立随机森林算法，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！1 简介孤立森林（isolation Forest）是一种高效的异常检测算法，它和随机森林类似，但每次选择划分属性和划...

99+

2023-06-29
随机森林算法（Random Forest）原理分析及Python实现

目录一、基础概念1.监督式机器学习2. 回归和分类3. 决策树4. 随机森林二、Random Forest 的构造1. 算法实现2.数据的随机选取3. 待选特征的随机选取三、Ra...

99+

2023-09-27

python 算法随机森林
随机森林算法原理及实际应用的Python示例（带完整代码）

随机森林算法是一种集成技术，能够使用多个决策树和一种称为Bootstrap和聚合的技术来执行回归和分类任务。这背后的基本思想是结合多个决策树来确定最终输出，而不是依赖于单个决策树。机器学习中的随机森林随机森林产生大量分类树...

99+

2024-01-23

算法的概念
python人工智能算法之随机森林怎么实现

这篇文章主要介绍了python人工智能算法之随机森林怎么实现的相关知识，内容详细易懂，操作简单快捷，具有一定借鉴价值，相信大家阅读完这篇python人工智能算法之随机森林怎么实现文章都会有所收获，下面我们一起来看看吧。随机森林(Random...

99+

2023-07-06
R语言随机数生成的实现

1. 均匀分布函数： runif(n, min=0, max=1)，n 表示生成的随机数数量，min 表示均匀分布的下限，max 表示均匀分布的上限，若省略参min、max，则默认...

99+

2024-04-02
R语言生成随机数的方法

这篇文章主要介绍R语言生成随机数的方法，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！1.概述作为一种语言进行统计分析，R有一个随机数生成各种统计分布功能的综合性图书馆。R语言可以针对不同的分布，生成该分布下的随机数。...

99+

2023-06-14
python实现H2O中的随机森林算法介绍及其项目实战

随机森林(Random Forest)是一种集成学习方法，通过组合多个决策树来进行分类和回归。它在H2O中也有相应的实现。H2O是一...

99+

2023-08-15

python
Matlab利用随机森林(RF)算法实现回归预测详解

目录1 分解代码1.1 最优叶子节点数与树数确定1.2 循环准备1.3 数据划分1.4 随机森林实现1.5 精度衡量1.6 变量重要程度排序1.7 保存模型2 完整代码本文分为两部分...

99+

2023-02-17

Matlab随机森林回归预测 Matlab 回归预测 Matlab随机森林
R语言生成随机数实例讲解

1.概述作为一种语言进行统计分析，R有一个随机数生成各种统计分布功能的综合性图书馆。R语言可以针对不同的分布，生成该分布下的随机数。其中，有许多常用的个分布可以直接调用。本文简单介...

99+

2024-04-02
R语言实现线性回归的示例

在统计学中，线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。简单对来说就是用来确定两种或...

99+

2024-04-02
R语言绘制尺子的实现示例

本文使用基本的绘图命令plot、rect、segments、text绘制一把长10厘米的直尺。话不多说上教程。 1、定义基本单位 xcm <- 0.07 ycm <- 0...

99+

2024-04-02
R语言实现岭回归的示例代码

岭参数的一般选择原则选择k（或lambda）值，使得：各回归系数的岭估计基本稳定用最小二乘估计时符号不合理的回归系数，其岭回归的符号变得合理 ...

99+

2024-04-02