广告
返回顶部
首页 > 资讯 > 精选 >R语言项目中出现数据不平衡如何解决
  • 345
分享到

R语言项目中出现数据不平衡如何解决

2023-06-08 01:06:10 345人浏览 泡泡鱼
摘要

这篇文章将为大家详细讲解有关R语言项目中出现数据不平衡如何解决,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。一、项目环境开发工具:RStudioR:3.5.2相关包:dplyr、ROSE、D

这篇文章将为大家详细讲解有关R语言项目中出现数据不平衡如何解决,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。

一、项目环境

开发工具:RStudio

R:3.5.2

相关包:dplyr、ROSE、DMwR

二、什么是数据不平衡?为什么要处理数据不平衡?

首先我们要知道的第一个问题就是“什么是数据不平衡”,从字面意思上进行解释就是数据分布不均匀。在我们做有监督学习的时候,数据中有一个类的比例远大于其他类,或者有一个类的比值远小于其他类时,我们就可以认为这个数据存在数据不平衡问题。

那么这样的一个问题会对我们后续的分析工作带来怎样的影响呢?我举个简单的例子,或许大家就明白了。

假设我们现在需要训练一个模型来分辨人群中那个人是恐怖分子。那么现在给到我们1万个人员的数据,在做分析之前其实我们就很清楚,一群人中恐怖分子的比例肯定是要远小于普通人的比例的。

那么假如在这1万个人中只有一个是恐怖分子,那么恐怖分子与正常人的比例就是 9999 : 1 。

那么如果我们不进行任何处理就直接进行有监督学习的话,那么模型只需要将所有人数据都分类为正常人,模型的准确率就能达到99.99%。而这样的模型显然是没有意义的。

因为基本上说有可能存在的恐怖分子的特征基本都被模型给忽略了,这也就说明了为什么要处理数据不平衡问题。

三、 常见的数据不平衡处理方法

以下是几种比较常见的处理数据不平衡的方法:

欠采样法(Undersampling)

过采样法(Oversampling)

人工数据合成法(Synthetic Data Generation)

代价敏感学习法(Cose Sensitive Learning)

【注】:本文主要以实现为主,因此不对上述方法进行过多的讲解。

在处理数据之前,我们先看一下需要处理的数据分布的情况。

load("C:/Users/User/Desktop/data.RData")table(data$classification)prop.table(table(data$classification))

> table(data$classification)

-8 1 2 3 4 5

12 104 497 1158 4817 1410

> prop.table(table(data$classification))

-8 1 2 3 4 5

0.001500375 0.013003251 0.062140535 0.144786197 0.602275569 0.176294074

1、 欠采样

######### 方法一 #########library(ROSE)# 由于是多分类问题,我们先提取数据中比例最大的类和比例最小的类# 进行平衡(转化为二分类问题)test <- data[which(data$classification == -8 | data$classification == 4),]# 将分类结果转化为因子型(不然会报错)test$classification <- as.factor(test$classification)# 进行欠采样# 其中 method = "under" 表示采用的方法为“欠采样”# N = 40 表示最终整个数据集的数量# seed 随机种子,为了保留对样本的追踪under <- ovun.sample(classification ~ ., test, method = "under", N = 40, seed = 1)$data# 查看结果table(under$classification)

> table(under$classification)

4 -8

28 12

######### 方法二 #########library(dplyr)# 由于是多分类问题,我们先提取数据中比例最大的类和比例最小的类# 进行平衡(转化为二分类问题)test <- data[which(data$classification == -8 | data$classification == 4),]# 提取大比例类test1 <- test[which(test$classification == 4),]# 将大比例类的数量降为12个down <- sample_n(test1, 12, replace = TRUE)# 将欠采样后的类进行合并down <- rbind(test[which(test$classification == -8), ],down)table(down$classification)

> table(down$classification)

-8 4

12 12

【注】:欠采样是无放回的采样。

2、 过采样

######### 方法一 #########library(ROSE)test <- data[which(data$classification == -8 | data$classification == 4),]test$classification <- as.factor(test$classification)# 实现上大致与欠采样相同,只有类型 method 改成了 "over",同时没有限制总数量under <- ovun.sample(classification ~ ., test, method = "over", seed = 1)$datatable(under$classification)

> table(under$classification)

4 -8

4817 4785

######### 方法二 #########library(dplyr)test <- data[which(data$classification == -8 | data$classification == 4),]# 提取小比例类test1 <- test[which(test$classification == -8),]# 将小比例类的数量降为4817个(与大比例类相同)# 这里使用的过采样方法是随机复制小比例类中的数据,将其扩充到指定数量down <- sample_n(test1, 4817, replace = TRUE)down <- rbind(test[which(test$classification == 4), ],down)table(down$classification)

> table(down$classification)

-8 4

4817 4817

3、人工数据合成法(Synthetic Data Generation)

######### 方法一 #########library(ROSE)# 由于是多分类问题,我们先提取数据中比例最大的类和比例最小的类# 进行平衡(转化为二分类问题)test <- data[which(data$classification == -8 | data$classification == 4),]# 将分类结果转化为因子型(不然会报错)test$classification <- as.factor(test$classification)# ROSE提供了ROSE()函数来合成人工数据rose <- ROSE(classification ~ ., test, seed = 1)$data# 查看结果table(rose$classification)

> table(rose$classification)

4 -8

2483 2346

######### 方法二 #########library(DMwR)test <- data[which(data$classification == -8 | data$classification == 4),]test$classification <- as.factor(test$classification)# perc.over: 如 perc.over = n,小比例类的个数变为 (n/100)a + a 个数据(a为小比例类原始数量)# perc.under: 如 perc.under = m,大比例类的个数变为((nm)/100)a个# 因此本次案例中,小比例类的个数变为(3500/100)*12 + 12 = 432个# 大比例类的个数变为((3500*300)/100^2)*12 = 1260个down <- SMOTE(classification ~ ., test, perc.over = 3500, perc.under = 300)table(down$classification)

> table(down$classification)

-8 4

432 1260

关于R语言项目中出现数据不平衡如何解决就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。

--结束END--

本文标题: R语言项目中出现数据不平衡如何解决

本文链接: https://www.lsjlt.com/news/250876.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • R语言项目中出现数据不平衡如何解决
    这篇文章将为大家详细讲解有关R语言项目中出现数据不平衡如何解决,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。一、项目环境开发工具:RStudioR:3.5.2相关包:dplyr、ROSE、D...
    99+
    2023-06-08
  • R语言中数据不平衡如何解决
    R语言中数据不平衡如何解决?相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。一、项目环境开发工具:RStudioR:3.5.2相关包:dplyr、ROSE、DMwR二、什么是数据不...
    99+
    2023-06-15
  • 解决R语言 数据不平衡的问题
    R语言解决数据不平衡问题 一、项目环境 开发工具:RStudio R:3.5.2 相关包:dplyr、ROSE、DMwR 二、什么是数据不平衡?为什么要处理数据不平衡? 首先我们要知...
    99+
    2022-11-11
  • C#项目中List并发出现数据丢失如何解决
    C#项目中List并发出现数据丢失如何解决?针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。class Program{ static List&...
    99+
    2023-06-06
  • Android项目中出现TextView排版参差不齐如何解决
    Android项目中出现TextView排版参差不齐如何解决?相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。 Android 解决TextView排版参差不齐的问题在a...
    99+
    2023-05-31
    android roi textview
  • 如何解决vue项目中页面调用数据在数据加载完毕之前出现undefined的问题
    这篇文章主要介绍如何解决vue项目中页面调用数据在数据加载完毕之前出现undefined的问题,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!在项目中遇到后台数据还没有加载完毕,但是页...
    99+
    2022-10-19
  • 如何解决echarts中多个折现数据出现坐标和值对不上的问题
    小编给大家分享一下如何解决echarts中多个折现数据出现坐标和值对不上的问题,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!当出现多个折现数据,echarts可以配置stack值使用堆积值...
    99+
    2022-10-19
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作