广告
返回顶部
首页 > 资讯 > 后端开发 > Python >怎么用Python做数据预处理
  • 340
分享到

怎么用Python做数据预处理

2023-06-02 09:06:53 340人浏览 独家记忆

Python 官方文档:入门教程 => 点击学习

摘要

这篇文章给大家介绍怎么用python做数据预处理,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。前戏在拿到一份数据准备做挖掘建模之前,首先需要进行初步的数据探索性分析(你愿意花十分钟系统了解数据分析方法吗?),对数据探索

这篇文章给大家介绍怎么用python做数据预处理,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。

前戏

在拿到一份数据准备做挖掘建模之前,首先需要进行初步的数据探索性分析(你愿意花十分钟系统了解数据分析方法吗?),对数据探索性分析之后要先进行一系列的数据预处理步骤。因为拿到的原始数据存在不完整、不一致、有异常的数据,而这些“错误”数据会严重影响到数据挖掘建模的执行效率甚至导致挖掘结果出现偏差,因此首先要数据清洗。数据清洗完成之后接着进行或者同时进行数据集成、转换、归一化等一系列处理,该过程就是数据预处理。一方面是提高数据的质量,另一方面可以让数据更好的适应特定的挖掘模型,在实际工作中该部分的内容可能会占整个工作的70%甚至更多。

01   缺失值处理

由于人员录入数据过程中或者存储器损坏等原因,缺失值在一份数据中或多或少存在,所以首先就需要对缺失值进行处理,缺失值处理总的原则是:使用最可能的值代替缺失值,使缺失值与其他数值之间的关系保持最大。具体的常用方法如下:

  1. 删除缺失值(缺失值占比很小的情况)

  2. 人工填充 (数据集小,缺失值少)

  3. 用全局变量填充(将缺失值填充一常数如“null”)

  4. 使用样本数据的均值或中位数填充

  5. 用插值法(如拉格朗日法、牛顿法)

Python缺失值处理实例代码

  1. 判断删除缺失值- -isnull,notnull

    判断缺失值可以用来计算缺失值占比整个数据的大小,如果占比很小可以删除缺失值。

  2. 填充替换缺失值--fillna

    如果缺失值不可以占比很多,就不能能够轻易的删除缺失值,可以用上述的插值方法填充缺失值。

  3. 核心代码和结果图

怎么用Python做数据预处理
怎么用Python做数据预处理

02   异常值处理

异常值是数据集中偏离大部分数据的数据。从数据值上表现为:数据集中与平均值的偏差超过两倍标准差的数据,其中与平均值的偏差超过三倍标准差的数据(3σ原则),称为高度异常的异常值。

异常值分析方法

  1. 3σ原则 (数据分布为正态分布)

  2. 箱型图分析(内限or外限)。

常用处理方法如下:

  • 直接删除  (异常值占比小)

  • 暂且保留,待结合整体模型综合分析

  • 利用现有样本信息的统计量填充(均值等)

Python异常值处理实例代码

  1. 检验是否符合正态分布,符合用3σ原则判断并处理,核心代码结果如下:

怎么用Python做数据预处理
怎么用Python做数据预处理

     2. 当不符合正态分布时可用箱型图分析处理,核心结果代码如下:

怎么用Python做数据预处理
怎么用Python做数据预处理

03   数据标准化处理

数据的标准化(nORMalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权,最典型的就是数据归一化处理就是将数据统一映射到[0,1]区间上 。

常用数据标准化方法:

  • MIN- MAX标准化(x - x_min)/(x_max-x_min)

  • z-score标准化(x-x_mean)/x_std

  • 小数定标标准化

  • 向量归一化

  • 线性比例变换法

  • 平均值法

  • 指数转换法

归一化的目的

  1. 使得预处理的数据被限定在一定的范围

  2. 消除奇异样本数据导致的不良影响

在大佬Ng的视频课中听过一句话,归一化会加快梯度下降的求解速度。

应用场景说明

  1. SVM、线性回归之类的最优化问题需要归一化,是否归一化主要在于是否关心变量取值;

  2. 神经网络需要标准化处理,一般变量的取值在-1到1之间,这样做是为了弱化某些变量的值较大而对模型产生影响。一般神经网络中的隐藏层采用tanh激活函数比sigmod激活函数要好些,因为tanh双曲正切函数的取值[-1,1]之间,均值为0;

  3. 在K近邻算法中,如果不对解释变量进行标准化,那么具有小数量级的解释变量的影响就会微乎其微。

注意:没有一种数据标准化的方法,放在每一个问题,放在每一个模型,都能提高算法精度和加快算法的收敛速度。所以对于不同的问题可能会有不同的归一化方法。在分类、聚类算法中,需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候,Z-score standardization表现更好。

04   数据连续属性离散化

一些数据挖掘算法,特别是分类算法,要求数据是分类属性形式。常常需要将连续属性变换成分类属性,即连续属性离散化。 常用的离散化方法:

  1. 等宽法:将属性值域分成具有相同宽度的区间,区间的个数由数据本身的特点决定,或者由用户指定,类似于制作频率分布表。 

  2.  等频法:将相同数量的记录放进每个区间。 

  3. 基于聚类分析的方法。 通过分箱离散化、通过直方图分析离散化、通过聚类、决策树和相关分析离散化、标称数据的概念分层产生。

笔者在学习数据分析过程中记录下来的一些通用的数据预处理步骤,并且用Numpy、pandas、Matplotlib等实现了每一种处理方法并可视化了处理结果。

关于怎么用Python做数据预处理就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。

--结束END--

本文标题: 怎么用Python做数据预处理

本文链接: https://www.lsjlt.com/news/229573.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 怎么用Python做数据预处理
    这篇文章给大家介绍怎么用Python做数据预处理,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。前戏在拿到一份数据准备做挖掘建模之前,首先需要进行初步的数据探索性分析(你愿意花十分钟系统了解数据分析方法吗?),对数据探索...
    99+
    2023-06-02
  • python数据预处理
    Ⅰ.数据源 Ⅱ.导入库 import pandas as pdimport numpy as npfrom scipy import statsimport matplotlib.pyplot a...
    99+
    2023-09-21
    python 数据分析
  • 怎么在python中实现数据预处理
    这篇文章将为大家详细讲解有关怎么在python中实现数据预处理,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。python的五大特点是什么python的五大特点:1.简单易学,开发程序时,专注...
    99+
    2023-06-14
  • 怎么用Python制作一个数据预处理小工具
    这篇文章主要讲解了“怎么用Python制作一个数据预处理小工具”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“怎么用Python制作一个数据预处理小工具”吧!在我们平常使用Python进行数据...
    99+
    2023-06-15
  • 使用Python对EXCEL数据的预处理
    一、熟悉数据 我们将EXCEL中的数据导入之后,需要对数据进行大致性的了解,当对数据充分地了解之后,才便于后期的分析工作。 该部分涉及到四个基本方法,分别为“shape&...
    99+
    2023-03-22
    Python EXCEL数据预处理 Python 数据预处理
  • 利用python做表格数据处理
    目录技术背景python对Excel表格的处理vaex的安装与使用vaex的安装性能对比数据格式转换总结概要技术背景 数据处理是一个当下非常热门的研究方向,通过对于大型实际场景中的...
    99+
    2022-11-12
  • python优化数据预处理方法是什么
    本篇内容主要讲解“python优化数据预处理方法是什么”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“python优化数据预处理方法是什么”吧!我们知道现实中的数据通常是杂乱无章的,需要大量的预处...
    99+
    2023-06-25
  • Python中如何进行数据预处理?
    Python是一种广泛使用的编程语言,它在数据科学和机器学习领域中也非常受欢迎。在这些领域中,数据预处理是一个至关重要的步骤,因为原始数据通常是不完整、不一致和不可靠的。在本文中,我们将讨论Python中如何进行数据预处理。 1.导入数据 ...
    99+
    2023-08-11
    日志 numy load
  • Python数据预处理常用的5个技巧
    目录前言数据集示例 1示例 2示例 3示例 4示例 5总结前言 我们知道数据是一项宝贵的资产,近年来经历了指数级增长。但是原始数据通常不能立即使用,它需要进行大量清理和转换。 Pan...
    99+
    2022-11-13
  • Python数据预处理常用的技巧有哪些
    本篇内容介绍了“Python数据预处理常用的技巧有哪些”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!数据集这是一个包含脏数据的示例数据框让我...
    99+
    2023-06-29
  • python数据预处理的方法有哪些
    Python数据预处理的方法有:1. 数据清洗:处理缺失值、异常值、重复值等问题。2. 数据整合:将不同来源的数据整合到一起,如合并...
    99+
    2023-08-09
    python
  • Python数据清洗&预处理入门教程
    目录导入如果有缺失数据会怎么样如果包含属性数据,会怎么样呢你发现什么潜在问题了吗训练集与测试集的划分特征缩放对于哑变量而言是否需要进行缩放凡事预则立,不预则废,训练机器学习模型也是如...
    99+
    2022-11-11
  • 怎么用python做数据分析
    要使用Python进行数据分析,可以按照以下步骤进行:1. 安装Python和相关库:首先,确保你已经安装了Python的最新版本。...
    99+
    2023-10-12
    python
  • 大数据应用中的自然语言处理技术,Python怎么做?
    随着信息时代的到来,数据量不断增大,如何对这些数据进行处理和分析成为了一个重要的问题。而自然语言处理技术在大数据应用中起到了重要的作用。本文将介绍大数据应用中的自然语言处理技术及其Python实现。 一、自然语言处理技术在大数据应用中的应用...
    99+
    2023-10-13
    大数据 自然语言处理 同步
  • 怎么用python进行数据处理
    使用Python进行数据处理可以使用各种库和工具。以下是一些常见的用于数据处理的Python库和工具: NumPy:用于数值计算和...
    99+
    2023-10-25
    python
  • 怎么用python处理大量数据
    处理大量数据,可以使用一些Python库和技术来优化效率和提高处理速度。以下是一些常用的方法:1. 使用适当的数据结构:使用适当的数...
    99+
    2023-09-01
    python
  • python怎么处理json数据
    在Python中,可以使用json模块来处理JSON数据。以下是处理JSON数据的一些常见操作:1. 解析JSON数据:  ...
    99+
    2023-10-18
    python json
  • python优化数据预处理方法Pandaspipe详解
    我们知道现实中的数据通常是杂乱无章的,需要大量的预处理才能使用。Pandas 是应用最广泛的数据分析和处理库之一,它提供了多种对原始数据进行预处理的方法。 import nump...
    99+
    2022-11-12
  • Python怎么读取预处理DICOM文件
    这篇文章主要介绍“Python怎么读取预处理DICOM文件”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“Python怎么读取预处理DICOM文件”文章能帮助大家解决问题。需要的库●Simpleitk...
    99+
    2023-07-05
  • 怎么使用Python处理文本数据
    本篇内容介绍了“怎么使用Python处理文本数据”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!用python处理文本数据实验目的熟悉pyth...
    99+
    2023-07-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作