广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python 数据分析教程探索性数据分析
  • 960
分享到

Python 数据分析教程探索性数据分析

2024-04-02 19:04:59 960人浏览 泡泡鱼

Python 官方文档:入门教程 => 点击学习

摘要

目录什么是探索性数据分析(EDA)?描述性统计分组数据方差分析相关性和相关性计算什么是探索性数据分析(EDA)? EDA 是数据分析下的一种现象,用于更好地理解数据方面,例如:&nb

什么是探索性数据分析(EDA)?

EDA 是数据分析下的一种现象,用于更好地理解数据方面,例如: 
– 数据的主要特征 
– 变量和它们之间的关系 
– 确定哪些变量对我们的问题很重要 
我们将研究各种探索性数据分析方法,

例如: 

  • 描述性统计,这是一种简要概述我们正在处理的数据集的方法,包括样本的一些度量和特征
  • 分组数据 [使用group by 进行基本分组]
  • ANOVA,方差分析,这是一种计算方法,可将观察集中的变化划分为不同的分量。
  • 相关和相关方法

我们将使用的数据集是子投票数据集,您可以在 python 中将其导入为:

import pandas as pd
Df = pd.read_csv("https://vincentarelbundock.GitHub.io / Rdatasets / csv / car / Child.csv")

描述性统计

描述性统计是了解数据特征和快速总结数据的有用方法。python 中的 Pandas 提供了一个有趣的方法describe() 。describe 函数对数据集应用基本统计计算,如极值、数据点计数标准差等。任何缺失值或 NaN 值都会被自动跳过。describe() 函数很好地描绘了数据的分布情况。

DF.describe()

这是您在运行上述代码时将获得的输出:

另一种有用的方法是 value_counts(),它可以获取分类属性值系列中每个类别的计数。例如,假设您正在处理一个客户数据集,这些客户在列名 age 下分为青年、中年和老年类别,并且您的数据框是“DF”。您可以运行此语句以了解有多少人属于各个类别。在我们的数据集示例中可以使用教育列 

DF["education"].value_counts()

上述代码的输出将是:

另一个有用的工具是 boxplot,您可以通过 matplotlib 模块使用它。箱线图是数据分布的图形表示,显示极值、中位数和四分位数。我们可以使用箱线图轻松找出异常值。现在再次考虑我们一直在处理的数据集,让我们在属性总体上绘制一个箱线图 

import pandas as pd
import matplotlib.pyplot as plt
DF = pd.read_csv("Https://raw.githubusercontent.com / fivethirtyeight / data / master / airline-safety / airline-safety.csv")
y = list(DF.population)
plt.boxplot(y)
plt.show()

发现异常值后,输出图将如下所示:

分组数据

Group by 是 pandas 中可用的一个有趣的度量,它可以帮助我们找出不同分类属性对其他数据变量的影响。让我们看一个在同一数据集上的示例,我们想找出人们的年龄和教育对投票数据集的影响。

DF.groupby(['education', 'vote']).mean()

输出会有点像这样:

如果按输出表进行分组难以理解,则进一步的分析师使用数据透视表和热图对其进行可视化。 

方差分析

ANOVA 代表方差分析。执行它是为了找出不同类别数据组之间的关系。 
在 ANOVA 下,我们有两个测量结果: 
– F-testscore:显示组均值相对于变化的变化 
– p 值:显示结果的重要性 
这可以使用 Python 模块 scipy 方法名称f_oneway() 

这些样本是每组的样本测量值。 
作为结论,如果 ANOVA 检验给我们一个大的 F 检验值和一个小的 p 值,我们可以说其他变量和分类变量之间存在很强的相关性。

相关性和相关性计算

相关性是上下文中两个变量之间的简单关系,使得一个变量影响另一个变量。相关性不同于引起的行为。计算变量之间相关性的一种方法是找到 Pearson 相关性。在这里,我们找到两个参数,即皮尔逊系数和 p 值。当 Pearson 相关系数接近 1 或 -1 且 p 值小于 0.0001 时,我们可以说两个变量之间存在很强的相关性。 
Scipy 模块还提供了一种执行 pearson 相关性分析的方法,

这里的示例是您要比较的属性。 

到此这篇关于Python 数据分析教程探索性数据分析的文章就介绍到这了,更多相关Python 索性数据分析内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: Python 数据分析教程探索性数据分析

本文链接: https://www.lsjlt.com/news/120033.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Python 数据分析教程探索性数据分析
    目录什么是探索性数据分析(EDA)?描述性统计分组数据方差分析相关性和相关性计算什么是探索性数据分析(EDA)? EDA 是数据分析下的一种现象,用于更好地理解数据方面,例如:&nb...
    99+
    2022-11-11
  • Python Sweetviz轻松实现探索性数据分析
    Sweetviz 是一个开源 Python 库,它只需三行代码就可以生成漂亮的高精度可视化效果来启动EDA(探索性数据分析)。输出一个HTML。文末提供技术交流群,喜欢点赞支持,收藏...
    99+
    2022-11-12
  • Python中Sweetviz如何实现探索性数据分析
    小编给大家分享一下Python中Sweetviz如何实现探索性数据分析,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!Sweetviz 是一个开源 Python 库,它只需三行代码就可以生成漂亮的高精度可视化效果来启动EDA...
    99+
    2023-06-25
  • Python中常用探索性数据分析方法有哪些
    这篇文章主要介绍了Python中常用探索性数据分析方法有哪些,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。常用探索性数据分析方法很多,比如常用的 Pandas DataFra...
    99+
    2023-06-25
  • Python 更快进行探索性数据分析的四个方法
    大家好,常用探索性数据分析方法很多,比如常用的 Pandas DataFrame 方法有 .head()、.tail()、.info()、.describe()、.plot() 和 ...
    99+
    2022-11-12
  • Python进行数据分析(详细教程)
    1.为什么选择Python进行数据分析? Python是一门动态的、面向对象的脚本语言,同时也是一门简约,通俗易懂的编程语言。Python入门简单,代码可读性强,一段好的Python代码,阅读起来像是...
    99+
    2023-10-23
    python 数据分析 开发语言
  • 数据分析-python
    数据分析 参考python数据分析与挖掘实战-张良均著 数据探索 数据质量分析 缺失值分析 异常值分析 一致性分析 利用箱线图检验异常值,可以看出数据的分布范围大致情况,和1/4值、1/2值、3/4值得情况。 代码: # -*- c...
    99+
    2021-04-03
    数据分析-python
  • Python 第三方库 Pandas 数据分析教程
    目录Pandas导入Pandas与numpy的比较Pandas的Series类型Pandas的Series类型的创建Pandas的Series类型的基本操作pandas的DataFr...
    99+
    2022-11-11
  • Python教程pandas数据分析去重复值
    目录加载数据sample抽样函数指定需要更新的值append直接添加append函数用法根据某一列key值进行去重(key唯一)加载数据 首先,我们需要加载到所需要的数据,这里我们所...
    99+
    2022-11-12
  • Python数据分析之分析千万级淘宝数据
    目录1、项目背景与分析说明2、导入相关库3、数据预览、数据预处理4、模型构建1)流量指标的处理2)用户行为指标3)漏斗分析4)客户价值分析(RFM分析)1、项目背景与分析说明 1)项...
    99+
    2022-11-13
  • 数据分析:消费者数据分析
    数据分析:消费者数据分析 作者:i阿极 作者简介:Python领域新星作者、多项比赛获奖者:博主个人首页 😊😊😊如果觉得文章不错或能帮助到你学习...
    99+
    2023-09-01
    数据分析 数据挖掘 python 开发语言
  • 数据分析:麦当劳食品营养数据探索并可视化
    系列文章目录 作者:i阿极 作者简介:Python领域新星作者、多项比赛获奖者:博主个人首页 😊😊😊如果觉得文章不错或能帮助到你学习,可以点赞...
    99+
    2023-09-11
    数据分析 python 数据挖掘 开发语言
  • 使用Python进行数据分析——线性回归分析
    大家好,线性回归是确定两种或两种以上变量之间互相依赖的定量关系的一种统计分析方法。根据自变量的个数,可以将线性回归分为一元线性回归和多元线性回归分析。 一元线性回归:就是只包含一个自变量,且该自变量与因变量之间的关系是线性关系。例如通过广...
    99+
    2023-10-04
    python 数据分析 Powered by 金山文档
  • python数据分析之pandas数据选
      Pandas是作为Python数据分析著名的工具包,提供了多种数据选取的方法,方便实用。本文主要介绍Pandas的几种数据选取的方法。   Pandas中,数据主要保存为Dataframe和Series是数据结构,这两种数据结构数据...
    99+
    2023-01-30
    数据 python pandas
  • python数据分析之聚类分析(cluster analysis)
    何为聚类分析 聚类分析或聚类是对一组对象进行分组的任务,使得同一组(称为聚类)中的对象(在某种意义上)与其他组(聚类)中的对象更相似(在某种意义上)。它是探索性数据挖掘的主要任务,也...
    99+
    2022-11-12
  • Python数据分析入门
    本文来分享一下如何通过Python来开始数据分析。具体内容如下:数据导入导入本地的或者web端的CSV文件;数据变换;数据统计描述;假设检验单样本t检验;可视化;创建自定义函数。数据导入这是很关键的一步,为了后续的分析我们首先需要导入数据。...
    99+
    2023-01-31
    入门 数据 Python
  • python数据分析及可视化(十五)数据分析可视化实战篇(抖音用户数据分析、二手房数据分析)
    python数据分析的实战篇,围绕实例的数据展开分析,通过数据操作案例来了解数据分析中的频繁用到的知识内容。 抖音用户数据分析 1.理解数据 数据字段含义 了解数据内容,确保数据来源是正常的,安全合法...
    99+
    2023-09-02
    python 数据分析 开发语言
  • Python数据分析模块Numpy切片、索引和广播源码分析
    这篇文章主要讲解了“Python数据分析模块Numpy切片、索引和广播源码分析”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Python数据分析模块Numpy切片、索引和广播源码分析”吧!N...
    99+
    2023-07-06
  • 【100天精通Python】Day57:Python 数据分析_Pandas数据描述性统计,分组聚合,数据透视表和相关性分析
    目录 1 描述性统计(Descriptive Statistics) 2 数据分组和聚合 3 数据透视表 4 相关性分析 1 描述性统计(Descriptive Statistics)         描述性统计是一种用于汇总和理解数据集...
    99+
    2023-09-10
    信息可视化 python pandas
  • 数据分析:OLS回归分析
      变量之间存在着相关关系,比如,人的身高和体重之间存在着关系,一般来说,人高一些,体重要重一些,身高和体重之间存在的是不确定性的相关关系。回归分析是研究相关关系的一种数学工具,它能帮助我们从一个变...
    99+
    2022-10-18
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作