iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python数据处理及可视化的示例分析
  • 337
分享到

Python数据处理及可视化的示例分析

2023-06-29 14:06:46 337人浏览 薄情痞子

Python 官方文档:入门教程 => 点击学习

摘要

这篇文章主要介绍python数据处理及可视化的示例分析,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!一、NumPy的初步使用表格是数据的一般表示形式,但对于机器来说是不可理解的,也就是无法辨识的数据,所以我们需要对表

这篇文章主要介绍python数据处理及可视化的示例分析,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!

一、NumPy的初步使用

表格是数据的一般表示形式,但对于机器来说是不可理解的,也就是无法辨识的数据,所以我们需要对表格的形式进行调整。
常用的机器学习表示形式为数据矩阵。
Python数据处理及可视化的示例分析
我们观察这个表格,发现,矩阵中的属性有两种,一种是数值型,一种是布尔型。那么我们现在就建立模型描述这个表格:

#  数据的矩阵化import numpy as npdata = np.mat([[1,200,105,3,False],[2,165,80,2,False],[3,184.5,120,2,False],              [4,116,70.8,1,False],[5,270,150,4,True]])row = 0for line in data:    row += 1print( row )print(data.size)print(data)

这里第一行代码的意思就是引入NumPy将其重命名为np。第二行我们使用NumPy中的mat()方法建立一个数据矩阵,row是引入的计算行数的变量。
这里的size意思就是5*5的一个表格,直接打印data就可以看到数据了:
Python数据处理及可视化的示例分析

二、Matplotlib包的使用–图形化数据处理

我们还是看最上面的表格,第二列是房价的差异,我们想直观的看出差别是不容易的(因为只有数字),所以我们希望能够把它画出来(研究数值差异和异常的方法就是绘制数据的分布程度):

import numpy as npimport scipy.stats as statsimport pylabdata =  np.mat([[1,200,105,3,False],[2,165,80,2,False],[3,184.5,120,2,False],              [4,116,70.8,1,False],[5,270,150,4,True]])coll = []for row in data:    coll.append(row[0,1])stats.probplot(coll,plot=pylab)pylab.show()

这个代码的结果就是生成一个图:
Python数据处理及可视化的示例分析
这样我们就能清晰的看出来差异了。

一个坐标图的要求,就是通过不同的行和列表现出数据的具体值。
当然,坐标图我们一样可以展示:
Python数据处理及可视化的示例分析Python数据处理及可视化的示例分析

三、深度学习理论方法–相似度计算(可以跳过)

相似度的计算方法有很多,我们选用最常用的两种,即欧几里得相似度和余弦相似度计算。

1、基于欧几里得距离的相似度计算

欧几里得距离,用来表示三维空间中两个点的真实距离。公式我们其实都知道,只是名字听的少:
Python数据处理及可视化的示例分析
那么我们来看一看它的实际应用:
这个表格是3个用户对物品的打分:
Python数据处理及可视化的示例分析
d12表示用户1和用户2的相似度,那么就有:
Python数据处理及可视化的示例分析
同理,d13:
Python数据处理及可视化的示例分析
可见,用户2更加相似于用户1(距离越小,相似度越大)。

2、基于余弦角度的相似度计算

余弦角度的计算出发点是夹角的不同。
Python数据处理及可视化的示例分析
Python数据处理及可视化的示例分析
可见相对于用户3,用户2与用户1更为相似(两个目标越相似,其线段形成的夹角越小)

四、数据统计的可视化展示(以我们亳州市降水为例)

数据的四分位

四分位数,是统计学中分位数的一种,也就是把数据由小到大排列,之后分成四等份,处于三个分割点位置的数据,就是四分位数。
第一四分位数(Q1),也称下四分位数
第二四分位数(Q1),也称中位数
第三四分位数(Q1),也称下四分位数

第三四分位数与第一四分位数的差距又称为四分差距(IQR)。

若n为项数,则:
Q1的位置 = (n+1)*0.25
Q2的位置 = (n+1)*0.50
Q3的位置 = (n+1)*0.75

四分位示例:
关于这个rain.csv,有需要的可以私我要文件,我使用的是亳州市2010-2019年的月份降水情况。

from pylab import *import pandas as pdimport matplotlib.pyplot as plotfilepath = ("C:\\Users\\AWaiTXM\\Desktop\\rain.csv")# "C:\Users\AWAITXM\Desktop\rain.csv"dataFile = pd.read_csv(filepath)summary = dataFile.describe()print(summary)array = dataFile.iloc[:,:].valuesboxplot(array)plot.xlabel("year")plot.ylabel("rain")show()

以下是plot运行结果:
Python数据处理及可视化的示例分析
这个是pandas的运行
Python数据处理及可视化的示例分析
这里就可以很清晰的看出来数据的波动范围。
可以看出,不同月份的降水量有很大差距,8月最多,1-4月和10-12月最少。

那么每月的降水增减程度如何比较?

from pylab import *import pandas as pdimport matplotlib.pyplot as plotfilepath = ("C:\\Users\\AWAITXM\\Desktop\\rain.csv")# "C:\Users\AWAITXM\Desktop\rain.csv"dataFile = pd.read_csv(filepath)summary = dataFile.describe()minRings = -1maxRings = 99nrows = 11for i in range(nrows):    dataRow = dataFile.iloc[i,1:13]    labelColor = ( (dataFile.iloc[i,12] - minRings ) / (maxRings - minRings) )    dataRow.plot(color = plot.cm.RdYlBu(labelColor),alpha = 0.5)plot.xlabel("Attribute")plot.ylabel(("Score"))show()

结果如图:
Python数据处理及可视化的示例分析
可以看出来降水月份并不规律的上涨或下跌。

那么每月降水是否相关?

from pylab import *import pandas as pdimport matplotlib.pyplot as plotfilepath = ("C:\\Users\\AWAITXM\\Desktop\\rain.csv")# "C:\Users\AWAITXM\Desktop\rain.csv"dataFile = pd.read_csv(filepath)summary = dataFile.describe()cORMat = pd.DataFrame(dataFile.iloc[1:20,1:20].corr())plot.pcolor(corMat)plot.show()

结果如图:
Python数据处理及可视化的示例分析
可以看出,颜色分布十分均匀,表示没有多大的相关性,因此可以认为每月的降水是独立行为。

以上是“Python数据处理及可视化的示例分析”这篇文章的所有内容,感谢各位的阅读!希望分享的内容对大家有帮助,更多相关知识,欢迎关注编程网Python频道!

--结束END--

本文标题: Python数据处理及可视化的示例分析

本文链接: https://www.lsjlt.com/news/325359.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作