首页 > 资讯 > 后端开发 > Python >Python数据分析案例03——天气K均值聚类分析

881

分享到

Python数据分析案例03——天气K均值聚类分析

python 数据分析数据挖掘 pandas numpy 2023-09-15 19:09:36 881人浏览薄情痞子

Python 官方文档：入门教程 => 点击学习

摘要

聚类常用的算法肯定是K均值聚类了，本次案例采用陕西的十个地区的天气数据，构建特征，进行聚类分析。首先数据都装在‘天气数据’这个文件夹里面，如图：打开其中一个excel，长这个样子下面开始数据处理数据预处理导入包 imp

聚类常用的算法肯定是K均值聚类了，本次案例采用陕西的十个地区的天气数据，构建特征，进行聚类分析。

首先数据都装在‘天气数据’这个文件夹里面，如图：

打开其中一个excel，长这个样子

下面开始数据处理

数据预处理

导入包

import osimport matplotlib.pyplot as pltimport seaborn as snsimport numpy as npimport pandas as pdimport datetime as dtimport re#from sklearn.preprocessing import MinMaxScaler%matplotlib inlinepd.options.display.float_fORMat = '{:,.4f}'.formatnp.set_printoptions(precision=4)plt.rcParams ['font.sans-serif'] ='SimHei'               #显示中文plt.rcParams ['axes.unicode_minus']=False               #显示负号

获取文件和地区名称

file_name=os.listdir(f'./天气数据')print(file_name)region_name=[i[:2] for i in file_name]region_name

定义一些函数，用来处理数据

def date_transform(x) :    a= x.split(' ')[0]    a = pd.to_datetime(a, format='%Y-%m-%d')    return adef C_check(C):    a=C.split('℃')    return int(a[0])def tianqi_check1(txt):    if '转' in txt:        a=re.findall('\w{1,5}转',txt)        a=a[0].split('转')        a=a[0]    elif '~' in txt:        a=re.findall('\w{1,5}~',txt)        a=a[0].split('~')        a=a[0]    else:        a=txt    return adef tianqi_check2(txt):    if '到' in txt:        a=re.findall('到\w{1,5}',txt)        a=a[0].split('到')        a=a[1]    else:        a=txt    return adf_最高气温=pd.DataFrame()df_最低气温=pd.DataFrame()df_天气=pd.DataFrame()dic_天气={'晴':0,'晴到多云':0.5,'晴间多云':0.5,'局部多云':0.5,'多云':1,'少云':1.5,'阴':2,'阴天':2,'雾':2.5,'霾':2.5,'小雨':3,'雨':3,'阴到小雨':2.5,            '小到中雨':3.5,'小雨到中雨':3.5,'阵雨':3.5,'中雨':4,'小雨到大雨':4,'雷阵雨':4,'雷雨':4,'中到大雨':4.5,'大雨':5,'大到暴雨':5.5,            '暴雨':6,'暴风雨':6.5,'小雪':7,'雨夹雪 ':7,'雪':7,'中雪':8,'大雪':9,'浮尘':2.5,'扬沙':2.5,'风':2.5}

开始读取和处理

for i,f in enumerate(file_name):    #print(i)    file_path = f'./天气数据/{f}'    data=pd.read_excel(file_path,usecols=['日期','最高气温','最低气温','天气'])    data['日期']=data['日期'].apply(date_transform)    data['最高气温']=data['最高气温'].apply(C_check)    data['最低气温']=data['最低气温'].apply(C_check)    data['天气']=data['天气'].astype(str).apply(tianqi_check1)    data['天气']=data['天气'].astype(str).apply(tianqi_check2)    data.loc[:,'天气']=data['天气'].map(dic_天气)    data['天气'].fillna(data['天气'].mean)    data=data.set_index('日期').resample('M').mean()    #print(len(data))    df_最高气温[region_name[i]]=data['最高气温']    df_最低气温[region_name[i]]=data['最低气温']    df_天气[region_name[i]]=data['天气']

最后是形成了三个数据框，最高温和最低温，还有天气情况（比如下雨还是晴天等等），天气情况我用map进行了映射，都变成了数值型变量。

描述性统计

df_最高气温.plot(title='各地区每月最高温变化图',figsize=(14,5),xlabel='日期',ylabel='最高温')

df_最低气温.plot(title='各地区每月最低温变化图',figsize=(14,5),xlabel='日期',ylabel='最低温')

df_天气.plot(title='各地区每月天气变化图',figsize=(14,5),xlabel='日期',ylabel='天气')

都具有很明显的周期性，天气因为是自己映射的数值型数据，所以有点杂乱。

然后画出最高温的箱线图：

column = df_最高气温.columns.tolist() # 列表头fig = plt.figure(figsize=(20, 8), dpi=128)  # 指定绘图对象宽度和高度for i in range(len(column)):    plt.subplot(2,5, i + 1)  # 2行5列子图    sns.boxplot(data=df_最高气温[column[i]], orient="v",width=0.5)  # 箱式图    plt.ylabel(column[i], fontsize=16)    plt.title(f'{region_name[i]}每月最高温箱线图',fontsize=16)plt.tight_layout()plt.show()

最低温和天气也是一样画，数据框名称改一下就行。

下面画出最低温的核密度图（同理最高温和天气也是一样的）

fig = plt.figure(figsize=(20, 8), dpi=128)  # 指定绘图对象宽度和高度for i in range(len(column)):    plt.subplot(2,5, i + 1)  # 2行5列子图    ax = sns.kdeplot(data=df_最低气温[column[i]],color='blue',shade= True)    plt.ylabel(column[i], fontsize=16)    plt.title(f'{region_name[i]}每月最低温核密度图',fontsize=16)plt.tight_layout()plt.show()

画出天气的相关性热力图

fig = plt.figure(figsize=(8, 8), dpi=128) corr= sns.heatmap(df_天气[column].corr(),annot=True,square=True)

最高温和最低温也是一样，改一下数据框名称就行。可以看到哪些地区的天气相关性高

K均值聚类

因为本次构建了三个特征，可以进行三次K均值聚类，我们可以比较一下聚类的结果，首先使用最高温进行聚类：

最高温的聚类

from sklearn.cluster import KMeans kmeans_model = KMeans(n_clusters=3, random_state=123, n_init=20)kmeans_model.fit(df_最高气温.T)kmeans_model.inertia_   #组内平方和# kmeans_cc=kmeans_model.cluster_centers_   # 聚类中心# kmeans_cckmeans_labels = kmeans_model.labels_   # 样本的类别标签kmeans_labels pd.Series(kmeans_labels).value_counts()   # 统计不同类别样本的数目

映射一下类别的数值

dic_rusult={}for i in range(10):    dic_rusult[df_最高气温.T.index[i]]=kmeans_labels[i]dic_rusult

统计一下，打印结果

第一类地区=[]第二类地区=[]第三类地区=[]for k,v in dic_rusult.items():    if v==0:        第一类地区.append(k)    elif v==1:        第二类地区.append(k)    elif v==2:        第三类地区.append(k)print(f'从最高气温来看的聚类的结果，将地区分为三个地区,\n第一个地区为：{第一类地区}，\n第二个地区为：{第二类地区}，\n第三个地区为：{第三类地区}')

可以去地图上看看，聚类的结果还是很有道理的，聚类出来的地区都是挨得很近的地方。

最低温度K均值聚类

kmeans_model = KMeans(n_clusters=3, random_state=123, n_init=20)kmeans_model.fit(df_最低气温.T)kmeans_labels = kmeans_model.labels_   # 样本的类别标签kmeans_labels pd.Series(kmeans_labels).value_counts()   # 统计不同类别样本的数目dic_rusult2={}for i in range(10):    dic_rusult2[df_最低气温.T.index[i]]=kmeans_labels[i]dic_rusult2第一类地区=[]第二类地区=[]第三类地区=[]for k,v in dic_rusult2.items():    if v==2:        第一类地区.append(k)    elif v==1:        第二类地区.append(k)    elif v==0:        第三类地区.append(k)print(f'从最低气温来看的聚类的结果，将地区分为三个地区,\n第一个地区为：{第一类地区}，\n第二个地区为：{第二类地区}，\n第三个地区为：{第三类地区}')

和最高温的聚类结果差不多

第一个地区对应的关中

第二个地区对应的陕北

第三个地区对应的陕南

天气K均值聚类

kmeans_model = KMeans(n_clusters=3, random_state=123, n_init=20)kmeans_model.fit(df_天气.T)kmeans_labels = kmeans_model.labels_   # 样本的类别标签pd.Series(kmeans_labels).value_counts()   # 统计不同类别样本的数目 dic_rusult3={}for i in range(10):    dic_rusult3[df_天气.T.index[i]]=kmeans_labels[i]dic_rusult3第一类地区=[]第二类地区=[]第三类地区=[]for k,v in dic_rusult3.items():    if v==1:        第一类地区.append(k)    elif v==2:        第二类地区.append(k)    elif v==0:        第三类地区.append(k)print(f'从天气来看的聚类的结果，将地区分为三个地区,\n第一个地区为：{第一类地区}，\n第二个地区为：{第二类地区}，\n第三个地区为：{第三类地区}')

天气的效果和气温差不多。

第一个地区对应的关中

第二个地区对应的陕北

第三个地区对应的陕南

说明地理位置近的地区的天气更加相似(算法说的)

来源地址：https://blog.csdn.net/weixin_46277779/article/details/126401866

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python数据分析案例03——天气K均值聚类分析

本文链接: https://www.lsjlt.com/news/408961.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Python数据分析案例03——天气K均值聚类分析

聚类常用的算法肯定是K均值聚类了，本次案例采用陕西的十个地区的天气数据，构建特征，进行聚类分析。首先数据都装在‘天气数据’这个文件夹里面，如图：打开其中一个excel，长这个样子下面开始数据处理数据预处理导入包 imp...

99+

2023-09-15

python 数据分析数据挖掘 pandas numpy
python数据分析之聚类分析(cluster analysis)

何为聚类分析聚类分析或聚类是对一组对象进行分组的任务，使得同一组（称为聚类）中的对象（在某种意义上）与其他组（聚类）中的对象更相似（在某种意义上）。它是探索性数据挖掘的主要任务，也...

99+

2024-04-02
Python中基于天气数据集XGBoost的示例分析

这篇文章将为大家详细讲解有关Python中基于天气数据集XGBoost的示例分析，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。一、XGBoostXGBoost并不是一种模型，而是一个可供用户轻松解决分类、...

99+

2023-06-26
100天精通Python（数据分析篇）——第65天：Pandas聚合操作与案例

文章目录一、聚合 (aggregation) 1. 内置的聚合函数 2. 可自定义函数，传入agg方法中 3. 应用多个聚合函数 4. 对不同的列分别...

99+

2023-09-11

python pandas 数据分析
Python爬虫语音播报天气预报案例分析

这篇文章主要讲解了“Python爬虫语音播报天气预报案例分析”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“Python爬虫语音播报天气预报案例分析”吧！一、前期准备此案例中要用到的库有：re...

99+

2023-06-27
Python爬取天气数据及可视化分析

正文大家好，我是Python人工智能技术天气预报我们每天都会关注，我们可以根据未来的天气增减衣物、安排出行，每天的气温、风速风向、相对湿度、空气质量等成为关注的焦点。得到温湿度度变化曲线、空气质量图、风向雷达图等结果，为获得未来天气信息提...

99+

2023-05-14

Python 天气数据可视化分析
Python的xpath数据解析案例分析

这篇“Python的xpath数据解析案例分析”文章的知识点大部分人都不太理解，所以小编给大家总结了以下内容，内容详细，步骤清晰，具有一定的借鉴价值，希望大家阅读完这篇文章能有所收获，下面我们一起来看看这篇“Python的xpath数据解析...

99+

2023-06-29
利用Python实现K-Means聚类的方法实例(案例:用户分类)

目录K-Means聚类算法介绍K-Means聚类算法基础原理K-Means聚类算法实现流程开始做一个简单的聚类数据导入数据探索开始聚类查看输出结果聚类质心K-Means聚...

99+

2024-04-02
100天精通Python（数据分析篇）——第64天：Pandas分组groupby函数案例

文章目录一、分组 (groupby) 1. GroupBy对象：DataFrameGroupBy，SeriesGroupBy 1）分组操作 ...

99+

2023-09-05

pandas python 数据分析
Python数据分析案例合集

案例一、利用税务数据分析美国人群收入情况 ...

99+

2023-01-31

合集案例数据
Python实现爬取天气数据并可视化分析

目录核心功能设计实现步骤爬取数据风向风级雷达图温湿度相关性分析24小时内每小时时段降水24小时累计降雨量今天我们分享一个小案例，获取天气数据，进行可视化分析，带你直观了解天气情况！ ...

99+

2024-04-02
分析总结Python数据化运营KMeans聚类

内容介绍以 Python 使用 Keans 进行聚类分析的简单举例应用介绍聚类分析。聚类分析或聚类是对一组对象进行分组的任务，使得同一组（称为聚类）中的对象（在某种意义上）...

99+

2024-04-02
Python数据类型实例分析

本篇内容主要讲解“Python数据类型实例分析”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“Python数据类型实例分析”吧!一、内容概要字符串(str)列表(list)元组(tup)字典(di...

99+

2023-06-02
python天气数据爬取与分析的方法是什么

Python天气数据爬取与分析的方法主要包括以下几个步骤：1. 确定数据来源：选择一个合适的天气数据源，可以通过网站API获取天气数...

99+

2023-10-12

python
Python 数据化运营之KMeans聚类分析总结

目录Python 数据化运营1、内容介绍2、一般应用场景3、聚类的常见方法4、Keans聚类实现 5、聚类的评估指标6、聚类效果可视化7、数据预测Python 数据化运营 1、内容介...

99+

2024-04-02
数据分析案例-电影数据可视化分析

数据介绍数据为2011-2021电影数据可视化分析首先导入本次项目需要的包和数据 import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport ...

99+

2023-10-03

python 数据分析
python数据类别的示例分析

这篇文章给大家分享的是有关python数据类别的示例分析的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。数据类别自3.7版之后，Python开始能提供数据类别。比起常规类或其他替代方法(如返回多个值或字典)，它有着...

99+

2023-06-27
利用python实现聚类分析K-means算法的详细过程

K-means算法介绍 K-means算法是很典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近...

99+

2024-04-02
Python怎么实现爬取天气数据并可视化分析

本篇内容主要讲解“Python怎么实现爬取天气数据并可视化分析”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“Python怎么实现爬取天气数据并可视化分析”吧!核心功能设计总体来说，我们需要先对中...

99+

2023-06-29
Python函数参数案例分析

本篇内容主要讲解“Python函数参数案例分析”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“Python函数参数案例分析”吧!1. 参数分类函数，在定义的时候，可以有参数的，也可以没有参数。从函...

99+

2023-07-05