Python实战实现爬取天气数据并完成可视化分析详解

2024-04-02 19:04:59 759人浏览安东尼

Python 官方文档：入门教程 => 点击学习

摘要

目录实现需求：爬虫代码:实现需求：从网上(随便一个网址，我爬的网址会在评论区告诉大家，DDDd）获取某一年的历史天气信息，包括每天最高气温、最低气温、天气状况、风向等，完成以下功能

实现需求：

从网上(随便一个网址，我爬的网址会在评论区告诉大家，DDDd）获取某一年的历史天气信息，包括每天最高气温、最低气温、天气状况、风向等，完成以下功能：

（1）将获取的数据信息存储到csv格式的文件中，文件命名为”城市名称.csv”,其中每行数据格式为“日期，最高温，最低温，天气，风向”；

（2）在数据中增加“平均温度”一列，其中：平均温度=（最高温+最低温）/2，在同一张图中绘制两个城市一年平均气温走势折线图；

（3）统计两个城市各类天气的天数，并绘制条形图进行对比，假设适合旅游的城市指数由多云天气占比0.3，晴天占比0.4，阴天数占比0.3，试比较两个城市中哪个城市更适合旅游；

（4）统计这两个城市每个月的平均气温，绘制折线图，并通过折线图分析该城市的哪个月最适合旅游；

（5）统计出这两个城市一年中，平均气温在18~25度，风力小于5级的天数，并假设该类天气数越多，城市就越适宜居住，判断哪个城市更适合居住；

爬虫代码:

import random
import time
from spider.data_storage import DataStorage
from spider.html_downloader import HtmlDownloader
from spider.html_parser import HtmlParser
class SpiderMain:
    def __init__(self):
        self.html_downloader=HtmlDownloader()
        self.html_parser=HtmlParser()
        self.data_storage=DataStorage()
    def start(self):
        """
        爬虫启动方法
        将获取的url使用下载器进行下载
        将html进行解析
        数据存取
        :return:
        """
        for i in range(1,13):  # 采用循环的方式进行依次爬取
            time.sleep(random.randint(0, 10))  # 随机睡眠0到40s防止ip被封
            url="XXXX"
            if i<10:
               url =url+"20210"+str(i)+".html"  # 拼接url
            else:
                url=url+"2021"+str(i)+".html"
            html=self.html_downloader.download(url)
            resultWeather=self.html_parser.parser(html)
            if i==1:
             t = ["日期", "最高气温", "最低气温", "天气", "风向"]
             resultWeather.insert(0,t)
            self.data_storage.storage(resultWeather)
if __name__=="__main__":
    main=SpiderMain()
    main.start()

import requests as requests
class HtmlDownloader:
    def download(self,url):
        """
        根据给定的url下载网页
        :param url:
        :return: 下载好的文本
        """
        headers = {"User-Agent":
                       "Mozilla/5.0 (windows NT 10.0; Win64; x64; rv:101.0) Gecko/20100101 Firefox/101.0"}
        result = requests.get(url,headers=headers)
        return result.content.decode('utf-8')

此处大家需要注意，将User-Agent换成自己浏览器访问该网址的，具体如何查看呢，其实很简单，只需大家进入网站后，右键网页，然后点击检查将出现这样的界面：

然后只需再点击网络，再随便点击一个请求，如下图：

就可以进入如下图，然后再复制，图中User-Agent的内容就好了！

继续：

from bs4 import BeautifulSoup
class HtmlParser:
    def parser(self,html):
        """
        解析给定的html
        :param html:
        :return: area set
        """
        weather = []
        bs = BeautifulSoup(html, "html.parser")
        body = bs.body  # 获取html中的body部分
        div = body.find('div', {'class:', 'tian_three'})  # 获取class为tian_three的<div></div>
        ul = div.find('ul')  # 获取div中的<ul></ul>
        li = ul.find_all('li')  # 获取ul中的所有<li></li>
        for l in li:
            tempWeather = []
            div1 = l.find_all("div")  # 获取当前li中的所有div
            for i in div1:
                tempStr = i.string.replace("℃", "")  # 将℃进行替换
                tempStr = tempStr.replace(" ", "")  # 替换空格
                tempWeather.append(tempStr)
            weather.append(tempWeather)
        return weather

import pandas as pd
class DataStorage:
    def storage(self,weather):
        """
        数据存储
        :param weather list
        :return:
        """
        data = pd.DataFrame(columns=weather[0], data=weather[1:])  # 格式化数据
        data.to_csv("C:\\Users\\86183\\Desktop\\成都.csv", index=False, sep=",",mode="a")  # 保存到csv文件当中

注意，文件保存路径该成你们自己的哦！

ok,爬取代码就到这，接下来是图形化效果大致如下：

代码如下：

import pandas as pd
import matplotlib as mpl
import numpy as np
import matplotlib.pyplot as plt
plt.rcParams["font.sans-serif"] = ["SimHei"]  # 设置字体
plt.rcParams["axes.unicode_minus"] = False  # 该语句解决图像中的“-”负号的乱码问题
def broken_line_chart(x, y1, y2):  # 折线图绘制函数
    plt.figure(dpi=500, figsize=(10, 5))
    plt.title("泸州-成都每日平均气温折线图")
    plt.plot(x, y1, color='cyan', label='泸州')
    plt.plot(x, y2, color='yellow', label='成都')
    # 获取图的坐标信息
    coordinates = plt.GCa()
    # 设置x轴每个刻度的间隔天数
    xLocator = mpl.ticker.MultipleLocator(30)
    coordinates.xaxis.set_major_locator(xLocator)
    # 将日期旋转30°
    plt.xticks(rotation=30)
    plt.xticks(fontsize=8)
    plt.ylabel("温度(℃)")
    plt.xlabel("日期")
    plt.legend()
    plt.savefig("平均气温走势折线图.png")  # 平均气温折线图
    plt.show()
    plt.close()
data_luZhou = pd.read_csv('C:\\Users\\86183\\Desktop\\泸州.csv')
data_chengdu = pd.read_csv('C:\\Users\\86183\\Desktop\\成都.csv')
# 将列的名称转为列表类型方便添加
columS = data_luZhou.columns.tolist()
columY = data_chengdu.columns.tolist()
# 将数据转换为列表
data_luZhou=np.array(data_luZhou).tolist()
data_chengdu=np.array(data_chengdu).tolist()
# 在最开始的位置上添加列的名字
data_luZhou.insert(0, columS)
data_chengdu.insert(0, columY)
# 添加平均气温列
data_luZhou[0].append("平均气温")
data_chengdu[0].append("平均气温")
weather_dict_luZhou = {}
weather_dict_chengdu = {}
for i in range(1, len(data_luZhou)):
    # 去除日期中的星期
    data_luZhou[i][0] = data_luZhou[i][0][0:10]
    data_chengdu[i][0] = data_chengdu[i][0][0:10]
    # 获取平均气温
    average_luZhou = int((int(data_luZhou[i][1]) + int(data_luZhou[i][2])) / 2)
    average_chengdu = int((int(data_chengdu[i][1]) + int(data_chengdu[i][2])) / 2)
    # 将平均气温添加进入列表中
    data_luZhou[i].append(average_luZhou)
    data_chengdu[i].append(average_chengdu)
# 将新的数据存入新的csv中
new_data_luZhou = pd.DataFrame(columns=data_luZhou[0], data=data_luZhou[1:])
new_data_chengdu = pd.DataFrame(columns=data_chengdu[0], data=data_chengdu[1:])
new_data_luZhou.to_csv("D:/pythonProject/spider/泸州.csv", index=False, sep=",")
new_data_chengdu.to_csv("D:/PythonProject/spider/成都.csv", index=False, sep=",")
# 折线图的绘制
y1 = np.array(new_data_luZhou.get("平均气温")).tolist()
y2 = np.array(new_data_chengdu.get("平均气温")).tolist()
x = np.array(new_data_luZhou.get("日期")).tolist()
broken_line_chart(x, y1, y2)
# 进行每个月的平均气温求解
new_data_luZhou["日期"] = pd.to_datetime(new_data_luZhou["日期"])
new_data_chengdu["日期"] = pd.to_datetime(new_data_chengdu["日期"])
new_data_luZhou.set_index("日期", inplace=True)
new_data_chengdu.set_index("日期", inplace=True)
# 按月进行平均气温的求取
month_l = new_data_luZhou.resample('m').mean()
month_l = np.array(month_l).tolist()
month_c = new_data_chengdu.resample('m').mean()
month_c = np.array(month_c).tolist()
length = len(month_c)
month_average_l = []
month_average_c = []
for i in range(length):
    month_average_l.append(month_l[i][2])
    month_average_c.append(month_c[i][2])
month_list = [str(i) + "月" for i in range(1, 13)]
plt.figure(dpi=500, figsize=(10, 5))
plt.title("泸州-成都每月平均折线气温图")
plt.plot(month_list, month_average_l, color="cyan",label="泸州", marker='o')
plt.plot(month_list, month_average_c, color="blue",label='成都', marker='v')
for a, b in zip(month_list, month_average_l):
    plt.text(a, b + 0.5, '%.2f' % b, horizontalalignment='center', verticalalignment='bottom', fontsize=6)
for a, b in zip(month_list, month_average_c):
    plt.text(a, b - 0.5, '%.2f' % b, horizontalalignment='center', verticalalignment='bottom', fontsize=6)
plt.legend()
plt.xlabel("月份")
plt.ylabel("温度（℃）")
plt.savefig("月平均气温折线图.png")  # 月平均气温折线图
plt.show()
#
# 只获取两列的数据
data_l = pd.read_csv("泸州.csv", usecols=['风向', '平均气温'])
data_c = pd.read_csv("成都.csv", usecols=['风向', '平均气温'])
data_l = np.array(data_l).tolist()
data_c = np.array(data_c).tolist()
day_c = 0
day_l = 0
for i in range(len(data_l)):
    if len(data_l[i][0]) == 5:
        if int(data_l[i][0][3]) < 5 and 18 <= int(data_l[i][1]) <= 25:
            day_l += 1
    else:
        if int(data_l[i][0][2]) < 5 and 18 <= int(data_l[i][1]) <= 25:
            day_l += 1
    if len(data_c[i][0]) == 5:
        if int(data_c[i][0][3]) < 5 and 10 <= int(data_c[i][1]) <= 25:
            day_c += 1
    else:
        if int(data_c[i][0][2]) < 5 and 18 <= int(data_c[i][1]) <= 25:
            day_c += 1
plt.figure(dpi=500, figsize=(8, 4))
plt.title("泸州-成都平均气温在18-25且风力＜5级的天数")
list_name = ['泸州', '成都']
list_days = [day_l, day_c]
plt.bar(list_name, list_days, width=0.5)
plt.text(0, day_l, '%.0f' % day_l, horizontalalignment='center', verticalalignment='bottom', fontsize=7)
plt.text(1, day_c, '%.0f' % day_c, horizontalalignment='center', verticalalignment='bottom', fontsize=7)
plt.xlabel("城市")
plt.ylabel("天数(d)")
plt.savefig("适宜居住柱形图.png")
plt.show()
data_l=pd.read_csv("泸州.csv")
data_c=pd.read_csv("成都.csv")
# 将数据转换为列表
data_l=np.array(data_l).tolist()
data_c=np.array(data_c).tolist()
# 获取每种天气的天数，采用字典类型进行存储
for i in range(1,365):
    weather_l = data_l[i][3]
    weather_c = data_c[i][3]
    if weather_l in weather_dict_luZhou:
       weather_dict_luZhou[weather_l] = weather_dict_luZhou.get(weather_l) + 1
    else:
       weather_dict_luZhou[weather_l]=1
    if weather_c in weather_dict_chengdu:
        weather_dict_chengdu[weather_c]=weather_dict_chengdu.get(weather_c)+1
    else:
       weather_dict_chengdu[weather_c]=1
weather_list_luZhou = list(weather_dict_luZhou)
weather_list_chengdu = list(weather_dict_chengdu)
value_l = []
value_c = []
# 获取所有的天气种类
weather_list = sorted(set(weather_list_luZhou + weather_list_chengdu))
# 获取每种天气的天数，并将其对应的放入列表中，没有的则用0进行替代，方便条形图的绘制。
for i in weather_list:
    if i in weather_dict_luZhou:
        value_l.append(weather_dict_luZhou[i])
    else:
        value_l.append(0)
    if i in weather_dict_chengdu:
        value_c.append(weather_dict_chengdu[i])
    else:
        value_c.append(0)
# 绘制条形图进行对比
plt.figure(dpi=500, figsize=(10, 5))
plt.title("泸州-成都各种天气情况对比")
x1 = list(range(len(weather_list)))
x = [i + 0.4 for i in x1]
plt.bar(x1, value_l, width=0.4, color='red', label='泸州')
plt.bar(x, value_c, width=0.4, color='orange', label='成都')
for a, b in zip(x1, value_l):
    plt.text(a, b + 0.4, '%.0f' % b, ha='center', va='bottom', fontsize=7)
for a, b in zip(x, value_c):
    plt.text(a, b + 0.4, '%.0f' % b, ha='center', va='bottom', fontsize=7)
plt.xticks(x1, weather_list)
plt.ylabel("天数")
plt.xlabel("天气")
plt.xticks(rotation=270)
plt.legend()
plt.savefig("泸州成都天气情况对比.png")
plt.show()
plt.close()

好的这次就到这儿吧，我们下次见哦！！！

到此这篇关于Python实战实现爬取天气数据并完成可视化分析详解的文章就介绍到这了,更多相关Python爬取天气数据内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python实战实现爬取天气数据并完成可视化分析详解

本文链接: https://www.lsjlt.com/news/118785.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Python实战实现爬取天气数据并完成可视化分析详解

目录实现需求：爬虫代码:实现需求：从网上(随便一个网址，我爬的网址会在评论区告诉大家，dddd）获取某一年的历史天气信息，包括每天最高气温、最低气温、天气状况、风向等，完成以下功能...

99+

2024-04-02
Python实现爬取天气数据并可视化分析

目录核心功能设计实现步骤爬取数据风向风级雷达图温湿度相关性分析24小时内每小时时段降水24小时累计降雨量今天我们分享一个小案例，获取天气数据，进行可视化分析，带你直观了解天气情况！ ...

99+

2024-04-02
Python怎么实现爬取天气数据并可视化分析

本篇内容主要讲解“Python怎么实现爬取天气数据并可视化分析”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“Python怎么实现爬取天气数据并可视化分析”吧!核心功能设计总体来说，我们需要先对中...

99+

2023-06-29
Python爬取天气数据及可视化分析

正文大家好，我是Python人工智能技术天气预报我们每天都会关注，我们可以根据未来的天气增减衣物、安排出行，每天的气温、风速风向、相对湿度、空气质量等成为关注的焦点。得到温湿度度变化曲线、空气质量图、风向雷达图等结果，为获得未来天气信息提...

99+

2023-05-14

Python 天气数据可视化分析
Python爬取天气数据及可视化分析的方法是什么

这篇文章主要讲解了“Python爬取天气数据及可视化分析的方法是什么”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“Python爬取天气数据及可视化分析的方法是什么”吧！1、数据获取请求网站链...

99+

2023-07-06
Python爬虫实战之爬取京东商品数据并实实现数据可视化

一、开发工具 Python版本：3.6.4 相关模块： DecryptLogin模块； argparse模块；以及一些python自带的模块。二、环境搭建安装Python并添加...

99+

2024-04-02
用Python爬取电影数据并可视化分析

🤵‍♂️ 个人主页：@艾派森的个人主页 ✍🏻作者简介：Python学习者 🐋 希望大家多多支持，我们一起进步！😄 如果文章对你有帮助的话，欢迎评论 💬...

99+

2023-08-31

python 信息可视化开发语言
Python爬虫之获取心知天气API实时天气数据并弹窗提醒

目录一、心知天气API密钥获取二、编写代码三、设置为自启动项目一、心知天气API密钥获取首先，访问https://www.seniverse.com，进行登录或者注册操作，然后在控...

99+

2024-04-02
Python中如何爬取京东商品数据并实现数据可视化

这篇文章将为大家详细讲解有关Python中如何爬取京东商品数据并实现数据可视化，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。一、开发工具Python版本：3.6.4相关模块：DecryptLogin模块；...

99+

2023-06-15
【数据分析与可视化】利用Python对学生成绩进行可视化分析实战（附源码）

需要源码和数据集请点赞关注收藏后评论区留言私信~~~ 下面对学生成句和表现等数据可视化分析导入模块 import pandas as pdimport numpy as npimport seaborn as snsimport m...

99+

2023-09-04

数据分析 python 信息可视化 matplotlib Seaborn
Python实现数据可视化案例分析

目录1. 问题描述2. 实验环境3. 实验步骤及结果1. 问题描述对右图进行修改：请更换图形的风格请将 x 轴的数据改为-10 到 10请自行构造一个 y 值的函数将直方图上的数...

99+

2024-04-02
Python echarts实现数据可视化实例详解

目录1.概述2.安装3.数据可视化代码3.1 柱状图3.2 折线图3.3 饼图总结1.概述 pyecharts 是百度开源的，适用于数据可视化的工具，配置灵活，展示图表相对美观，顺滑...

99+

2024-04-02
Python爬取雪中悍刀行弹幕分析并可视化详程

目录哔哔一下爬虫部分代码部分效果展示数据可视化代码展示效果展示福利环节哔哔一下雪中悍刀行兄弟们都看过了吗？感觉看了个寂寞，但又感觉还行，原谅我没看过原著小说~ 豆瓣评分5.8，说明...

99+

2024-04-02
python数据分析及可视化（十五）数据分析可视化实战篇（抖音用户数据分析、二手房数据分析）

python数据分析的实战篇，围绕实例的数据展开分析，通过数据操作案例来了解数据分析中的频繁用到的知识内容。抖音用户数据分析 1.理解数据数据字段含义了解数据内容，确保数据来源是正常的，安全合法...

99+

2023-09-02

python 数据分析开发语言
Python 实战之ChatGPT + Python 实现全自动数据处理/可视化详解

本文目录一、引言二、成果演示——口述式数据可视化三、远原理述四、实现过程（一）环境配置（二）申请OpenAI账号（一）调用ChatGPT API （二）设计AI身份，全自动处理数据 ...

99+

2023-09-07

python chatgpt 信息可视化
【数据分析与可视化】pyecharts可视化图表讲解及实战（超详细附源码）

需要源码请点赞关注收藏后评论区留言私信~~~ 一、pyecharts简介 pyecharts是基于Echart图表的一个类库，而Echart是百度开源的一个可视化JavaScript库 pyecharts主要基于web浏览器进行显示，...

99+

2023-10-26

数据分析信息可视化 python pyecharts matplotlib
python数据分析绘图可视化实例分析

本篇内容介绍了“python数据分析绘图可视化实例分析”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！前言：数据分析初始阶段，通常都要进行可视...

99+

2023-07-02
Python疫情数据可视化分析怎么实现

这篇文章主要讲解了“Python疫情数据可视化分析怎么实现”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“Python疫情数据可视化分析怎么实现”吧！前言本项目主要通过python的matpl...

99+

2023-07-02
Python自动化爬取天眼查数据的实现

首先要注册一个账号密码，通过账号密码登录，并且滑块验证，自动输入搜索关键词，进行跳转翻页爬取数据，并保存到Excel文件中。代码运行时，滑块验证经常不通过，被吃掉，但是发现打包成e...

99+

2024-04-02
Python pyecharts数据可视化实例详解

目录一、数据可视化1.pyecharts介绍2.初入了解(1).快速上手(2).简单的配置项介绍3.案例实战(1).柱状图Bar(2).地图Map(3).饼图Pie(4).折线图Li...

99+

2024-04-02