用Python实现网易云音乐的数据进行数据清洗和可视化分析

Python 数据清洗数据可视化分析 2022-06-02 22:06:35 851人浏览独家记忆

Python 官方文档：入门教程 => 点击学习

摘要

目录python实现对网易云音乐的数据进行一个数据清洗和可视化分析对音乐数据进行数据清洗与可视化分析对音乐数据进行数据清洗与可视化分析歌词文本分析总结Python实现对网易云音乐的数据进行一个数据清洗和可视化分析对

Python实现对网易云音乐的数据进行一个数据清洗和可视化分析

对音乐数据进行数据清洗与可视化分析

关于数据的清洗，实际上在上一一篇文章关于抓取数据的过程中已经做了一部分，后面我又做了一下用户数据的抓取

歌曲评论：

包括后台返回的空用户信息、重复数据的去重等。除此之外，还要进行一些清洗：用户年龄错误、用户城市编码转换等。

关于数据的去重，评论部分可以以sommentId为数据库索引，利用数据库来自动去重；用户信息部分以用户ID为数据库索引实现自动去重。

api返回的用户年龄一般是时间戳的形式(以毫秒计)、有时候也会返回一个负值或者一个大于当前时间的值，暂时没有找到这两种值代表的含义，故而一律按0来处理。

API返回的用户信息中，城市分为province和city两个字段，本此分析中只保存了city字段。实际上字段值是一个城市code码，具体对照在这里下载。
利用Python的数据处理库pandas进行数据处理，利用可视化库pyecharts进行数据可视化。

分别查看下面分析结果。

评论用户年龄分布
评论关键词分布
评论时间数量分布（年-月）
评论时间数量分布（年-月-日）

对音乐数据进行数据清洗与可视化分析


import pandas as pd
import pyMysql
from pyecharts import Bar,Pie,Line,Scatter,Map
TABLE_COMMENTS = '****'
TABLE_USERS = '****'
DATABASE = '****'
conn = pymysql.connect(host='localhost', user='****', passwd='****', db=DATABASE, charset='utf8mb4')
sql_users = 'SELECT id,gender,age,city FROM '+TABLE_USERS
sql_comments = 'SELECT id,time FROM '+TABLE_COMMENTS
comments = pd.read_sql(sql_comments, con=conn)
users = pd.read_sql(sql_users, con=conn)
# 评论时间(按天)分布分析
comments_day = comments['time'].dt.date
data = comments_day.id.groupby(comments_day['time']).count()
line = Line('评论时间(按天)分布')
line.use_theme('dark')
line.add(
	'',
	data.index.values,
	data.values,
	is_fill=True,
)
line.render(r'./评论时间(按天)分布.html')
# 评论时间(按小时)分布分析
comments_hour = comments['time'].dt.hour
data = comments_hour.id.groupby(comments_hour['time']).count()
line = Line('评论时间(按小时)分布')
line.use_theme('dark')
line.add(
	'',
	data.index.values,
	data.values,
	is_fill=True,
)
line.render(r'./评论时间(按小时)分布.html')
# 评论时间(按周)分布分析
comments_week = comments['time'].dt.dayofweek
data = comments_week.id.groupby(comments_week['time']).count()
line = Line('评论时间(按周)分布')
line.use_theme('dark')
line.add(
	'',
	data.index.values,
	data.values,
	is_fill=True,
)
line.render(r'./评论时间(按周)分布.html')
# 用户年龄分布分析
age = users[users['age']>0]	# 清洗掉年龄小于1的数据
age = age.id.groupby(age['age']).count()	# 以年龄值对数据分组
Bar = Bar('用户年龄分布')
Bar.use_theme('dark')
Bar.add(
	'',
	age.index.values,
	age.values,
	is_fill=True,
)
Bar.render(r'./用户年龄分布图.html')	# 生成渲染的html文件
# 用户地区分布分析
# 城市code编码转换
def city_group(cityCode):
    city_map = {
        '11': '北京',
        '12': '天津',
        '31': '上海',
        '50': '重庆',
        '5e': '重庆',
        '81': '香港',
        '82': '澳门',
        '13': '河北',
        '14': '山西',
        '15': '内蒙古',
        '21': '辽宁',
        '22': '吉林',
        '23': '黑龙江',
        '32': '江苏',
        '33': '浙江',
        '34': '安徽',
        '35': '福建',
        '36': '江西',
        '37': '山东',
        '41': '河南',
        '42': '湖北',
        '43': '湖南',
        '44': '广东',
        '45': '广西',
        '46': '海南',
        '51': '四川',
        '52': '贵州',
        '53': '云南',
        '54': '西藏',
        '61': '陕西',
        '62': '甘肃',
        '63': '青海',
        '64': '宁夏',
        '65': '新疆',
        '71': '台湾',
        '10': '其他',
    }
    return city_map[cityCode[:2]]
city = users['city'].apply(city_group)
city = city.id.groupby(city['city']).count()
map_ = Map('用户地区分布图')
map_.add(
	'',
	city.index.values,
	city.values,
	maptype='china',
	is_visualmap=True,
	visual_text_color='#000',
	is_label_show=True,
)
map_.render(r'./用户地区分布图.html')

可视化结果

评论时间按周分布图可以看出，评论数在一周当中前面较少，后面逐渐增多，这可以解释为往后接近周末，大家有更多时间来听听歌、刷刷歌评，而一旦周末过完，评论量马上下降（周日到周一的下降过渡），大家又回归到工作当中。

评论时间按小时分布图可以看出，评论数在一天当中有两个小高峰：11点-13点和22点-0点。这可以解释为用户在中午午饭时间和晚上下班(课)在家时间有更多的时间来听歌刷评论，符合用户的日常。至于为什么早上没有出现一个小高峰，大概是早上大家都在抢时间上班(学)，没有多少时间去刷评论。

https://blog.csdn.net/u011371360

用户年龄分布图可以看出，用户大多集中在14-30岁之间，以20岁左右居多，除去虚假年龄之外，这个年龄分布也符合网易云用户的年龄段。图中可以看出28岁有个高峰，猜测可能是包含了一些异常数据，有兴趣的化可以做进一步分析。

用户地区分布图可以看出，用户涵盖了全国各大省份，因为中间数据(坑)的缺失，并没有展现出哪个省份特别突出的情况。对别的歌评(完全数据)的可视化分析，可以看出明显的地区分布差异。

此次分析只是对某一首歌曲评论时间、用户年龄/地区分布进行的，实际上抓取到的信息不仅仅在于此，可以做进一步分析（比如利用评论内容进行文本内容分析等），这部分，未来会进一步分析。当然也可以根据自己情况对不同歌曲进行分析。

歌词文本分析

情感分析采用Python的文本分析库snowNLP，代码如下：


import numpy as np
import pymysql
from snownlp import SnowNLP
from pyecharts import Bar
TABLE_COMMENTS = '****'
DATABASE = '****'
SONGNAME = '****'
def getText():
	conn = pymysql.connect(host='localhost', user='root', passwd='root', db=DATABASE, charset='utf8')
	sql = 'SELECT id,content FROM '+TABLE_COMMENTS
	text = pd.read_sql(sql%(SONGNAME), con=conn)
	return text
def getSemi(text):
	text['content'] = text['content'].apply(lambda x:round(SnowNLP(x).sentiments, 2))
	semiscore = text.id.groupby(text['content']).count()
	bar = Bar('评论情感得分')
	bar.use_theme('dark')
	bar.add(
		'',
		y_axis = semiscore.values,
		x_axis = semiscore.index.values,
		is_fill=True,
	)
	bar.render(r'情感得分分析.html')
	text['content'] = text['content'].apply(lambda x:1 if x>0.5 else -1)
	semilabel = text.id.groupby(text['content']).count()
	bar = Bar('评论情感标签')
	bar.use_theme('dark')
	bar.add(
		'',
		y_axis = semilabel.values,
		x_axis = semilabel.index.values,
		is_fill=True,
	)
	bar.render(r'情感标签分析.html')

结果：

词云生成采用jieba分词库分词，Wordcloud生成词云，代码如下：


from wordcloud import WordCloud
import matplotlib.pyplot as plt
plt.style.use('ggplot')
plt.rcParams['axes.unicode_minus'] = False
def getWordcloud(text):
	text = ''.join(str(s) for s in text['content'] if s)
	word_list = jieba.cut(text, cut_all=False)
	stopwords = [line.strip() for line in open(r'./StopWords.txt', 'r').readlines()]	# 导入停用词
	clean_list = [seg for seg in word_list if seg not in stopwords] #去除停用词
	clean_text = ''.join(clean_list)
	# 生成词云
	cloud = WordCloud(
	    font_path = r'C:/windows/Fonts/msyh.ttc',
	    background_color = 'white',
	    max_words = 800,
	    max_font_size = 64
	)
	word_cloud = cloud.generate(clean_text)
	# 绘制词云
	plt.figure(figsize=(12, 12))
	plt.imshow(word_cloud)
	plt.axis('off')
	plt.show()
if __name__ == '__main__':
	text = getText()
	getSemi(text)
	getWordcloud(text)

总结

本篇文章就到这里了，希望能给你带来帮助，也希望您能够多多关注编程网的更多内容！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 用Python实现网易云音乐的数据进行数据清洗和可视化分析

本文链接: https://www.lsjlt.com/news/11222.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

python数据分析及可视化（十五）数据分析可视化实战篇（抖音用户数据分析、二手房数据分析）

python数据分析的实战篇，围绕实例的数据展开分析，通过数据操作案例来了解数据分析中的频繁用到的知识内容。抖音用户数据分析 1.理解数据数据字段含义了解数据内容，确保数据来源是正常的，安全合法...

99+

2023-09-02

python 数据分析开发语言
使用Python对网易云歌单数据分析及可视化

目录项目概述1.1项目来源1.2需求描述数据获取2.1数据源的选取2.2数据的获取2.2.1 设计2.2.2 实现2.2.3 效果数据预处理3.1 设计3.2 实现3.3...

99+

2023-03-22

Python网易云歌单数据分析 python数据可视化
PHP中如何进行数据可视化和大数据分析？

随着互联网和大数据的不断发展，数据分析和可视化已经成为了各种行业中非常重要的一个环节。而在现代Web应用程序中，PHP作为一种强大的服务器端语言，也提供了许多工具和库来帮助开发人员进行数据可视化和大数据分析。在本文中，我们将探讨如何使用PH...

99+

2023-05-22

可视化大数据分析
如何使用Python对网易云歌单数据分析及可视化

项目概述1.1项目来源网易云音乐是一款由网易开发的音乐产品，是网易杭州研究院的成果，依托专业音乐人、DJ、好友推荐及社交功能，在线音乐服务主打歌单、社交、大牌推荐和音乐指纹，以歌单、DJ节目、社交、地理位置为核心要素，主打发现和分享。对网...

99+

2023-05-17

Python
Python实现数据可视化案例分析

目录1. 问题描述2. 实验环境3. 实验步骤及结果1. 问题描述对右图进行修改：请更换图形的风格请将 x 轴的数据改为-10 到 10请自行构造一个 y 值的函数将直方图上的数...

99+

2024-04-02
【毕业设计】基于大数据的抖音短视频数据分析与可视化 - python 大数据可视化

文章目录 0 前言1 课题背景2 数据清洗3 数据可视化地区-用户观看时间分界线每周观看观看路径发布地点视频时长整体点赞、完播 4 进阶分析相关性分析留存率 5 深度分析客户价值判断 ...

99+

2023-10-08

python 大数据数据分析毕业设计抖音数据分析
Apache和PHP：如何使用Numpy进行数据分析和可视化？

在数据分析和可视化的领域中，Numpy是一个非常强大的工具。它是一个基于Python的开源库，专门用于处理大型多维数组和矩阵，同时也提供了许多数学函数和操作。在本文中，我们将介绍如何使用Apache和PHP来使用Numpy进行数据分析和可...

99+

2023-07-08

apache 对象 numpy
【数据分析与可视化】利用Python对学生成绩进行可视化分析实战（附源码）

需要源码和数据集请点赞关注收藏后评论区留言私信~~~ 下面对学生成句和表现等数据可视化分析导入模块 import pandas as pdimport numpy as npimport seaborn as snsimport m...

99+

2023-09-04

数据分析 python 信息可视化 matplotlib Seaborn
PHP 中使用 Elasticsearch 进行数据分析与可视化

引言：随着大数据时代的到来，数据分析和可视化成为了企业决策和数据洞察的重要手段。而 Elasticsearch 作为一种强大的分布式搜索和分析引擎，为开发人员提供了丰富的API接口，使得可以方便地将数据存储到 Elasticsearch 中...

99+

2023-10-21

数据分析 PHP elasticsearch
基于Python实现股票数据分析的可视化

目录一、简介二、代码1、主文件2、数据库使用文件3、ui设计模块4、数据处理模块三、数据样例的展示四、效果展示一、简介我们知道在购买股票的时候，可以使用历史数据来对当前的股票的走势...

99+

2024-04-02
Python对中国500强排行榜数据进行可视化分析实战

目录🥩数据采集🍖确定网址🍖获取数据🍖解析数据🍖保存数据🥩数据可视化🍖代码🍖效果🥩总结🥩数据采集 🍖确定网址首先，我们对目标网址进行数据采集。我们可以清楚的看到，在2022年中新财富...

99+

2023-05-16

Python排行榜数据可视化 Python 数据可视化
Python疫情数据可视化分析怎么实现

这篇文章主要讲解了“Python疫情数据可视化分析怎么实现”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“Python疫情数据可视化分析怎么实现”吧！前言本项目主要通过python的matpl...

99+

2023-07-02
利用Python进行数据可视化的实例代码

目录前言首先搭建环境实例代码例子1：例子2：例子3: 例子4: 例子5: 例子6:总结前言前面写过一篇用Python制作PPT...

99+

2024-04-02
如何使用 numy 在 ASP 中进行数据分析和可视化？

数据分析和可视化是现代社会中越来越重要的任务，而使用 Python 中的 NumPy 库可以使这些任务变得更加容易和高效。在本文中，我们将介绍如何在 ASP 中使用 NumPy 进行数据分析和可视化，并提供一些示例代码和演示。安装和导入...

99+

2023-08-29

npm path numy
Python利用Bokeh进行数据可视化的教程分享

目录介绍代码1.散点标记代码2.单行代码3.条形图代码4.箱线图代码5.直方图代码6.散点图介绍 Bokeh是 Python 中的数据可视化库，提供高性能的交互式图表和绘图。Boke...

99+

2024-04-02
如何在PHP中进行疫情数据分析和可视化？

疫情数据分析和可视化一直是疫情期间受到广泛关注的话题。而在PHP中进行疫情数据分析和可视化，不仅可以获取最新的疫情数据，还能够通过数据可视化工具对数据进行分析和展示，更加直观地了解疫情的发展趋势。本文将简单介绍如何在PHP中获取最新的疫情数...

99+

2023-05-21

可视化数据分析 PHP
使用pandas进行数据可视化和探索性数据分析的技巧及方法

如何使用pandas进行数据可视化和探索性分析导语：在数据分析的过程中，可视化和探索性分析是不可或缺的环节。pandas是Python中一个非常强大的数据分析库，除了具有数据处理功能外，还提供了一系列用于数据可视化和探索性分析...

99+

2024-01-13

数据探索探索性分析
如何使用Python实现股票数据分析的可视化

这篇文章主要为大家展示了“如何使用Python实现股票数据分析的可视化”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“如何使用Python实现股票数据分析的可视化”这篇文章吧。一、简介我们知道在购...

99+

2023-06-22
利用Python对中国500强排行榜数据进行可视化分析

目录一、前言二、数据采集1.开始爬取获取企业列表获取企业对应url获取每一个企业相关数据2.保存到Excel三、可视化分析1.省份分布导入相关可视化库统计数据地图可视化2.营业收入年...

99+

2024-04-02
怎么利用Python对500强排行榜数据进行可视化分析

今天小编给大家分享一下怎么利用Python对500强排行榜数据进行可视化分析的相关知识点，内容详细，逻辑清晰，相信大部分人都还太了解这方面的知识，所以分享这篇文章给大家参考一下，希望大家阅读完这篇文章后有所收获，下面我们一起来了解一下吧。一...

99+

2023-06-30