iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python爬取百度春节祝福语并生成心形词云
  • 725
分享到

Python爬取百度春节祝福语并生成心形词云

2024-04-02 19:04:59 725人浏览 安东尼

Python 官方文档:入门教程 => 点击学习

摘要

目录前言环境思路源代码 前言 最近刚好在看爬虫,就爬取一下春节祝福语,生成个词云玩一玩,大家有兴趣可以试试,会奉上源代码,很简单。效果图如下: 环境 环境:windows, 语言:

前言

最近刚好在看爬虫,就爬取一下春节祝福语,生成个词云玩一玩,大家有兴趣可以试试,会奉上源代码,很简单。效果图如下:

环境

环境:windows,

语言:pythonPython版本是3.7

所依赖的第三方包:

selenium----爬取网站,收集祝福语,这个库做UI自动化测试的估计会比较常见,我这里没采用使用requests库去爬取,用这个库的好处是爬取的过程中页面是实时可见的

Wordcloud---用来生成词云

PIL---使词云生成想要的轮廓, 这里注意python3.7安装的时候应该使用pip install pillow

numpy---生成那种有轮廓的词云,还需要安装这个包,这个包将给出形状的图片表示为一个大型矩阵

jieba---词云生成的词默认是英文,因我们爬取的祝福语是中文,需要用这个库能识别中文,防止中文乱码

思路

(1)我爬取百度,搜索到关于春节祝福语,然后把这些祝福语存放到一个文件中。详细如下:

这里用到了selenium的WEBdriver, 使用的浏览器是firefox, 创建了一个firefox浏览器对象,然后firefox打开百度,定位到百度输入框,输入搜索词--新春祝福2022,浏览器页面显示如下

在这个页面,我模拟人工点击这第一个搜索出来的结果,跳到其他网址页面,如图

把这个页面的所有祝福语获取到,存到wishes.txt文件中

(2)然后用生成词云的相关库,来解析这个文件,生成词云 这里注意一点的是,生成词云使用的中文字体, font_path使用的是windows的字体库,这里你可以换成其他的字体

word_cloud = WordCloud(mask=mask, font_path='C:\Windows\Fonts\STXINGKA.TTF').generate(text)

windows 字体库

源代码

可以修改背景颜色和字题颜色,例如

word_cloud = WordCloud(mask=mask, background_color='white',  contour_color='red', colORMap='brg',
                       max_words=600,
                       font_path='C:\Windows\Fonts\STXINGKA.TTF').generate(text)

重新运行之后,如图

支持的colormap字体颜色集,可参考以下链接 

到此这篇关于Python爬取百度春节祝福语并生成心形词云的文章就介绍到这了,更多相关Python爬取祝福语内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: Python爬取百度春节祝福语并生成心形词云

本文链接: https://www.lsjlt.com/news/162207.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Python爬取百度春节祝福语并生成心形词云
    目录前言环境思路源代码 前言 最近刚好在看爬虫,就爬取一下春节祝福语,生成个词云玩一玩,大家有兴趣可以试试,会奉上源代码,很简单。效果图如下: 环境 环境:windows, 语言:...
    99+
    2024-04-02
  • python 爬取豆瓣电影短评并利用wordcloud生成词云图
    目录前言第一步、准备数据  第二步、编写爬虫代码第三步、生成词云图前言 最近学到数据可视化到了词云图,正好学到爬虫,各种爬网站【实验名称】 爬取豆瓣电影《千与千寻》的评论并...
    99+
    2024-04-02
  • Python爬取英雄联盟MSI直播间弹幕并生成词云图
    目录一、环境准备二、数据准备三、代码如下四、词云图效果展示一、环境准备 安装相关第三方库 pip install jieba pip install wordcloud 二、数据准备...
    99+
    2024-04-02
  • Python爬取哆啦A梦-伴我同行2豆瓣影评并生成词云图
    目录一、前言二、豆瓣爬虫步骤三、最终效果如下四、词云图制作流程五、效果图一、前言 通过这篇文章,你将会收货: ① 豆瓣电影数据的爬取; ② 手把手教你学会词云图的绘制; 二、豆瓣爬...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作