iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >python爬取豆瓣评论制作词云代码
  • 349
分享到

python爬取豆瓣评论制作词云代码

2024-04-02 19:04:59 349人浏览 泡泡鱼

Python 官方文档:入门教程 => 点击学习

摘要

目录一、爬取豆瓣热评二、制作词云总结一、爬取豆瓣热评 该程序进行爬取豆瓣热评,将爬取的评论(JSON文件)保存到与该python文件同一级目录下注意需要下载这几个库:requests

一、爬取豆瓣热评

该程序进行爬取豆瓣热评,将爬取的评论(JSON文件)保存到与该python文件同一级目录下
注意需要下载这几个库:requests、lxml、json、time

import requests
from lxml import etree
import json
import time
class Spider(object):
    def __init__(self):
        #seif.ure='https://movie.douban.com/subject/23885074/reviews?start=0'
        self.headers={
            'User-Agent':'Mozilla/5.0(windows NT6.1;Win64;x64)AppleWEBKit/537.36(Khtml,like Gecko)Chrome/75.0.3700.100Safari/537.36'
        }
    def get_data(self,url):
        response = requests.get(url,headers=self.headers).content.decode('utf-8')
        page=etree.HTML(response)#xpath 对象
        #获取所有数据节点
        node_list = page.xpath('//div[@class="review-list  "]/div')
        for node in node_list:
            #作者
            author = node.xpath('.//header[@class="main-hd"]//a[2]/text()')[0]
            #评论
            text = node.xpath('string(.//div[@class="main-bd"]//div[@class="short-content"])')

            items={
                'author':author,
                'text':text.strip()
            }
            #持久化存储
            with open('yewen.json','a',encoding='utf-8') as f:
                f.write(json.dumps(items,ensure_ascii=False)+'\n')
    def run(self):
        for i in range(1,47):
            url='Https://movie.douban.com/subject/26885074/reviews?start{}'.fORMat(i*20)
            print('正在爬取第{}页'.format(i))
            self.get_data(url)
            time.sleep(3)
if __name__=='__main__':
    s=Spider()
    s.run()

二、制作词云

该程序将json中的数据进行处理,提取重要信息,并用Wordcloud库制作词云图片,同样保存到与该Python文件同一级目录下
注意需要下载这几个库:jieba、wordcloud、json

import jieba
from wordcloud import WordCloud
import json
f= open("yewen.json", "r", encoding="utf-8")
data_list= f.readlines()
str =''
for data in data_list:
    text= json.loads(data)['text']
    str +=text
#替换无关紧要的词语
result_str = str.replace('展开', '').replace('这篇','').replace('影评','').replace('电影','').replace('这部', '').replace('可能', '').replace('剧情','')
cut_text = jieba.lcut(result_str)
result = " ".join(cut_text)
wc = WordCloud(font_path='simhei.ttf',
               background_color="white",
               max_words=600,
               width=1000,
               height=1000,
               min_font_size=20,
               max_font_size=100,)
    #mast=plt.imreda('snake.jpg')#背景图片
wc.generate(result)#转化为词云的操作
wc.to_file("text.jpg")#保存
f.close()

在这里插入图片描述

总结

到此这篇关于python爬取豆瓣评论制作词云代码的文章就介绍到这了,更多相关python爬取豆瓣评论内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: python爬取豆瓣评论制作词云代码

本文链接: https://www.lsjlt.com/news/161517.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • python爬取豆瓣评论制作词云代码
    目录一、爬取豆瓣热评二、制作词云总结一、爬取豆瓣热评 该程序进行爬取豆瓣热评,将爬取的评论(json文件)保存到与该python文件同一级目录下注意需要下载这几个库:requests...
    99+
    2024-04-02
  • Python怎么爬取豆瓣复联4精彩评论
    这篇文章将为大家详细讲解有关Python怎么爬取豆瓣复联4精彩评论,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。如果你们漫威迷的话,应该知道复仇者联盟4:终极之战,很快就要开始了,4月24号...
    99+
    2023-06-02
  • Python爬虫怎么爬取豆瓣影评
    本篇内容主要讲解“Python爬虫怎么爬取豆瓣影评”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Python爬虫怎么爬取豆瓣影评”吧!一、学习开始前需安装模块pip install reques...
    99+
    2023-06-02
  • python 爬取豆瓣电影短评并利用wordcloud生成词云图
    目录前言第一步、准备数据  第二步、编写爬虫代码第三步、生成词云图前言 最近学到数据可视化到了词云图,正好学到爬虫,各种爬网站【实验名称】 爬取豆瓣电影《千与千寻》的评论并...
    99+
    2024-04-02
  • 怎么用python爬虫获取豆瓣的书评
    小编给大家分享一下怎么用python爬虫获取豆瓣的书评,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!python的五大特点是什么python的五大特点:1.简单易...
    99+
    2023-06-14
  • 详解如何用Python登录豆瓣并爬取影评
    目录一、需求背景二、功能描述三、技术方案四、登录豆瓣1.分析豆瓣登录接口2.代码实现登录豆瓣3.保存会话状态4.这个Session对象是我们常说的session吗?五、爬取影评1.分...
    99+
    2024-04-02
  • Python爬取哆啦A梦-伴我同行2豆瓣影评并生成词云图
    目录一、前言二、豆瓣爬虫步骤三、最终效果如下四、词云图制作流程五、效果图一、前言 通过这篇文章,你将会收货: ① 豆瓣电影数据的爬取; ② 手把手教你学会词云图的绘制; 二、豆瓣爬...
    99+
    2024-04-02
  • 【Python】爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据
    目录 前言 一、配置环境 1.1、 安装Python 1.2、 安装Requests库和BeautifulSoup库 1.3.、安装Matplotlib 二、登录豆瓣网(重点) 2.1、获取代理 2.2、测试代理ip是否可用 2.3、设置...
    99+
    2023-10-25
    windows python 开发语言 爬虫
  • Python评论提取关键词制作精美词云的方法
    今天小编给大家分享一下Python评论提取关键词制作精美词云的方法的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。 ...
    99+
    2023-06-29
  • 100天精通Python丨黑科技篇 —— 25、爬取评论 > 结巴分词 > 制作词云
    目录 🍑 一、爬虫抓取全部评论 🍞 1、找到评论接口 🍏 2、Python 获取评论 来源地址:https://blog.csdn.net/weixin_39032019/article/details/123545440...
    99+
    2023-10-05
    jieba分词 精美词云 爬起评论 原力计划
  • 13行代码实现爬取豆瓣250电影榜单
    原理很简单,通过发送resquest请求获取服务器的response,再使用xpath提取其中我们需要的数据,然后保存到文件中。 先看看我爬取的结果: 首先,需要用到的模块有两个: •requests •lxml 第一步,我们先用Ch...
    99+
    2023-01-30
    豆瓣 榜单 代码
  • Python爬取网易云歌曲评论实现词云图
    目录前言环境使用代码实现先是安装、导入所需模块1. 创建一个浏览器对象2. 执行自动化下拉页面, 直接下拉到页面的底部3.解析数据保存数据翻页保存为txt文件运行代码得到结果再做个词...
    99+
    2024-04-02
  • python爬取热搜制作词云
    环境:win10,64位,mysql5.7数据库,python3.9.7,ancod 逻辑流程: 1、首先爬取百度热搜,至少间隔1小时2、存入文件,避免重复请求,如果本1小时有了不再...
    99+
    2024-04-02
  • 利用Python爬取豆瓣读书页面源码分享
    本篇内容介绍了“利用Python爬取豆瓣读书页面源码分享”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!源代码如下:#coding:utf-8...
    99+
    2023-06-19
  • Python超简单分析评论提取关键词制作精美词云流程
    目录 一、抓取全部评论1、找到评论接口2、Python 获取评论二、文本分词、词云制作1、文本分析2、生成词云3、初步效果-模糊不清4、最终效果-高清无马 一、抓取全部评论 吾的这篇...
    99+
    2024-04-02
  • 利用Python网络爬虫爬取各大音乐评论的代码
    目录 python爬虫--爬取网易云音乐评论1.简易看出评论是动态加载的,一定是ajax方式。3.去查看post请求所上传的数据4.首先去查看请求是经过那些js到达服务器的...
    99+
    2024-04-02
  • 怎么使用Python爬取网易云歌曲评论实现词云图
    这篇文章主要讲解了“怎么使用Python爬取网易云歌曲评论实现词云图”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“怎么使用Python爬取网易云歌曲评论实现词云图”吧!环境使用Python ...
    99+
    2023-06-30
  • 【python】爬取豆瓣电影排行榜Top250存储到Excel文件中【附源码】
    英杰社区https://bbs.csdn.net/topics/617804998 一、背景         近年来,Python在数据爬取和处理方面的应用越来越广泛。本文将介绍一个基于Python的爬虫程 序,用于抓取豆瓣电影Top...
    99+
    2024-01-21
    python 人工智能 开发语言
  • Python项目实战:爬取网易云音乐评论
    前言相信大家都非常喜欢听音乐的吧,每一首歌背后都有一个故事,有爱情,有离别,有仇恨,有不舍等等,听着自己喜欢总会唏嘘,我不仅喜欢听歌,还喜欢看歌曲下面的评论,很多人都阐述了自己对歌曲的看法和理解,除了一些,你懂的..、废话不多说了。上代码吧...
    99+
    2023-06-02
  • Python控制浏览器自动下载歌词评论并生成词云图
    目录一、前言二、准备工作1.需要用的模块2.驱动安装三、下载歌词四、词云图一、前言 一首歌热门了,参与评论的人也很多,那我们有时候想看看评论,也只能看看热门的评论,大部分人都说的什么...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作