Python爬虫爬取豆瓣电影之数据提取值

爬虫豆瓣数据 2023-01-30 22:01:33 517人浏览安东尼

Python 官方文档：入门教程 => 点击学习

摘要

工具：python 3.6.5、PyCharm开发工具、windows 10 操作系统、谷歌浏览器目的：爬取豆瓣电影排行榜中电影的title、链接地址、图片、评价人数、评分等网址：https://movie.douban.com/ch

工具：python 3.6.5、PyCharm开发工具、windows 10 操作系统、谷歌浏览器

目的：爬取豆瓣电影排行榜中电影的title、链接地址、图片、评价人数、评分等

网址：https://movie.douban.com/chart

语法要点：

xpath语法：

谷歌浏览器安装 xpath helper插件：帮助我们从elements中定位数据

1、选择节点（标签）

　　（1）、/html/head/meta：能够选中html下的所有的meta标签

　　（2）、//li：当前页面上的所有的li标签

　　（3）、/html/head//link：head下的所有link标签

2、//：能够从任意节点开始选择

　　（1）、//li：当前页面上的所有的li标签

　　（2）、/html/head//link：head下的所有的link标签

3、@符号的用途

　　（1）、选择具体某个元素：//div[@class='feed']/ul/li，选择class='feed'的div下的ul下的li

　　（2）、a/@href：选择a的href的值

4、获取文本

　　（1）、/a/text()：获取a下的文本

　　（2）、/a//text()：获取a下的所有文本

示例：

lxml语法：

1、安装：pip install lxml

2、使用

　　from lxml import etree

　　element = etree.HTML("html字符串")

　　element.xpath("")

代码：

 1 from lxml import etree
 2 import requests
 3 
 4 url = "Https://movie.douban.com/chart"
 5 
 6 headers = {
 7 "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWEBKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.81 Safari/537.36"
 8 }
 9 response = requests.get(url,headers=headers)
10 html_str = response.content.decode()
11 
12 #print(html_str)
13 
14 html = etree.HTML(html_str)
15 print(html)
16 
17 #1.获取所有的电影的URL地址
18 #url_list = html.xpath("//div[@class='indent']/div/table//div[@class='pl2']/a/@href")
19 #print(url_list)
20 
21 #2.所有图片的地址
22 #img_list = html.xpath("//div[@class='indent']/div/table//a[@class='nbg']/img/@src")
23 #print(img_list)
24 ret1 = html.xpath("//div[@class='indent']/div/table")
25 print(ret1)
26 for table in ret1:
27     item = {}
28     item["title"] = table.xpath(".//div[@class='pl2']/a/text()")[0].replace("/","").strip()
29     item["href"] = table.xpath(".//div[@class='pl2']/a/@href")[0]
30     item["img"] = table.xpath(".//a[@class='nbg']/img/@src")[0]
31     item["comment_num"] = table.xpath(".//span[@class='pl']/text()")[0]
32     item["rating_num"] = table.xpath(".//span[@class='rating_nums']/text()")[0]
33     print(item)
34

运行效果：

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python爬虫爬取豆瓣电影之数据提取值

本文链接: https://www.lsjlt.com/news/179772.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Python爬虫爬取豆瓣电影之数据提取值

工具：Python 3.6.5、PyCharm开发工具、Windows 10 操作系统、谷歌浏览器目的：爬取豆瓣电影排行榜中电影的title、链接地址、图片、评价人数、评分等网址：https://movie.douban.com/ch...

99+

2023-01-30

爬虫豆瓣数据
Python爬虫怎么爬取豆瓣影评

本篇内容主要讲解“Python爬虫怎么爬取豆瓣影评”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“Python爬虫怎么爬取豆瓣影评”吧!一、学习开始前需安装模块pip install reques...

99+

2023-06-02
python爬取豆瓣top250的电影数

爬取网址: https://movie.douban.com/top250 一:爬取思路(新手可以看一下) :　　　　　　1:定义两个函数,一个get_page函数爬取数据,一个save函数保存数据,mian中向get_page函数传递...

99+

2023-01-31

豆瓣电影 python
爬取豆瓣电影信息

昨天写了一个小爬虫，爬取了豆瓣上2017年中国大陆的电影信息，网址为豆瓣选影视，爬取了电影的名称、导演、编剧、主演、类型、上映时间、片长、评分和链接，并保存到MongoDB中。一开始用的本机的IP地址，没用代理IP，请求了十几个网页之后...

99+

2023-01-30

豆瓣电影信息
python如何爬取豆瓣电影TOP250数据

这篇文章将为大家详细讲解有关python如何爬取豆瓣电影TOP250数据，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。在执行程序前，先在MySQL中创建一个数据库"pachong"。i...

99+

2023-06-15
爬取豆瓣电影排行top250

爬取豆瓣电影排行top250 功能分析：使用的库 1、time 2、json 3、requests 4、BuautifulSoup 5、RequestException """ 作者：李舵日期：2019-4-27...

99+

2023-01-31

豆瓣电影排行
用python爬取豆瓣前一百电影

目录实现代码：代码分析：运行结果：总结网站爬取的流程图：实现项目我们需要运用以下几个知识点一、获取网页1.找网页规律；2.使用 for 循环语句获得网站前4页的网页链接；3.使...

99+

2024-04-02
Python爬虫使用lxml模块爬取豆瓣

上次使用了BeautifulSoup库爬取电影排行榜，爬取相对来说有点麻烦，爬取的速度也较慢。本次使用的lxml库，我个人是最喜欢的，爬取的语法很简单，爬取速度也快。本次爬取的豆瓣书籍排行榜的首页地址是： https://www.dou...

99+

2023-01-31

爬虫豆瓣模块
【Python】爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据

目录前言一、配置环境 1.1、安装Python 1.2、安装Requests库和BeautifulSoup库 1.3.、安装Matplotlib 二、登录豆瓣网（重点） 2.1、获取代理 2.2、测试代理ip是否可用 2.3、设置...

99+

2023-10-25

windows python 开发语言爬虫
Python爬取豆瓣电影方法是什么

本篇内容主要讲解“Python爬取豆瓣电影方法是什么”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“Python爬取豆瓣电影方法是什么”吧!主要目标环境：MAC + Python3....

99+

2023-06-02
使用Python怎么爬取豆瓣电影名

这期内容当中小编将会给大家带来有关使用Python怎么爬取豆瓣电影名，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。Python的优点有哪些1、简单易用，与C/C++、Java、C# 等传统语言相比，Pyt...

99+

2023-06-14
怎么用python爬取豆瓣前一百电影

这期内容当中小编将会给大家带来有关怎么用python爬取豆瓣前一百电影，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。python是什么意思Python是一种跨平台的、具有解释性、编译性、互动性和面向对象的...

99+

2023-06-26
（转）Python3爬取豆瓣电影保存到

48行代码实现Python3爬取豆瓣电影排行榜代码基于python3，用到的类库有: 标题文字 requests:通过伪造请求头或设置代理等方式获取页面内容，参考文档BeautifulSoup:对页面进行解析，提取数据，参考文档PyMyS...

99+

2023-01-31

豆瓣电影
第一个爬虫——豆瓣新书信息爬取

本文记录了我学习的第一个爬虫程序的过程。根据《Python数据分析入门》一书中的提示和代码，对自己的知识进行查漏补缺。在上爬虫程序之前补充一个知识点：User-Agent。它是Http协议中的一部分，属于头域的组成部分，User...

99+

2023-01-31

第一个爬虫豆瓣
怎么用python爬虫获取豆瓣的书评

小编给大家分享一下怎么用python爬虫获取豆瓣的书评，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！python的五大特点是什么python的五大特点：1.简单易...

99+

2023-06-14
python怎么爬取豆瓣网页

这篇文章主要介绍了python怎么爬取豆瓣网页，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。python 语法简要介绍python 的基础语法大体与c语言相差不大，由于省去了...

99+

2023-06-14
Python爬虫爬取百度翻译之数据提取方

工具：Python 3.6.5、PyCharm开发工具、Windows 10 操作系统说明：本例为实现输入中文翻译为英文的小程序，适合Python爬虫的初学者一起学习，感兴趣的可以做英文翻译为中文的功能，如单词查询功能等。推荐使用谷歌浏...

99+

2023-01-30

爬虫数据 Python
python爬取豆瓣新书清单

使用python3的requests库快速获取豆瓣图书推荐的新书清单，并保存书籍信息和图书缩略图图片到本地 #!/usr/bin/env python # -*- coding:utf-8 -*- """ @author:Aiker Z...

99+

2023-01-31

豆瓣新书清单
13行代码实现爬取豆瓣250电影榜单

原理很简单，通过发送resquest请求获取服务器的response，再使用xpath提取其中我们需要的数据，然后保存到文件中。先看看我爬取的结果：首先，需要用到的模块有两个： •requests •lxml 第一步，我们先用Ch...

99+

2023-01-30

豆瓣榜单代码
Python 通过xpath属性爬取豆瓣热映的电影信息

目录前言页面分析实现过程创建项目Item定义中间件操作定义爬虫定义数据管道定义配置设置执行验证总结前言声明一下：本文主要是研究使用，没有别的用途。 GitHub仓库地址：githu...

99+

2024-04-02