iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python爬虫项目--爬取猫眼电影To
  • 842
分享到

Python爬虫项目--爬取猫眼电影To

爬虫猫眼项目 2023-01-30 22:01:53 842人浏览 薄情痞子

Python 官方文档:入门教程 => 点击学习

摘要

 本次抓取猫眼电影Top100榜所用到的知识点: 1. python requests库 2. 正则表达式 3. csv模块 4. 多进程 正文 目标站点分析 通过对目标站点的分析, 来确定网页结构, 进一步确定具体的抓取方式. 1. 浏

 本次抓取猫眼电影Top100榜所用到的知识点:

1. python requests库

2. 正则表达式

3. csv模块

4. 多进程

正文

目标站点分析

通过对目标站点的分析, 来确定网页结构, 进一步确定具体的抓取方式.

1. 浏览器打开猫眼电影首页, 点击"榜单", 点击"Top100榜", 即可看到目标页面. 

2.  浏览网页, 滚动到下方发现有分页, 切换到第2页, 发现: URL从 Http://maoyan.com/board/4变换到http://maoyan.com/board/4?offset=10, 多次切换页码offset都有改变, 可以确定的是通过改变URL的offset参数来生成分页列表.

项目流程框架:

获取单页源码

 1 #抓取猫眼电影TOP100榜
 2 import requests
 3 import time
 4 from requests.exceptions import RequestException
 5 def get_one_page():
 6     '''获取单页源码'''
 7     try:
 8         url = "http://maoyan.com/board/4?offset={0}".fORMat(0)
 9         headers = {
10             "User-Agent":"Mozilla/5.0(windowsNT6.3;Win64;x64)AppleWEBKit/537.36(Khtml,likeGecko)Chrome/68.0.3440.106Safari/537.36"
11         }
12         res = requests.get(url, headers=headers)
13         # 判断响应是否成功,若成功打印响应内容,否则返回None
14         if res.status_code == 200:
15             print(res.text)
16         return None
17     except RequestException:
18         return None
19 def main():
20     get_one_page()
21 if __name__ == '__main__':
22     main()
23     time.sleep(1)

执行即可得到网页源码, 那么下一步就是解析源码了

解析单页源码

导入正则表达式re模块, 对代码进行解析, 得到想要的信息.

 1 import re
 2 
 3 def parse_one_page(html):
 4     '''解析单页源码'''
 5     pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?name"><a.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime'
 6                          + '.*?>(.*?)</p>.*?score.*?integer">(.*?)</i>.*?>(.*?)</i>.*?</dd>',re.S)
 7     items = re.findall(pattern,html)
 8     print(items)
 9     #采用遍历的方式提取信息
10     for item in  items:
11         yield {
12             'rank' :item[0],
13             'title':item[1],
14             'actor':item[2].strip()[3:] if len(item[2])>3 else '',  #判断是否大于3个字符
15             'time' :item[3].strip()[5:] if len(item[3])>5 else '',
16             'score':item[4] + item[5]
17         }
18 def main():
19     html = get_one_page()
20     for item in parse_one_page(html):
21         print(item)
22 
23 if __name__ == '__main__':
24     main()
25     time.sleep(1)

提取出信息之后, 那么下一步就是保存到文件

保存到文件中

这里采用两种方式, 一种是保存到text文件, 另一种是保存到csv文件中, 根据需要选择其一即可.

1. 保存到text文件

 1 import JSON
 2 
 3 def write_to_textfile(content):
 4     '''写入到text文件中'''
 5     with open("MovieResult.text",'a',encoding='utf-8') as f:
 6         #利用json.dumps()方法将字典序列化,并将ensure_ascii参数设置为False,保证结果是中文而不是Unicode码.
 7         f.write(json.dumps(content,ensure_ascii=False) + "\n")
 8         f.close()
 9 def main():
10     html = get_one_page()
11     for item in parse_one_page(html):
12         write_to_textfile(item)
13 
14 if __name__ == '__main__':
15     main()
16     time.sleep(1)

2. 保存到CSV文件

其文件以纯文本的形式存储表格数据

 1 import csv
 2 def write_to_csvfile(content):
 3     '''写入到csv文件中'''
 4     with open("MovieResult.csv",'a',encoding='gb18030',newline='') as f:
 5         # 将字段名传入列表
 6         fieldnames = ["rank", "title", "actor", "time", "score"]
 7         #将字段名传给Dictwriter来初始化一个字典写入对象
 8         writer = csv.DictWriter(f,fieldnames=fieldnames)
 9         #调用writeheader方法写入字段名
10         writer.writeheader()
11         writer.writerows(content)
12         f.close()
13 def main():
14     html = get_one_page()
15     rows = []
16     for item in parse_one_page(html):
17         #write_to_textfile(item)
18         rows.append(item)
19     write_to_csvfile(rows)
20 if __name__ == '__main__':
21     main()
22     time.sleep(1)

单页的信息已经提取出, 接着就是提取多个页面的信息

获取多个页面

1. 普通方法抓取

 1 def main(offset):
 2     url = "http://maoyan.com/board/4?offset={0}".format(offset)
 3     html = get_one_page(url)
 4     rows = []
 5     for item in parse_one_page(html):
 6         #write_to_textfile(item)
 7         rows.append(item)
 8     write_to_csvfile(rows)
 9 if __name__ == '__main__':
10     #通过遍历写入TOP100信息
11     for i in range(10):
12         main(offset=i * 10)
13         time.sleep(1)

2. 多进程抓取

1 from multiprocessing import Pool
2 
3 if __name__ == '__main__':
4     # 将字段名传入列表
5     fieldnames = ["rank", "title", "actor", "time", "score"]
6     write_to_csvField(fieldnames)
7     pool = Pool()
8     #map方法会把每个元素当做函数的参数,创建一个个进程,在进程池中运行.
9     pool.map(main,[i*10 for i in range(10)])

 完整代码

 1 #抓取猫眼电影TOP100榜
 2 from multiprocessing import Pool
 3 from requests.exceptions import RequestException
 4 import requests
 5 import json
 6 import time
 7 import csv
 8 import re
 9 def get_one_page(url):
10     '''获取单页源码'''
11     try:
12         headers = {
13             "User-Agent":"Mozilla/5.0(WindowsNT6.3;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/68.0.3440.106Safari/537.36"
14         }
15         res = requests.get(url, headers=headers)
16         # 判断响应是否成功,若成功打印响应内容,否则返回None
17         if res.status_code == 200:
18             return res.text
19         return None
20     except RequestException:
21         return None
22 def parse_one_page(html):
23     '''解析单页源码'''
24     pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?name"><a.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime'
25                          + '.*?>(.*?)</p>.*?score.*?integer">(.*?)</i>.*?>(.*?)</i>.*?</dd>',re.S)
26     items = re.findall(pattern,html)
27     #采用遍历的方式提取信息
28     for item in  items:
29         yield {
30             'rank' :item[0],
31             'title':item[1],
32             'actor':item[2].strip()[3:] if len(item[2])>3 else '',  #判断是否大于3个字符
33             'time' :item[3].strip()[5:] if len(item[3])>5 else '',
34             'score':item[4] + item[5]
35         }
36 
37 def write_to_textfile(content):
38     '''写入text文件'''
39     with open("MovieResult.text",'a',encoding='utf-8') as f:
40         #利用json.dumps()方法将字典序列化,并将ensure_ascii参数设置为False,保证结果是中文而不是Unicode码.
41         f.write(json.dumps(content,ensure_ascii=False) + "\n")
42         f.close()
43 
44 def write_to_csvField(fieldnames):
45     '''写入csv文件字段'''
46     with open("MovieResult.csv", 'a', encoding='gb18030', newline='') as f:
47         #将字段名传给Dictwriter来初始化一个字典写入对象
48         writer = csv.DictWriter(f,fieldnames=fieldnames)
49         #调用writeheader方法写入字段名
50         writer.writeheader()
51 def write_to_csvRows(content,fieldnames):
52     '''写入csv文件内容'''
53     with open("MovieResult.csv",'a',encoding='gb18030',newline='') as f:
54         #将字段名传给Dictwriter来初始化一个字典写入对象
55         writer = csv.DictWriter(f,fieldnames=fieldnames)
56         #调用writeheader方法写入字段名
57         #writer.writeheader()            ###这里写入字段的话会造成在抓取多个时重复.
58         writer.writerows(content)
59         f.close()
60 
61 def main(offset):
62     fieldnames = ["rank", "title", "actor", "time", "score"]
63     url = "http://maoyan.com/board/4?offset={0}".format(offset)
64     html = get_one_page(url)
65     rows = []
66     for item in parse_one_page(html):
67         #write_to_textfile(item)
68         rows.append(item)
69     write_to_csvRows(rows,fieldnames)
70 
71 if __name__ == '__main__':
72     # 将字段名传入列表
73     fieldnames = ["rank", "title", "actor", "time", "score"]
74     write_to_csvField(fieldnames)
75     # #通过遍历写入TOP100信息
76     # for i in range(10):
77     #     main(offset=i * 10,fieldnames=fieldnames)
78     #     time.sleep(1)
79     pool = Pool()
80     #map方法会把每个元素当做函数的参数,创建一个个进程,在进程池中运行.
81     pool.map(main,[i*10 for i in range(10)])

效果展示: 

最终采用写入csv文件的方式.

--结束END--

本文标题: Python爬虫项目--爬取猫眼电影To

本文链接: https://www.lsjlt.com/news/179544.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Python爬虫项目--爬取猫眼电影To
     本次抓取猫眼电影Top100榜所用到的知识点: 1. python requests库 2. 正则表达式 3. csv模块 4. 多进程 正文 目标站点分析 通过对目标站点的分析, 来确定网页结构, 进一步确定具体的抓取方式. 1. 浏...
    99+
    2023-01-30
    爬虫 猫眼 项目
  • Python爬虫实例:爬取猫眼电影——破
     字体反爬 字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的。 现在貌似不少网站都有采用这种反爬机制,我们通过猫眼...
    99+
    2023-01-30
    爬虫 猫眼 实例
  • 爬取猫眼电影TOP100
    本文所讲的爬虫项目实战属于基础、入门级别,使用的是Python3.5实现的。 本项目基本目标:在猫眼电影中把top100的电影名,排名,海报,主演,上映时间,评分等爬取下来 爬虫原理和步骤 爬虫,就是从网页中爬取自己所需要的东西,如文字、...
    99+
    2023-01-30
    猫眼 电影
  • java爬虫如何爬取猫眼电影TOP榜数据
    这篇文章给大家分享的是有关java爬虫如何爬取猫眼电影TOP榜数据的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。爬虫是如何爬取猫眼电影TOP榜数据的。主要抓取的内容有排名、图片、电影名称、主演、上映时间和评分信息...
    99+
    2023-06-02
  • 一起学爬虫——使用xpath库爬取猫眼电
    之前分享了一篇使用requests库爬取豆瓣电影250的文章,今天继续分享使用xpath爬取猫眼电影热播口碑榜 XPATH语法 XPATH(XML Path Language)是一门用于从XML文件中查找信息的语言。通用适用于从HTML文...
    99+
    2023-01-30
    爬虫 猫眼 xpath
  • requests项目实战--抓取猫眼电影排行
    requests项目实战--抓取猫眼电影排行目标 url : https://maoyan.com/board/4offset=0提取出猫眼电影TOP100的电影名称,主演,上映时间,评分,图片等信息,提取的结果以文本的形式保存起...
    99+
    2023-01-30
    猫眼 实战 项目
  • 网络爬虫丨基于requests+mysql爬取猫眼热门电影数据做可视化分析
    文章目录 写在前面实验描述实验内容遇到问题 写在后面 写在前面 本期内容:基于requests+mysql爬取猫眼热门电影数据做可视化分析 实验需求 anaconda丨pycharmp...
    99+
    2024-01-21
    爬虫 mysql 数据库
  • 用python爬取猫眼top100电影,我发现经典永远是经典
    前言想必大家在无聊的时候,都想找一部口碑的好电影,而自己又没看过的,这个其实可以参考猫眼top100的上排名,因为排名是靠评分升上去,想排名第一的《霸王别姬》,“哥哥”在里面的出色表演,让人惊叹下面来看看实现的过程...
    99+
    2023-06-02
  • Python爬虫爬取豆瓣电影之数据提取值
    工具:Python 3.6.5、PyCharm开发工具、Windows 10 操作系统、谷歌浏览器 目的:爬取豆瓣电影排行榜中电影的title、链接地址、图片、评价人数、评分等 网址:https://movie.douban.com/ch...
    99+
    2023-01-30
    爬虫 豆瓣 数据
  • python爬虫抓取电影天堂最新电影
    该小脚本实现对电影天堂网站的最新电影查找。from bs4 import BeautifulSoup  import  urllib import  re url= 'http://www.ygdy8.net/html/gndy/dyzz/...
    99+
    2023-01-31
    爬虫 最新电影 天堂
  • python爬虫实战项目之爬取pixiv图片
    自从接触python以后就想着爬pixiv,之前因为梯子有点问题就一直搁置,最近换了个梯子就迫不及待试了下。 爬虫无非request获取html页面然后用正则表达式或者beautif...
    99+
    2024-04-02
  • Python爬虫项目--爬取自如网房源信
    本次爬取自如网房源信息所用到的知识点: 1. requests get请求 2. lxml解析html 3. Xpath 4. MongoDB存储 正文 1.分析目标站点 1. url: http://hz.ziroom.com/z/nl...
    99+
    2023-01-30
    爬虫 自如 房源
  • Python爬虫项目--爬取某宝男装信息
    本次爬取用到的知识点有: 1. selenium 2. pymysql 3  pyquery 正文 1. 分析目标网站 1. 打开某宝首页, 输入"男装"后点击"搜索", 则跳转到"男装"的搜索界面. 2. 空白处"右击"再点击"检查"审...
    99+
    2023-01-30
    爬虫 男装 项目
  • Python爬虫项目--爬取链家热门城市
    本次实战是利用爬虫爬取链家的新房(声明: 内容仅用于学习交流, 请勿用作商业用途) win8, python 3.7, pycharm 1. 目标网站分析 通过分析, 找出相关url, 确定请求方式, 是否存在js加密等. 2. 新建...
    99+
    2023-01-30
    爬虫 热门 项目
  • Python趣味爬虫之爬取爱奇艺热门电影
    目录一、首先我们要找到目标二、F12查看网页源代码三、进行代码实现,获取想要资源。四、查看现象一、首先我们要找到目标 找到目标先分析一下网页很幸运这个只有一个网页,不需要翻页。 二...
    99+
    2024-04-02
  • Python爬虫怎么爬取豆瓣影评
    本篇内容主要讲解“Python爬虫怎么爬取豆瓣影评”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Python爬虫怎么爬取豆瓣影评”吧!一、学习开始前需安装模块pip install reques...
    99+
    2023-06-02
  • python爬虫项目(scrapy-re
      爬取目标:房天下全国租房信息网站(起始url:http://zu.fang.com/cities.aspx)   爬取内容:城市;名字;出租方式;价格;户型;面积;地址;交通   反反爬措施:设置随机user-agent、设置请求延...
    99+
    2023-01-30
    爬虫 项目 python
  • Python爬虫爬取爱奇艺电影片库首页的实例代码
    上篇文章给大家介绍了Python爬取爱奇艺电影信息代码实例 感兴趣的朋友点击查看下。 今天给大家介绍Python爬虫爬取爱奇艺电影片库首页,下面是实例代码,参考下: i...
    99+
    2024-04-02
  • python爬虫scrapy项目详解(关
    python爬虫scrapy项目(一)   爬取目标:腾讯招聘网站(起始url:https://hr.tencent.com/position.phpkeywords=&tid=0&start)   爬取内容:职位;职位类...
    99+
    2023-01-30
    爬虫 详解 项目
  • 【Python】爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据
    目录 前言 一、配置环境 1.1、 安装Python 1.2、 安装Requests库和BeautifulSoup库 1.3.、安装Matplotlib 二、登录豆瓣网(重点) 2.1、获取代理 2.2、测试代理ip是否可用 2.3、设置...
    99+
    2023-10-25
    windows python 开发语言 爬虫
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作