Python抓取电影天堂电影信息的代码

电影代码天堂 2022-06-04 19:06:39 847人浏览安东尼

Python 官方文档：入门教程 => 点击学习

摘要

python2.7Mac OS 抓取的是电影天堂里面最新电影的页面。链接地址： Http://www.dytt8.net/html/gndy/dyzz/index.html 获取页面的中电影详情页链接

python2.7Mac OS

抓取的是电影天堂里面最新电影的页面。链接地址： Http://www.dytt8.net/html/gndy/dyzz/index.html

获取页面的中电影详情页链接


import urllib2
import os
import re
import string


# 电影URL集合
movieUrls = []


# 获取电影列表
def queryMovieList():

 url = 'http://www.dytt8.net/html/gndy/dyzz/index.html' 
 conent = urllib2.urlopen(url)
 conent = conent.read()
 conent = conent.decode('gb2312','ignore').encode('utf-8','ignore') 
 pattern = re.compile ('<div class="title_all"><h1><font color=#008800>.*?</a>></font></h1></div>'+
      '(.*?)<td height="25" align="center" bGColor="#F4FAE2"> ',re.S)
 items = re.findall(pattern,conent) 
 
 str = ''.join(items)
 pattern = re.compile ('<a href="(.*?)" class="ulink">(.*?)</a>.*?<td colspan.*?>(.*?)</td>',re.S)
 news = re.findall(pattern, str)

 for j in news:
  
  	movieUrls.append('http://www.dytt8.net'+j[0])

抓取详情页中的电影数据


def queryMovieInfo(movieUrls):

 for index, item in enumerate(movieUrls):

 print('电影URL: ' + item)

 conent = urllib2.urlopen(item)
 conent = conent.read()
 conent = conent.decode('gb2312','ignore').encode('utf-8','ignore') 


 movieName = re.findall(r'<div class="title_all"><h1><font color=#07519a>(.*?)</font></h1></div>', conent, re.S)
 if (len(movieName) > 0):
  movieName = movieName[0] + ""
  # 截取名称
  movieName = movieName[movieName.find("《") + 3:movieName.find("》")]
 else:
  movieName = ""

 print("电影名称: " + movieName.strip())

 movieContent = re.findall(r'<div class="co_content8">(.*?)</tbody>',conent , re.S)


 pattern = re.compile('<ul>(.*?)<tr>', re.S)
 movieDate = re.findall(pattern,movieContent[0])

 if (len(movieDate) > 0):
  movieDate = movieDate[0].strip() + ''
 else:
  movieDate = ""

 print("电影发布时间: " + movieDate[-10:])

 pattern = re.compile('<br /><br />(.*?)<br /><br /><img')
 movieInfo = re.findall(pattern, movieContent[0])

 if (len(movieInfo) > 0):
  movieInfo = movieInfo[0]+''

  # 删除<br />标签
  movieInfo = movieInfo.replace("<br />","")

  # 根据 ◎ 符号拆分

  movieInfo = movieInfo.split('◎')

 else:
  movieInfo = ""

 print("电影基础信息: ")

 for item in movieInfo:
  print(item)


 # 电影海报
 pattern = re.compile('<img.*? src="(.*?)".*? />', re.S)		
 movieImg = re.findall(pattern,movieContent[0])

 if (len(movieImg) > 0):
  movieImg = movieImg[0]
 else:
  movieImg = ""
 
 print("电影海报: " + movieImg)

 pattern = re.compile('<td style="Word-WRAP: break-word" bgcolor="#fdfddf"><a href="(.*?)">.*?</a></td>', re.S)
 movieDownUrl = re.findall(pattern,movieContent[0])

 if (len(movieDownUrl) > 0):
  movieDownUrl = movieDownUrl[0]
 else:
  movieDownUrl = ""

 print("电影下载地址：" + movieDownUrl + "")

 print("------------------------------------------------nnn")

执行抓取


if __name__=='__main__':

  print("开始抓取电影数据");
 
  queryMovieList()
  print(len(movieUrls))

  queryMovieInfo(movieUrls)
  print("结束抓取电影数据")

总结

学好正则表达式很重要,很重要,很重要!!!! Python的语法好有感觉, 对比Java …

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python抓取电影天堂电影信息的代码

本文链接: https://www.lsjlt.com/news/15083.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

python爬虫抓取电影天堂最新电影

该小脚本实现对电影天堂网站的最新电影查找。from bs4 import BeautifulSoup import urllib import re url= 'http://www.ygdy8.net/html/gndy/dyzz/...

99+

2023-01-31

爬虫最新电影天堂
Python爬虫实现抓取电影网站信息并入库

目录一.环境搭建1.下载安装包2.修改环境变量3.安装依赖模块二.代码开发三.运行测试1.新建电影信息表2.代码运行四.问题排查和修复1.空白字符报错2.请求报错一.环境搭建 1.下...

99+

2024-04-02
爬取豆瓣电影信息

昨天写了一个小爬虫，爬取了豆瓣上2017年中国大陆的电影信息，网址为豆瓣选影视，爬取了电影的名称、导演、编剧、主演、类型、上映时间、片长、评分和链接，并保存到MongoDB中。一开始用的本机的IP地址，没用代理IP，请求了十几个网页之后...

99+

2023-01-30

豆瓣电影信息
转载—Python抓取豆瓣电影

#!/usr/bin/python # -*-coding:utf-8-*- # Python: 2.7 # Program: 爬取豆瓣电影 from bs4 import BeautifulSoup import urllib2...

99+

2023-01-31

豆瓣电影 Python
用Python爬取2022春节档电影信息

目录前提条件相关介绍实验环境具体步骤目标网站分析网站代码实现输出结果总结前提条件熟悉HTML基础语句熟悉Xpath基础语句相关介绍 Python是一种跨平台的计算机程序设计语言...

99+

2024-04-02
Python实现抓取腾讯视频所有电影的示例代码

目录运行环境实现目的与思路目的思路完整代码视频缓存ts文件实现效果运行环境 IDE丨pycharm版本丨Python3.6系统丨Windows 实现目的与思路目的实现对腾讯视频目...

99+

2024-04-02
如何使用Python爬虫实现抓取电影网站信息并入库

这篇文章主要介绍如何使用Python爬虫实现抓取电影网站信息并入库，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！一.环境搭建1.下载安装包访问 Python官网下载地址：https://www.python.org/...

99+

2023-06-29
c#如何爬取优酷电影信息

这篇文章将为大家详细讲解有关c#如何爬取优酷电影信息，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。爬虫步骤加载页面解析数据保存数据继第一篇文档后的爬虫进阶，本文章主要是对上一篇的进阶。实现的功能主要为：1...

99+

2023-06-06
怎么用Python爬取2022春节档电影信息

这篇文章将为大家详细讲解有关怎么用Python爬取2022春节档电影信息，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。实验环境Python 3.x （面向对象的高级语言）Resquest 2.14.2 （...

99+

2023-06-29
Python 通过xpath属性爬取豆瓣热映的电影信息

目录前言页面分析实现过程创建项目Item定义中间件操作定义爬虫定义数据管道定义配置设置执行验证总结前言声明一下：本文主要是研究使用，没有别的用途。 GitHub仓库地址：githu...

99+

2024-04-02
Python获取时光网电影数据的实例代码

目录一、前言二、准备2.1 安装库2.2 原理介绍三、实例3.1 完整代码一、前言有时候觉得电影真是人类有史以来最伟大的发明，我喜欢看电影，看电影可以让我们增长见闻，学习知识。从某...

99+

2024-04-02
Python怎么实现抓取腾讯视频所有电影

这篇文章主要介绍“Python怎么实现抓取腾讯视频所有电影”，在日常操作中，相信很多人在Python怎么实现抓取腾讯视频所有电影问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”Python怎么实现抓取腾讯视频所...

99+

2023-06-30
Python爬取用户观影数据并分析用户与电影之间的隐藏信息!

一、前言二、爬取观影数据 https://movie.douban.com/ 在『豆瓣』平台爬取用户观影数据。爬取用户列表网页分析为了获取用户，我选择了其中一部...

99+

2024-04-02
Python爬虫实现热门电影信息采集

目录一、前言二、前期准备1、使用的软件2、需要用的模块3、模块安装问题4、如何配置pycharm里面的python解释器?5、pycharm如何安装插件?三、思路1、...

99+

2024-04-02
Python如何通过xpath属性爬取豆瓣热映的电影信息

本篇文章给大家分享的是有关Python如何通过xpath属性爬取豆瓣热映的电影信息，小编觉得挺实用的，因此分享给大家学习，希望大家阅读完这篇文章后可以有所收获，话不多说，跟着小编一起来看看吧。前言声明一下：本文主要是研究使用，没有别的用途。...

99+

2023-06-25
python爬取豆瓣top250的电影数

爬取网址: https://movie.douban.com/top250 一:爬取思路(新手可以看一下) :　　　　　　1:定义两个函数,一个get_page函数爬取数据,一个save函数保存数据,mian中向get_page函数传递...

99+

2023-01-31

豆瓣电影 python
(附源码)python电影院信息管理系统毕业设计 021844

电影院信息管理系统的设计与实现摘要在信息飞速发展的今天，网络已成为人们重要的信息交流平台。电影院每天都有大量的信息需要通过网络发布，为此，本人开发了一个基于B/S（浏览器/服务器）模式的电影院信息管理系统。该系统以Pyth...

99+

2023-09-15

python html php java spring boot
Python爬虫怎么实现热门电影信息采集

这篇文章主要介绍“Python爬虫怎么实现热门电影信息采集”，在日常操作中，相信很多人在Python爬虫怎么实现热门电影信息采集问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”Python爬虫怎么实现热门电影信...

99+

2023-06-21
基于PHP的动漫电影信息管理系统

有需要请私信或看评论链接哦可远程调试基于PHP的动漫电影管理系统一介绍此动漫电影信息管理系统基于原生PHP开发，数据库mysql，前端bootstrap。系统角色分为用户和管理...

99+

2023-09-11

php动漫电影管理系统 php动漫视频 php动漫网
Python爬虫爬取爱奇艺电影片库首页的实例代码

上篇文章给大家介绍了Python爬取爱奇艺电影信息代码实例感兴趣的朋友点击查看下。今天给大家介绍Python爬虫爬取爱奇艺电影片库首页，下面是实例代码，参考下： i...

99+

2024-04-02