iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >python批量抓取的方法
  • 781
分享到

python批量抓取的方法

2024-04-02 19:04:59 781人浏览 泡泡鱼

Python 官方文档:入门教程 => 点击学习

摘要

今天小编给大家分享一下python批量抓取的方法的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下

今天小编给大家分享一下python批量抓取的方法的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。

其中用到urllib2模块和正则表达式模块。下面直接上代码:

 1 用Python批量抓取

 2  

 3 #!/usr/bin/env python

 4 #-*- coding: utf-8 -*-

 5 #通过urllib(2)模块下载网络内容

 6 import urllib,urllib2,gevent

 7 #引入正则表达式模块,时间模块

 8 import re,time

 9 from gevent import monkey

15 monkey.patch_all()

16  

17 def geturllist(url):

18     url_list=[]

19     print url       

20     s = urllib2.urlopen(url)

21     text = s.read()

22     #正则匹配,匹配其中的图片

23     html = re.search(r'<ol.*</ol>', text, re.S)

24     urls = re.finditer(r'<p><img src="(.+?)jpg" /></p>',html.group(),re.I)

25     for i in urls:

26         url=i.group(1).strip()+str("jpg")

27         url_list.append(url)

28     return url_list

29  

30 def download(down_url):

31     name=str(time.time())[:-3]+"_"+re.sub('.+?/','',down_url)

32     print name

33     urllib.urlretrieve(down_url, "D:\\TEMP\\"+name)

34  

35 def getpageurl():

36     page_list = []

37     #进行列表页循环

38     for page in range(1,700):

39         url="Http://jandan.net/ooxx/page-"+str(page)+"#comments"

40         #把生成的url加入到page_list中

41         page_list.append(url)

42     print page_list

43     return page_list

44 if __name__ == '__main__':

45     jobs = []

46     pageurl = getpageurl()[::-1]

47     #进行图片下载

48     for i in pageurl:

49         for (downurl) in geturllist(i):

50             jobs.append(gevent.spawn(download, downurl))

51     gevent.joinall(jobs)

以上就是“python批量抓取的方法”这篇文章的所有内容,感谢各位的阅读!相信大家阅读完这篇文章都有很大的收获,小编每天都会为大家更新不同的知识,如果还想学习更多的知识,请关注编程网Python频道。

--结束END--

本文标题: python批量抓取的方法

本文链接: https://www.lsjlt.com/news/91068.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • python批量抓取的方法
    今天小编给大家分享一下python批量抓取的方法的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下...
    99+
    2024-04-02
  • python批量读取图片的方法是什么
    Python中批量读取图片的方法可以使用PIL库(Python Imaging Library)或OpenCV库来实现。以下是两种常...
    99+
    2024-02-29
    python
  • Hibernate使用批量抓取技巧有哪些
    小编给大家分享一下Hibernate使用批量抓取技巧有哪些,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!Hibernate批量抓取是延迟查询抓取的优化方案,你可以...
    99+
    2023-06-17
  • 批量获取phpMyAdmin信息的方法
    这篇文章主要介绍批量获取phpMyAdmin信息的方法,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!by antian365 simeon 在前面的专题中介绍了phpMyAdmin暴...
    99+
    2024-04-02
  • 使用python抓取B站数据的方法
    这篇文章给大家分享的是有关使用python抓取B站数据的方法的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。概述可以获取的数据包括:video-视频模块user-用户模块dynamic-动态模块这次用“Runnin...
    99+
    2023-06-15
  • python自动抓取网页的方法是什么
    Python有多种方法可以自动抓取网页,以下是其中常用的几种方法:1. 使用第三方库requests:使用requests库可以发送...
    99+
    2023-09-15
    python
  • robots禁止抓取php的方法
    这篇文章将为大家详细讲解有关robots禁止抓取php的方法,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。robots禁止抓取php的方法:1、在robots.txt文件里写入“Disallow: /**...
    99+
    2023-06-08
  • redis批量获取key的方法是什么
    Redis没有提供原生的批量获取key的方法。但是可以使用MGET命令来批量获取多个key的值,然后根据返回的结果来获取对应的key...
    99+
    2024-04-09
    redis
  • python批量爬取文档
      最近项目需要将批量链接中的pdf文档爬下来处理,根据以下步骤完成了任务: 将批量下载链接copy到text中,每行1个链接; 再读txt文档构造url_list列表,利用readlines返回以行为单位的列表; 利用str的rstr...
    99+
    2023-01-30
    批量 文档 python
  • redis批量获取数据的方法是什么
    Redis提供了多种批量获取数据的方法,下面列举几种常用的方法: MGET命令:用于获取多个键的值。可以传入多个键作为参数,返回...
    99+
    2023-10-27
    redis
  • python-爬虫-xpath方法-批量爬取王者皮肤图片
    import requestsfrom lxml import etree 获取NBA成员信息 # 发送的地址url = 'https://nba.hupu.com/stats/players'# U...
    99+
    2023-09-13
    python 爬虫 jupyter
  • python之批量读取文件
    python的os模块可以实现普遍的操作系统功能,并且和平台无关。以下为实现根目录下文件的批量读取。 os.listdir(dirname)可以列出dirname下的目录和文件,依次读取相应的文件即可。 # -*- coding...
    99+
    2023-01-31
    批量 文件 python
  • python抓取网页内容并保存的方法是什么
    在Python中,可以使用requests库来抓取网页内容,并使用文件操作来保存抓取到的内容。下面是一个示例代码: import r...
    99+
    2024-03-04
    python
  • Python读取大量Excel文件并跨文件批量计算平均值的方法
    本文介绍基于Python语言,实现对多个不同Excel文件进行数据读取与平均值计算的方法~ 编程网推荐学习python书籍   首先,让我们来看一下具体需求:目...
    99+
    2023-02-02
    Python读取大量Excel文件 python批量读取Excel文件 python读取Excel文件
  • Python 批量操作设备的实现方法
    这篇文章主要讲解了“Python 批量操作设备的实现方法”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Python 批量操作设备的实现方法”吧!目录背景需求- 方案一- 方案二方案三准备工作...
    99+
    2023-06-20
  • python批量下载文件的方法是什么
    在Python中,可以使用requests库来批量下载文件。以下是一个简单的示例代码: import requests file_...
    99+
    2024-04-02
  • 使用python批量生成insert语句的方法
    1.建表语句 2.目标insert语句 INSERT INTO `bidprcu_dic_a`( `DIC_ID`, `DIC_TYPE_CODE`, `DIC_TYP...
    99+
    2024-04-02
  • python怎么批量读取文件名
    在Python中,可以使用os模块来批量读取文件名。具体步骤如下: 导入os模块:import os 使用os.listdir()...
    99+
    2024-02-29
    python
  • python怎么批量读取dat文件
    你可以使用glob模块来批量读取.dat文件。下面是一个示例代码: import glob file_list = glob.gl...
    99+
    2024-02-29
    python
  • mysql批量insert数据的方法
    这篇文章主要介绍了mysql批量insert数据的方法,具有一定借鉴价值,需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获。下面让小编带着大家一起了解一下。mysql批量insert数据的方法:1、循...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作