python爬虫项目(scrapy-re

爬虫项目 python 2023-01-30 23:01:52 886人浏览薄情痞子

Python 官方文档：入门教程 => 点击学习

摘要

　　爬取目标：房天下全国租房信息网站（起始url：Http://zu.fang.com/cities.aspx）　　爬取内容：城市；名字；出租方式；价格；户型；面积；地址；交通　　反反爬措施：设置随机user-agent、设置请求延

　　爬取目标：房天下全国租房信息网站（起始url：Http://zu.fang.com/cities.aspx）

　　爬取内容：城市；名字；出租方式；价格；户型；面积；地址；交通

　　反反爬措施：设置随机user-agent、设置请求延时操作、

1、开始创建项目

1 scrapy startproject fang

2、进入fang文件夹，执行启动spider爬虫文件代码，编写爬虫文件。

1 scrapy genspider zufang "zu.fang.com"

　　命令执行完，用python最好的IDE---PyCharm打开该文件目录

3、编写该目录下的items.py文件，设置你需要爬取的字段。

 1 import scrapy
 2 
 3 
 4 class HomeproItem(scrapy.Item):
 5     # define the fields for your item here like:
 6     # name = scrapy.Field()
 7 
 8     city = scrapy.Field()  #城市
 9     title = scrapy.Field()  # 名字
10     rentway = scrapy.Field()  # 出租方式
11     price = scrapy.Field()    #价格
12     housetype = scrapy.Field()  # 户型
13     area = scrapy.Field()  # 面积
14     address = scrapy.Field()  # 地址
15     traffic = scrapy.Field()  # 交通

4、进入spiders文件夹，打开hr.py文件,开始编写爬虫文件

 1 # -*- coding: utf-8 -*-
 2 import scrapy
 3 from homepro.items import HomeproItem
 4 from scrapy_Redis.spiders import RedisCrawlSpider
 5 # scrapy.Spider
 6 class HomeSpider(RedisCrawlSpider):
 7     name = 'home'
 8     allowed_domains = ['zu.fang.com']
 9     # start_urls = ['http://zu.fang.com/cities.aspx']
10     
11     redis_key = 'homespider:start_urls'
12     def parse(self, response):
13         hrefs = response.xpath('//div[@class="onCont"]/ul/li/a/@href').extract()
14         for href in hrefs:
15             href = 'http:'+ href
16             yield scrapy.Request(url=href,callback=self.parse_city,dont_filter=True)
17 
18 
19     def parse_city(self, response):
20         page_num = response.xpath('//div[@id="rentid_D10_01"]/span[@class="txt"]/text()').extract()[0].strip('共页')
21         # print('*' * 100)
22         # print(page_num)
23         # print(response.url)
24 
25         for page in range(1, int(page_num)):
26             if page == 1:
27                 url = response.url
28             else:
29                 url = response.url + 'house/i%d' % (page + 30)
30             print('*' * 100)
31             print(url)
32             yield scrapy.Request(url=url, callback=self.parse_houseinfo, dont_filter=True)
33 
34     def parse_houseinfo(self, response):
35         divs = response.xpath('//dd[@class="info rel"]')
36         for info in divs:
37             city = info.xpath('//div[@class="guide rel"]/a[2]/text()').extract()[0].rstrip("租房")
38             title = info.xpath('.//p[@class="title"]/a/text()').extract()[0]
39             rentway = info.xpath('.//p[@class="font15 mt12 bold"]/text()')[0].extract().replace(" ", '').lstrip('\r\n')
40             housetype = info.xpath('.//p[@class="font15 mt12 bold"]/text()')[1].extract().replace(" ", '')
41             area = info.xpath('.//p[@class="font15 mt12 bold"]/text()')[2].extract().replace(" ", '')
42             addresses = info.xpath('.//p[@class ="gray6 mt12"]//span/text()').extract()
43             address = '-'.join(i for i in addresses)
44             try:
45                 des = info.xpath('.//p[@class ="mt12"]//span/text()').extract()
46                 traffic = '-'.join(i for i in des)
47             except Exception as e:
48                 traffic = "暂无详细信息"
49 
50             p_name = info.xpath('.//div[@class ="moreInfo"]/p/text()').extract()[0]
51             p_price = info.xpath('.//div[@class ="moreInfo"]/p/span/text()').extract()[0]
52             price = p_price + p_name
53 
54             item = HomeproItem()
55             item['city'] = city
56             item['title'] = title
57             item['rentway'] = rentway
58             item['price'] = price
59             item['housetype'] = housetype
60             item['area'] = area
61             item['address'] = address
62             item['traffic'] = traffic
63             yield item

5、设置setting.py文件，配置scrapy运行的相关内容

 1 # 指定使用scrapy-redis的调度器
 2 SCHEDULER = "scrapy_redis.scheduler.Scheduler"
 3 
 4 # 指定使用scrapy-redis的去重
 5 DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'
 6 
 7 # 指定排序爬取地址时使用的队列，
 8 # 默认的 按优先级排序(Scrapy默认)，由sorted set实现的一种非FIFO、LIFO方式。
 9 SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderPriorityQueue'
10 
11 REDIS_HOST = '10.8.153.73'
12 REDIS_PORT = 6379 
13 # 是否在关闭时候保留原来的调度器和去重记录，True=保留，False=清空
14 SCHEDULER_PERSIST = True

6、然后把代码发给其他附属机器,分别启动.子程序redis链接主服务器redis。

1 redis-cli   -h  主服务器ip

7、主服务器先启动redis-server，再启动redis-cli

1 lpush homespider:start_urls   起始的url

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: python爬虫项目(scrapy-re

本文链接: https://www.lsjlt.com/news/180583.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

python爬虫项目(scrapy-re

　　爬取目标：房天下全国租房信息网站（起始url：http://zu.fang.com/cities.aspx）　　爬取内容：城市；名字；出租方式；价格；户型；面积；地址；交通　　反反爬措施：设置随机user-agent、设置请求延...

99+

2023-01-30

爬虫项目 python
python爬虫scrapy项目详解（关

python爬虫scrapy项目（一）　　爬取目标：腾讯招聘网站（起始url：https://hr.tencent.com/position.phpkeywords=&tid=0&start）　　爬取内容：职位；职位类...

99+

2023-01-30

爬虫详解项目
Python 爬虫—scrapy

scrapy用于从网站中提取所需数据的开源协作框架。以一种快速、简单但可扩展的方式。该爬虫框架适合于那种静态页面， js 加载的话，如果你无法模拟它的 API 请求，可能就需要使用 seleni...

99+

2023-09-06

python 爬虫 scrapy
服务器上部署scrapy爬虫项目

爬爬们，如果你已经开始部署项目了，那么你肯定也已经写好了完整的爬虫项目，恭喜你，你很优秀！**今天忙了小半天的服务器部署，跟大家分享一些心得～首先我们要有一台服务器，不好意思，这是废话，略过。。。。。安装python # 下...

99+

2023-01-31

爬虫器上项目
Python爬虫框架Scrapy 学习

开发环境PyCharm目标网站和上一次一样,可参考：http://dingbo.blog.51cto.com/8808323/1597695 但是这次不是在单个文件中运行，而是创建一个scrapy项目1.使用命令行工具创建scrapy项目的...

99+

2023-01-31

爬虫框架 Python
爬虫——scrapy入门

安装scrapy pip install scrapy windows可能安装失败，需要先安装c++库或twisted，pip install twisted 创建项目 scrapy startproject tuto...

99+

2023-01-30

爬虫入门 scrapy
Python爬虫框架Scrapy简介

在爬虫的路上，学习scrapy是一个必不可少的环节。也许有好多朋友此时此刻也正在接触并学习scrapy，那么很好，我们一起学习。开始接触scrapy的朋友可能会有些疑惑，毕竟是一个框...

99+

2024-04-02
python scrapy项目下spiders内多个爬虫同时运行的实现

一般创建了scrapy文件夹后，可能需要写多个爬虫，如果想让它们同时运行而不是顺次运行的话，得怎么做？ a、在spiders目录的同级目录下创建一个commands目录，并在该目录...

99+

2024-04-02
Python爬虫框架scrapy入门指

想爬点数据来玩玩，我想最方便的工具就是Python scrapy了。这框架把采集需要用到的功能全部封装好了，只要写写采集规则,其他的就交给框架去处理，非常方便，没有之一，不接受反驳。：）网上学习资源非常丰富，我这里介绍下我的学习方法...

99+

2023-01-31

爬虫框架入门
Python爬虫项目--爬取猫眼电影To

本次抓取猫眼电影Top100榜所用到的知识点: 1. python requests库 2. 正则表达式 3. csv模块 4. 多进程正文目标站点分析通过对目标站点的分析, 来确定网页结构, 进一步确定具体的抓取方式. 1. 浏...

99+

2023-01-30

爬虫猫眼项目
Python3 爬虫 scrapy框架

上次用requests写的爬虫速度很感人，今天打算用scrapy框架来实现，看看速度如何。第一步，安装scrapy，执行一下命令 pip install Scrapy 第二步，创建项目，执行一下命令 scrapy startproje...

99+

2023-01-31

爬虫框架 scrapy
爬虫---scrapy爬虫框架（详细+实战）

活动地址：CSDN21天学习挑战赛爬虫---scrapy爬虫框架爬虫---scrapy爬虫框架一、简介1、基本功能2、架构3、scrapy项目的结构二、scrapy环境搭...

99+

2023-10-27

爬虫 scrapy 数据挖掘 python
python爬虫之scrapy框架详解

1.在pycharm下安装scrapy函数库 2.将安装好scrapy函数库下的路径配置到系统path的环境变量中 3.打开cmd终端输入：scrapy.exe检查是否安装成功 ...

99+

2024-04-02
Pycharm安装scrapy及初始化爬虫项目的完整步骤

目录一）安装scrapy：二）创建一个scrapy爬虫项目：三）开启pycharm对scrapy框架的调试功能：总结一）安装scrapy： 1、打开cmd命令窗口，输入：pip in...

99+

2024-04-02
爬虫之scrapy框架

　　一、认识scrapy框架　　何为框架，就相当于一个封装了很多功能的结构体，它帮我们把主要的结构给搭建好了，我们只需往骨架里添加内容就行。scrapy框架是一个为了爬取网站数据，提取数据的框架，我们熟知爬虫总共有四大部分，请求、响应、...

99+

2023-01-30

爬虫框架 scrapy
python爬虫实战项目之爬取pixiv图片

自从接触python以后就想着爬pixiv，之前因为梯子有点问题就一直搁置，最近换了个梯子就迫不及待试了下。爬虫无非request获取html页面然后用正则表达式或者beautif...

99+

2024-04-02
Python爬虫项目--爬取自如网房源信

本次爬取自如网房源信息所用到的知识点: 1. requests get请求 2. lxml解析html 3. Xpath 4. MongoDB存储正文 1.分析目标站点 1. url: http://hz.ziroom.com/z/nl...

99+

2023-01-30

爬虫自如房源
Python爬虫项目--爬取某宝男装信息

本次爬取用到的知识点有: 1. selenium 2. pymysql 3 pyquery 正文 1. 分析目标网站 1. 打开某宝首页, 输入"男装"后点击"搜索", 则跳转到"男装"的搜索界面. 2. 空白处"右击"再点击"检查"审...

99+

2023-01-30

爬虫男装项目
关于Python网络爬虫框架scrapy

目录scrapy爬虫框架介绍scrapy爬虫框架结构“5+2”结构：requests库和scrapy库比较scrapy的常用命令scrapy爬虫框架介绍 sc...

99+

2023-05-17

Python 爬虫 Python 爬虫框架 scrapy框架
开源python网络爬虫框架Scrapy

介绍：所谓网络爬虫，就是一个在网上到处或定向抓取数据的程序，当然，这种说法不够专业，更专业的描述就是，抓取特定网站网页的HTML数据。不过由于一个网站的网页很多，而我们又不可能事先知道所有网页的URL地址，所以，如何保证我们抓取到了网站的所...

99+

2023-01-31

爬虫开源框架