iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python简单爬虫
  • 739
分享到

Python简单爬虫

爬虫简单Python 2023-01-31 07:01:30 739人浏览 薄情痞子

Python 官方文档:入门教程 => 点击学习

摘要

爬取链家二手房源信息import requests import re from bs4 import BeautifulSoup import csv url = ['https://cq.lianjia.com/ershoufang/

爬取链家二手房源信息


import requests
import re
from bs4 import BeautifulSoup
import csv

url = ['https://cq.lianjia.com/ershoufang/']
for i in range(2,101):
    url.append('Https://cq.lianjia.com/ershoufang/pg%s/'%(str(i)))

 # 模拟谷歌浏览器
headers = {'User-Agent': 'Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWEBKit/537.36 (Khtml, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}

for u in url:
    r = requests.get(u,headers=headers)
    soup = BeautifulSoup(r.text,'lxml').find_all('li', class_='clear LOGCLICKDATA')
    for i in  soup:
        ns = i.select('div[class="positionInfo"]')[0].get_text() 
        region = ns.split('-')[1].replace(' ','').encode('gbk')
        rem = ns.split('-')[0].replace(' ','').encode('gbk')
        ns =  i.select('div[class="houseInfo"]')[0].get_text()
        xiaoqu_name = ns.split('|')[0].replace(' ','').encode('gbk')
        huxing = ns.split('|')[1].replace(' ','').encode('gbk')
        pingfang = ns.split('|')[2].replace(' ','').encode('gbk')
        chaoxiang = ns.split('|')[3].replace(' ','').encode('gbk')
        zhuangxiu =  ns.split('|')[4].replace(' ','').encode('gbk')
        danjia =  re.findall("\d+",i.select('div[class="unitPrice"]')[0].string)[0]
        zongjia = i.select('div[class="totalPrice"]')[0].get_text().encode('gbk')
        out=open("/data/data.csv",'a')
        csv_write=csv.writer(out)
        data = [region,xiaoqu_name,rem,huxing,pingfang,chaoxiang,zhuangxiu,danjia,zongjia]
        csv_write.writerow(data)
        out.close()


数据结果

image.png


--结束END--

本文标题: Python简单爬虫

本文链接: http://www.lsjlt.com/news/191823.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Python简单爬虫
    爬取链家二手房源信息import requests import re from bs4 import BeautifulSoup import csv url = ['https://cq.lianjia.com/ershoufang/...
    99+
    2023-01-31
    爬虫 简单 Python
  • python简单爬虫笔记
    python模拟游览器爬取相关页面 import urllib.request url="https://blog.51cto.com/itstyle/2146899" #模拟浏览器 headers=("User-Agent","Moz...
    99+
    2023-01-31
    爬虫 简单 笔记
  • Python 简单业务爬虫
    如何快速下载贴吧图片呢?#!/usr/bin/python # -*- coding: UTF-8 -*- import urllib import re def getHtml(url):     page = urllib.urlop...
    99+
    2023-01-31
    爬虫 简单 业务
  • python实现简单爬虫--爬图片
    首先有两个功能需求:第一:获取到要爬的页面html内容;第二:使用正则表达式进行匹配并进行保存到本地。#!/usr/bin/env python #encoding:utf-8 import urllib import re def get...
    99+
    2023-01-31
    爬虫 简单 图片
  • 一个简单的python爬虫,爬取知乎
    一个简单的python爬虫,爬取知乎主要实现 爬取一个收藏夹 里 所有问题答案下的 图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码:# -*- coding:utf-8 ...
    99+
    2023-06-02
  • python爬虫之pyppeteer库简单使用
    pyppeteer 介绍Pyppeteer之前先说一下Puppeteer,Puppeteer是谷歌出品的一款基于Node.js开发的一款工具,主要是用来操纵Chrome浏览器的 AP...
    99+
    2024-04-02
  • python - 爬虫简介
    什么是爬虫? 模拟浏览器对网站服务器发送请求解析服务器返回的响应数据,并保存数据 爬虫能获取哪些数据? 原则上所有可以通过浏览器获取的数据都可以爬取爬虫也只能获取爬取浏览器可以正常获取的数据 爬虫的应用场景? 数据分析 (如电影票房、股票信...
    99+
    2023-09-10
    爬虫
  • python简单爬虫--get方式详解
    目录环境准备进行爬虫参考总结简单爬虫可以划分为get、post格式。其中,get是单方面的获取资源,而post存在交互,如翻译中需要文字输入。本文主要描述简单的get爬虫。 环境准备...
    99+
    2024-04-02
  • python爬虫-简单使用xpath下载
      首先 1.为方便以下进行       谷歌浏览器里要安装xpath脚本  2.下载一个lmxl     命令:pip install lxml 3. 以下三张图是一个,当时爬的 《糗事百科》里的图片   值的注意的是:在爬取接口时,要...
    99+
    2023-01-30
    爬虫 简单 python
  • Python 简单爬虫抓取糗事百科
        该爬虫主要实现的功能是抓取糗事百科里面的一些段子。    urllib2可以用urllib2.openurl中设置Request参数,来修改Header头。如果你访问一个网站,想更改User Agent(可以伪装你的浏览器),你就要...
    99+
    2023-01-31
    爬虫 糗事 百科
  • python爬虫入门教程(非常详细),超级简单的Python爬虫教程
    一、基础入门 1.1什么是爬虫 爬虫(spider,又网络爬虫),是指向网站/网络发起请求,获取资源后分析并提取有用数据的程序。 从技术层面来说就是 通过程序模拟浏览器请求站点的行为,把站点返回的HT...
    99+
    2023-09-01
    python 爬虫 python爬虫 爬虫入门 python零基础
  • 使用python编写简单网络爬虫(一)
          总算有时间动手用所学的python知识编写一个简单的网络爬虫了,这个例子主要实现用python爬虫从百度图库中下载美女的图片,并保存在本地,闲话少说,直接贴出相应的代码如下:---------------------------...
    99+
    2023-01-31
    爬虫 简单 网络
  • 使用Python实现简单的爬虫框架
    目录一、请求网页二、解析 HTML三、构建爬虫框架爬虫是一种自动获取网页内容的程序,它可以帮助我们从网络上快速收集大量信息。在本文中,我们将学习如何使用 Python 编写一个简单的...
    99+
    2023-05-19
    Python如何实现爬虫框架 Python爬虫框架 Python爬虫
  • python下的爬虫简介
    今天看了一本书的介绍《python网络爬虫实战》,里面介绍了四种框架(or模块),我做了小结如下:scrapy     基本常用的框架,只要根据固定模版,编写即可,自己主要编写解析的选择器,和解析出来的数据处理。特别适合静态页面的,比如新闻...
    99+
    2023-01-31
    爬虫 简介 python
  • 关于python简单的爬虫操作(requests和etree)
    虎扑体育-NBA球员得分数据排行 第1页  示例代码: import requests from lxml import etree url = 'https://n...
    99+
    2023-05-16
    python爬虫 爬虫操作requests 爬虫etree
  • Python如何写出最简单的网页爬虫
    Python如何写出最简单的网页爬虫,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。最近对python爬虫有了强烈地兴趣,在此分享自己的学习路径。1.开发工具笔者使用的工具是...
    99+
    2023-06-17
  • Python爬虫框架Scrapy简介
    在爬虫的路上,学习scrapy是一个必不可少的环节。也许有好多朋友此时此刻也正在接触并学习scrapy,那么很好,我们一起学习。开始接触scrapy的朋友可能会有些疑惑,毕竟是一个框...
    99+
    2024-04-02
  • java 爬虫详解及简单实例
    Java爬虫一、代码爬虫的实质就是打开网页源代码进行匹配查找,然后获取查找到的结果。打开网页:URL url = new URL(http://www.cnblogs.com/Renyi-Fan/p/6896901.html);...
    99+
    2023-05-31
    java 爬虫 ava
  • python爬虫简单的添加代理进行访问
    在使用python对网页进行多次快速爬取的时候,访问次数过于频繁,服务器不会考虑User-Agent的信息,会直接把你视为爬虫,从而过滤掉,拒绝你的访问,在这种时候就需要设置代理,我们可以给proxies属性设置一个代理的IP地址,代码如...
    99+
    2023-01-30
    爬虫 简单 python
  • PHP实现简单爬虫的方法
    PHP实现简单爬虫的方法,php实现爬虫 本文实例讲述了PHP实现简单爬虫的方法。分享给大家供大家参考。具体如下: ...
    99+
    2023-09-08
    php 爬虫 开发语言
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作