基于Python实现最新房价信息的获取

2024-04-02 19:04:59 691人浏览薄情痞子

Python 官方文档：入门教程 => 点击学习

摘要

整个数据获取的信息是通过房源平台获取的，通过下载网页元素并进行数据提取分析完成整个过程导入相关的网页下载、数据解析、数据处理库 from fake_useragent impor

整个数据获取的信息是通过房源平台获取的，通过下载网页元素并进行数据提取分析完成整个过程

导入相关的网页下载、数据解析、数据处理库

from fake_useragent import UserAgent  # 身份信息生成库

from bs4 import BeautifulSoup  # 网页元素解析库
import numpy as np  # 科学计算库
import requests  # 网页下载库
from requests.exceptions import RequestException  # 网络请求异常库
import pandas as pd  # 数据处理库

然后，在开始之前初始化一个身份信息生成的对象，用于后面随机生成网页下载时的身份信息。

user_agent = UserAgent()

编写一个网页下载函数get_html_txt，从相应的url地址下载网页的html文本。

def get_html_txt(url, page_index):
    '''
    获取网页html文本信息
    :param url: 爬取地址
    :param page_index:当前页数
    :return:
    '''
    try:
        headers = {
            'user-agent': user_agent.random
        }
        response = requests.request("GET", url, headers=headers, timeout=10)
        html_txt = response.text
        return html_txt
    except RequestException as e:
        print('获取第{0}页网页元素失败！'.fORMat(page_index))
        return ''

编写网页元素处理函数catch_html_data，用于解析网页元素，并将解析后的数据元素保存到csv文件中。

def catch_html_data(url, page_index):
    '''
    处理网页元素数据
    :param url: 爬虫地址
    :param page_index:
    :return:
    '''

    # 下载网页元素
    html_txt = str(get_html_txt(url, page_index))

    if html_txt.strip() != '':

        # 初始化网页元素对象
        beautifulSoup = BeautifulSoup(html_txt, 'lxml')

        # 解析房源列表
        h_list = beautifulSoup.select('.resblock-list-wrapper li')

        # 遍历当前房源的详细信息
        for n in range(len(h_list)):
            h_detail = h_list[n]

            # 提取房源名称
            h_detail_name = h_detail.select('.resblock-name a.name')
            h_detail_name = [m.get_text() for m in h_detail_name]
            h_detail_name = ' '.join(map(str, h_detail_name))

            # 提取房源类型
            h_detail_type = h_detail.select('.resblock-name span.resblock-type')
            h_detail_type = [m.get_text() for m in h_detail_type]
            h_detail_type = ' '.join(map(str, h_detail_type))

            # 提取房源销售状态
            h_detail_status = h_detail.select('.resblock-name span.sale-status')
            h_detail_status = [m.get_text() for m in h_detail_status]
            h_detail_status = ' '.join(map(str, h_detail_status))

            # 提取房源单价信息
            h_detail_price = h_detail.select('.resblock-price .main-price .number')
            h_detail_price = [m.get_text() for m in h_detail_price]
            h_detail_price = ' '.join(map(str, h_detail_price))

            # 提取房源总价信息
            h_detail_total_price = h_detail.select('.resblock-price .second')
            h_detail_total_price = [m.get_text() for m in h_detail_total_price]
            h_detail_total_price = ' '.join(map(str, h_detail_total_price))

            h_info = [h_detail_name, h_detail_type, h_detail_status, h_detail_price, h_detail_total_price]
            h_info = np.array(h_info)
            h_info = h_info.reshape(-1, 5)
            h_info = pd.DataFrame(h_info, columns=['房源名称', '房源类型', '房源状态', '房源均价', '房源总价'])
            h_info.to_csv('北京房源信息.csv', mode='a+', index=False, header=False)

        print('第{0}页房源信息数据存储成功！'.format(page_index))
    else:
        print('网页元素解析失败！')

编写多线程处理函数，初始化网络网页下载地址，并使用多线程启动调用业务处理函数catch_html_data，启动线程完成整个业务流程。

import threading  # 导入线程处理模块


def thread_catch():
    '''
    线程处理函数
    :return:
    '''
    for num in range(1, 50, 3):
        url_pre = "https://bj.fang.lianjia.com/loupan/pg{0}/".format(str(num))
        url_cur = "Https://bj.fang.lianjia.com/loupan/pg{0}/".format(str(num + 1))
        url_aft = "https://bj.fang.lianjia.com/loupan/pg{0}/".format(str(num + 2))

        thread_pre = threading.Thread(target=catch_html_data, args=(url_pre, num))
        thread_cur = threading.Thread(target=catch_html_data, args=(url_cur, num + 1))
        thread_aft = threading.Thread(target=catch_html_data, args=(url_aft, num + 2))
        thread_pre.start()
        thread_cur.start()
        thread_aft.start()


thread_catch()

数据存储结果展示效果

以上就是基于python实现最新房价信息的获取的详细内容，更多关于Python获取房价信息的资料请关注编程网其它相关文章！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 基于Python实现最新房价信息的获取

本文链接: https://www.lsjlt.com/news/117380.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

基于Python实现最新房价信息的获取

整个数据获取的信息是通过房源平台获取的，通过下载网页元素并进行数据提取分析完成整个过程导入相关的网页下载、数据解析、数据处理库 from fake_useragent impor...

99+

2024-04-02
基于Python实现快递信息提取

目录前言一、思路二、解决方案三、小小花絮四、总结前言前几天在Python交流群里边，有个叫【^-^】的粉丝分享了一道Python基础的题目，跟快递信息有关的，题目如下：现在想要...

99+

2024-04-02
Python 基于Selenium实现动态网页信息的爬取

目录一、Selenium介绍与配置1.Selenium简介2. Selenium+Python环境配置二、网页自动化测试1.启动浏览器并打开百度搜索2.定位元素三、爬取动态网页的名人...

99+

2024-04-02
基于Python获取亚马逊的评论信息的处理

目录一、分析亚马逊的评论请求二、获取亚马逊评论的内容三、亚马逊评论信息的处理四、代码整合4.1 代理设置4.2 while循环翻页总结上次亚马逊的商品信息都获取到了，自然要看一下评论...

99+

2024-04-02
Python实现爬取房源信息的示例详解

目录前言分析页面，寻找切入点爬取数据整理数据，导出文件前言最近由于工作突然变动，新的办公地点离现在的住处很远，必须要换房子租了。我坐上中介的小电驴，开始探索城市各处的陌生角落。 ...

99+

2024-04-02
Python基于Selenium怎么实现动态网页信息的爬取

这篇文章主要介绍“Python基于Selenium怎么实现动态网页信息的爬取”，在日常操作中，相信很多人在Python基于Selenium怎么实现动态网页信息的爬取问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答...

99+

2023-06-22
python实现对svn操作及信息获取

目录一、实现效果二、完整代码三、结果展示、代码解析1、上述代码最终会有两个输出展示2、代码解析一、实现效果 1、通过python获取路径下所有文件的svn状态 2、通过python对...

99+

2024-04-02
Golang获取系统信息的实现

目录问题提出golang 的编译选项获取系统信息本文介绍获取系统信息的方法，另外给出根据不同系统编译的方法。问题提出由于多年来接触了不同系统的兼容工程，对使用宏区分不同的代码一直...

99+

2024-04-02
Python实现获取照片的地理定位信息

目录一、步骤二、源代码三、代码说明四、报错1五、解决方法1六、报错2七、解决方法2八、效果如下所示九、验证效果如下一、步骤要从 JPEG 图像中获取经纬度信息，可以使用 Pytho...

99+

2023-05-19

Python获取照片地理定位信息 Python获取照片定位 Python照片信息
利用Python实现获取照片位置信息

目录引言一、exifread函数库安装exrfread库（PyCharm）什么是exifread函数库二、获取女朋友发来的照片（单身勿扰）三、具体代码实现四、经纬度转换引言通过一张...

99+

2024-04-02
python自动获取微信公众号最新文章的实现代码

目录微信公众号获取思路采集实例微信公众号获取思路常用的微信公众号文章获取方法有搜狐、微信公众号主页获取和api接口等多个方法。听说搜狐最近不怎么好用了，之前用的api接口也频繁维护...

99+

2024-04-02
基于Python实现文章信息统计的小工具

目录前言程序主程序 main.py爬虫模块 spider.py持久化模块 store.py执行结果前言博客园在个人首页有一个简单的博客数据统计，以博客园官方的首页为例：但是这些...

99+

2023-02-14

Python文章信息统计工具 Python信息统计工具 Python信息统计
C++使用windwos api实现获取计算机基本信息

目录一、windwos系统包含的基本信息二、获取信息的方法（附代码）三、获取windwos电源信息四、总结一、windwos系统包含的基本信息 Windows 计算机的基本信息包括以...

99+

2023-05-17

C++获取计算机基本信息 C++获取计算机信息 C++ 计算机信息
Python利用多线程枚举实现获取wifi信息

由于是通过枚举字典的方式来实现的，因此在开始之前我们需要先构建好密码字典。通过对密码字典挨个进行试错的方式获取正确wifi名称和密码，此内容只可以用于知识讲解不允许任何商业用途使用...

99+

2022-12-14

Python获取wifi信息 Python wifi信息 Python wifi
基于Python实现简易学生信息管理系统

目录一、系统简介二、步骤分析三、需求实现四、具体实现4.1 添加学生信息的函数4.2 删除学生信息的函数4.3 修改学生信息的函数4.4 查询学生信息的函数4.5 显示所有学生信息五...

99+

2024-04-02
SpringSecurity获取用户认证信息的实现流程

目录登录用户数据获取SecurityContextHolderSecurityContextHolderStrategy多线程情况下获取用户数据页面上获取用户信息登录用户数据获取 S...

99+

2022-12-27

Spring Security获取用户认证信息 Spring获取认证信息
Python利用psutil实现获取硬件,网络和进程信息

目录楔子CPU 相关内存相关磁盘相关网络相关进程管理进程管理操作楔子 Python 有一个第三方模块叫 psutil，专门用来获取操作系统以及硬件相关的信息，比如：CPU、磁盘、网络...

99+

2024-04-02
利用Qt实现获取计算机的硬件信息

获取的计算机信息包括: 1.计算机的名称 2.所有的IP地址 3.计算机的当前时间 4.CPU型号 5.显卡型号(win10不兼容) 6.内存大小 7.CPU的核数 10.获得显卡的...

99+

2022-12-09

Qt获取计算机硬件信息 Qt 计算机硬件信息 Qt 计算机信息
C/C++关于实现CAN信号的获取方法

目录CAN基础知识CAN 信号C语言涉及到知识CAN基础知识标准的CAN 数据为8字节，即64位，但是CAN FD的最大数据可为64字节，为512位，其中的帧ID分为标准帧和扩展帧...

99+

2023-02-03

C++ CAN信号 C++ CAN信号获取 C语言CAN信号
基于Python的电影票房爬取与可视化系统的设计与实现

博主介绍：✌全网粉丝30W+,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联...

99+

2023-08-31

python django 电影票房爬取数据可视化前沿技术