首页 > 资讯 > 数据库 >数据采集实战（一）-

712

分享到

数据采集实战（一）-

数据采集实战（一）- 2017-02-11 10:02:04 712人浏览无得

摘要

概述最近在学习python的各种数据分析库，为了尝试各种库中各种分析算法的效果，陆陆续续爬取了一些真实的数据来。顺便也练习练习爬虫，踩了不少坑，后续将采集的经验逐步分享出来，希望能给后来者一些参考，也希望能够得到先驱者的指点！采集工

数据采集实战（一）-

概述

最近在学习 python的各种数据分析库，为了尝试各种库中各种分析算法的效果，陆陆续续爬取了一些真实的数据来。

顺便也练习练习爬虫，踩了不少坑，后续将采集的经验逐步分享出来，希望能给后来者一些参考，也希望能够得到先驱者的指点！

采集工具

其实基本没用过什么现成的采集工具，都是自己通过编写代码来采集，虽然耗费一些时间，但是感觉灵活度高，可控性强，遇到问题时解决的方法也多。

一般根据网站的情况，如果提供api最好，直接写代码通过访问API来采集数据。
如果没有API，就通过解析页面（html）来获取数据。

本次采集的数据是链家网上的成交数据，因为是学习用，所以不会去大规模的采集，只采集了南京各个区的成交数据。

采集使用puppeteer库，Puppeteer 是一个 node 库，它提供了高级的 API 并通过 DevTools 协议来控制 Chrome(或Chromium)。
通俗来说就是一个 headless chrome 浏览器： https://GitHub.com/puppeteer/puppeteer

通过 puppeteer，可以模拟网页的手工操作方式，也就是说，理论上，能通过浏览器正常访问看到的内容就能采集到。

采集过程

其实数据采集的代码并不复杂，时间主要花在页面的分析上了。

链家网的成交数据不用登录也可以访问，这样就省了很多的事情。
只要找出南京市各个区的成交数据页面的URL，然后访问就行。

页面分析

下面以栖霞区的成交页面为例，分析我们可能需要的数据。

页面URL： Https://nj.lianjia.com/chengjiao/qixia/

根据页面，可以看出重复的主要是红框内的数据，其中销售人员的姓名涉及隐私，我们不去采集。
采集的数据分类为：（有的户型可能没有下面列的那么全，缺少房屋优势字段，甚至成交价格字段等等）

name: 小区名称和房屋概要，比如：新城香悦澜山 3室2厅 87.56平米
houseInfo: 房屋朝向和装修情况，比如：南北 | 精装
dealDate: 成交日期，比如：2021.06.14
totalPrice: 成交价格(单位: 万元)，比如：338万
positionInfo: 楼层等信息，比如：中楼层(共5层) 2002年建塔楼
unitPrice: 成交单价，比如：38603元/平
advantage: 房屋优势，比如：房屋满五年
listPrice: 挂牌价格，比如：挂牌341万
dealCycleDays: 成交周期，比如：成交周期44天

核心代码

链家网上采集房产成交数据很简单，我在采集过程中遇到的唯一的限制就是根据检索条件，只返回100页的数据，每页30条。
也就是说，不管什么检索条件，链家网只返回前3000条数据。
可能这也是链家网控制服务器访问压力的一个方式，毕竟如果是正常用户访问的话，一般也不会看3000条那么多，返回100页数据绰绰有余。

为了获取想要的数据，只能自己设计下检索条件，保证每个检索条件下的数据不超过3000条，最后自己合并左右的采集结果，去除重复数据。

这里，只演示如何采集数据，具体检索条件的设计，有兴趣根据自己需要的数据尝试下即可，没有统一的方法。

通过puppeteer采集数据，主要步骤很简单：

启动浏览器，打开页面
解析当前页面，获取需要的数据（也就是上面列出的9个字段的数据）
进入下一页
如果是最后一页，则退出程序
如果不是最后一页，进入步骤2

初始化并启动页面

import puppeteer from "puppeteer";

(async () => {
  // 启动页面，得到页面对象
  const page = await startPage();
})();

// 初始化浏览器
const initBrowser = async () => {
  const browser = await puppeteer.launch({
    args: ["--no-sandbox", "--start-maximized"],
    headless: false,
    userDataDir: "./user_data",
    ignoreDefaultArgs: ["--enable-automation"],
    executablePath:
      "C:\Program Files\Google\Chrome\Application\chrome.exe",
  });

  return browser;
};

// 启动页面
const startPage = async (browser) => {
  const page = await browser.newPage();
  await page.setViewport({ width: 1920, height: 1080 });

  return page;
};

采集数据

import puppeteer from "puppeteer";

(async () => {
  // 启动页面，得到页面对象
  const page = await startPage();
  
  // 采集数据
  await nanJin(page);
})();

const mapAreaPageSize = [
  // { url: "https://nj.lianjia.com/chengjiao/gulou", name: "gulou", size: 2 }, // 测试用
  { url: "https://nj.lianjia.com/chengjiao/gulou", name: "gulou", size: 30 },
  { url: "https://nj.lianjia.com/chengjiao/jianye", name: "jianye", size: 20 },
  {
    url: "https://nj.lianjia.com/chengjiao/qinhuai",
    name: "qinhuai",
    size: 29,
  },
  { url: "https://nj.lianjia.com/chengjiao/xuanwu", name: "xuanwu", size: 14 },
  {
    url: "https://nj.lianjia.com/chengjiao/yuhuatai",
    name: "yuhuatai",
    size: 14,
  },
  { url: "https://nj.lianjia.com/chengjiao/qixia", name: "qixia", size: 14 },
  {
    url: "https://nj.lianjia.com/chengjiao/jiangning",
    name: "jiangning",
    size: 40,
  },
  { url: "https://nj.lianjia.com/chengjiao/pukou", name: "pukou", size: 25 },
  { url: "https://nj.lianjia.com/chengjiao/liuhe", name: "liuhe", size: 4 },
  { url: "https://nj.lianjia.com/chengjiao/lishui", name: "lishui", size: 4 },
];

// 南京各区成交数据
const nanJin = async (page) => {
  for (let i = 0; i < mapAreaPageSize.length; i++) {
    const areaLines = await nanJinArea(page, mapAreaPageSize[i]);

    // 分区写入csv
    await saveContent(
      `./output/lianjia`,
      `${mapAreaPageSize[i].name}.csv`,
      areaLines.join("
")
    );
  }
};

const nanJinArea = async (page, m) => {
  let areaLines = [];
  for (let i = 1; i <= m.size; i++) {
    await page.goto(`${m.url}/pg${i}`);
    // 等待页面加载完成，这是显示总套数的div
    await page.$$("div>.total.fs");
    await mouseDown(page, 800, 10);

    // 解析页面内容
    const lines = await parseLianjiaData(page);
    areaLines = areaLines.concat(lines);

    // 保存页面内容
    await savePage(page, `./output/lianjia/${m.name}`, `page-${i}.html`);
  }

  return areaLines;
};

// 解析页面内容
// 1. name: 小区名称和房屋概要
// 2. houseInfo: 房屋朝向和装修情况
// 3. dealDate: 成交日期
// 4. totalPrice: 成交价格(单位: 万元)
// 5. positionInfo: 楼层等信息
// 6. unitPrice: 成交单价
// 7. advantage: 房屋优势
// 8. listPrice: 挂牌价格
// 9. dealCycleDays: 成交周期
const parseLianjiaData = async (page) => {
  const listContent = await page.$$(".listContent>li");

  let lines = [];
  for (let i = 0; i < listContent.length; i++) {
    try {
      const name = await listContent[i].$eval(
        ".info>.title>a",
        (node) => node.innerText
      );
      const houseInfo = await listContent[i].$eval(
        ".info>.address>.houseInfo",
        (node) => node.innerText
      );
      const dealDate = await listContent[i].$eval(
        ".info>.address>.dealDate",
        (node) => node.innerText
      );
      const totalPrice = await listContent[i].$eval(
        ".info>.address>.totalPrice>.number",
        (node) => node.innerText
      );
      const positionInfo = await listContent[i].$eval(
        ".info>.flood>.positionInfo",
        (node) => node.innerText
      );
      const unitPrice = await listContent[i].$eval(
        ".info>.flood>.unitPrice>.number",
        (node) => node.innerText + "元/平"
      );
      let advantage = "";
      try {
        advantage = await listContent[i].$eval(
          ".info>.dealHouseInfo>.dealHouseTxt>span",
          (node) => node.innerText
        );
      } catch (err) {
        console.log("err is ->", err);
        advantage = "";
      }

      const [listPrice, dealCycleDays] = await listContent[i].$$eval(
        ".info>.dealCycleeInfo>.dealCycleTxt>span",
        (nodes) => nodes.map((n) => n.innerText)
      );

      console.log("name: ", name);
      console.log("houseInfo: ", houseInfo);
      console.log("dealDate: ", dealDate);
      console.log("totalPrice: ", totalPrice);
      console.log("positionInfo: ", positionInfo);
      console.log("unitPrice: ", unitPrice);
      console.log("advantage: ", advantage);
      console.log("listPrice: ", listPrice);
      console.log("dealCycleDays: ", dealCycleDays);
      lines.push(
        `${name},${houseInfo},${dealDate},${totalPrice},${positionInfo},${unitPrice},${advantage},${listPrice},${dealCycleDays}`
      );
    } catch (err) {
      console.log("数据解析失败：", err);
    }
  }

  return lines;
};

我是把要采集的页面列在 const mapAreaPageSize 这个变量中，其中 url 是页面地址，size 是访问多少页（根据需要，并不是每个检索条件都要访问100页）。

采集数据的核心在 parseLianjiaData 函数中，通过 chrome 浏览器的debug模式，找到每个数据所在的页面位置。
puppeteer提供强大的html 选择器功能，通过html元素的 id 和 class 可以很快定位数据的位置（如果用过Jquery，很容易就能上手）。
这样，可以避免写复杂的正则表达式，提取数据更方便。

采集之后，我最后将数据输出成 csv 格式。

注意事项

爬取数据只是为了研究学习使用，本文中的代码遵守：

如果网站有 robots.txt，遵循其中的约定
爬取速度模拟正常访问的速率，不增加服务器的负担
只获取完全公开的数据，有可能涉及隐私的数据绝对不碰

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 数据采集实战（一）-

本文链接: https://www.lsjlt.com/news/8554.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

数据采集实战（一）-

概述

采集工具

采集过程

页面分析

核心代码

初始化并启动页面

采集数据

注意事项

本篇文章演示代码以及资料文档资料下载

数据采集实战（一）-

数据采集实战（三）-

数据采集实战（四）-

数据采集实战（五）-

数据采集实战（二）-

Python采集C站热榜数据实战示例

Python实战使用XPath采集数据示例解析

第02期：Prometheus 数据采集（一）

Python+Selenium实现一键摸鱼&采集数据

数据采集 - Marvin

php实现大数据采集

【Python实战】Python采集情感音频

用vue设计一个数据采集器

Python爬虫实战演练之采集糗事百科段子数据

Python采集电影评论实战示例

Python采集王者最低战力信息实战示例

Python爬虫实战演练之采集拉钩网招聘信息数据

亚马逊数据采集

数据采集与存储

Hive实战之Youtube数据集

sql中wherein的用法

sql中union的作用

sql中floor的用法

sql中rpad的用法

sql中begin end用法

sql中rank函数怎么用

sql中all和any区别

在sql中回收用户操作权限的命令是

sql中sage什么意思

sql中order by是什么意思