广告
返回顶部
首页 > 资讯 > 后端开发 > Python >爬取腾讯招聘网信息
  • 442
分享到

爬取腾讯招聘网信息

腾讯招聘网信息 2023-01-31 00:01:48 442人浏览 泡泡鱼

Python 官方文档:入门教程 => 点击学习

摘要

import requests from bs4 import BeautifulSoup from math import ceil header = { 'User-Agent': 'Mozilla/5.0 (window

import requests
from bs4 import BeautifulSoup
from math import ceil

header = {
    'User-Agent': 'Mozilla/5.0 (windows NT 6.1; WOW64) AppleWEBKit/537.36 (Khtml, like Gecko) Chrome/67.0.3396.99 Safari/537.36'}


# 获取岗位页数
def getJobPage(url):
    ret = requests.get(url, headers=header)
    ret.encoding = "utf-8"  # 解决乱码问题
    html = ret.text
    soup = BeautifulSoup(html, 'html.parser')
    # 获取岗位总数,< span class ="lightblue total" > 512 < / span >
    totalJob = soup.select('span[class="lightblue total"]')[0].text
    jobPage = ceil(int(totalJob) / 10)
    return jobPage


def getJobOrder(url):
    ret = requests.get(url, headers=header)
    ret.encoding = "utf-8"  # 解决乱码问题
    html = ret.text
    soup = BeautifulSoup(html, 'html.parser')
    # 工作职责
    jobRequests = soup.select('ul[class="squareli"]')[0].text
    # 工作要求
    jobOrder = soup.select('ul[class="squareli"]')[1].text
    return jobRequests, jobOrder


# 获取岗位信息
def getJobInfo(url):
    myfile = open("tencent_job.txt", "a", encoding='gb18030', errors='ignore')  # 解决乱码问题
    ret = requests.get(url, headers=header)
    ret.encoding = "utf-8"  # 解决乱码问题
    html = ret.text
    soup = BeautifulSoup(html, 'html.parser')
    jobList = soup.find_all('tr', class_=['even', 'odd'])
    for job in jobList:
        # url
        jobUrl = "https://hr.tencent.com/" + job.select('td:nth-of-type(1) > a')[0]['href']
        # 职位名称
        jobName = job.select('td:nth-of-type(1) > a')[0].text
        # 人数
        jobPeople = job.select('td:nth-of-type(3)')[0].text
        # 地点
        jobAddre = job.select('td:nth-of-type(4)')[0].text
        # 发布时间
        jobTime = job.select('td:nth-of-type(5)')[0].text
        # 工作职责
        jobRequests = getJobOrder(jobUrl)[0]
        # 工作要求
        jobOrder = getJobOrder(jobUrl)[1]

        #print(jobName, jobUrl, jobAddre, jobPeople, jobTime, jobRequests, jobOrder)

        tt = jobName + " " + jobUrl + " " + jobAddre + " " + jobPeople + " " + jobTime + " " + jobRequests + " " + jobOrder
        myfile.write(tt + "\n")


if __name__ == '__main__':
    mainurl = 'Https://hr.tencent.com/position.PHP?keyWords=python'
    jobPage = getJobPage(mainurl)
    print(jobPage)
    for page in range(jobPage):
        pageUrl = 'https://hr.tencent.com/position.php?keywords=Python&start=' + str(page * 10) + '#a'
        print("第" + str(page + 1) + "页")
        getJobInfo(pageUrl)

 

# -*- coding:utf-8 -*-

import requests, JSON, time
from bs4 import BeautifulSoup


class tencent_hr(object):
    def __init__(self):
        self.base_url = "http://hr.tencent.com/position.php?"
        self.headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko"}
        self.item_list = []
        self.page = 0

    # 发送请求
    def send_request(self, url, params={}):
        time.sleep(2)
        try:
            response = requests.get(url, params=params, headers=self.headers)
            return response.content
        except Exception as e:
            print e

    # 解析数据
    def parse_data(self, data):
        # 初始化
        bs = BeautifulSoup(data, 'lxml')

        # 获取标签-结果为列表
        data_list = bs.select('.even, .odd')

        # 将结果中的每一行数据提取出来
        for data in data_list:
            data_dict = {}
            data_dict['work_name'] = data.select('td a')[0].get_text()
            data_dict['work_type'] = data.select('td')[1].get_text()
            data_dict['work_count'] = data.select('td')[2].get_text()
            data_dict['work_place'] = data.select('td')[3].get_text()
            data_dict['work_time'] = data.select('td')[4].get_text()

            # 将每条字典数据添加进列表
            self.item_list.append(data_dict)

        # 判断是否是最后一页,条件:是否有noactive值
        # 先找到下一页的标签
        next_label = bs.select('#next')
        # 根据标签获取属性class的值-返回结果为列表
        judge = next_label[0].get('class')

        return judge

    # 写入文件
    def write_file(self):
        # 将列表转换成字符串
        data_str = json.dumps(self.item_list)

        with open('04tencent_hr.json', 'w') as f:
            f.write(data_str)

    # 调度运行
    def run(self):
        while True:
            # 拼接参数
            params = {
                "keywords": "python",
                "tid": "0",
                "lid": "2156",
                "start": self.page,
            }

            # 发送请求
            data = self.send_request(self.base_url, params=params)

            # 解析数据
            judge = self.parse_data(data)

            self.page += 10
            print self.page

            # 如果到了最后一页,出现noactive,跳出循环
            if judge:
                break

        self.write_file()


if __name__ == '__main__':
    spider = tencent_hr()
    spider.run()

 

--结束END--

本文标题: 爬取腾讯招聘网信息

本文链接: https://www.lsjlt.com/news/181596.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 爬取腾讯招聘网信息
    import requests from bs4 import BeautifulSoup from math import ceil header = { 'User-Agent': 'Mozilla/5.0 (Window...
    99+
    2023-01-31
    腾讯 招聘网 信息
  • Python实现爬取腾讯招聘网岗位信息
    目录介绍效果展示实现思路源码展示介绍 开发环境 Windows 10 python3.6 开发工具 pycharm 库 numpy、matplotlib、time、xlutils.c...
    99+
    2022-11-12
  • Scrapy案例02-腾讯招聘信息爬取
    目录 1. 目标 2. 网站结构分析 3. 编写爬虫程序 3.1. 配置需要爬取的目标变量 3.2. 写爬虫文件scr...
    99+
    2023-01-30
    腾讯 招聘信息 案例
  • Python怎么实现爬取腾讯招聘网岗位信息
    本篇内容主要讲解“Python怎么实现爬取腾讯招聘网岗位信息”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Python怎么实现爬取腾讯招聘网岗位信息”吧!介绍开发环境Windows 10pyth...
    99+
    2023-06-22
  • Python3获取拉勾网招聘信息
        为了了解跟python数据分析有关行业的信息,大概地了解一下对这个行业的要求以及薪资状况,我决定从网上获取信息并进行分析。既然想要分析就必须要有数据,于是我选择了拉勾,冒着危险深入内部,从他们那里得到了信息。不得不说,拉勾的反爬技...
    99+
    2023-01-31
    招聘信息 拉勾网
  • Selenium&Chrome实战:动态爬取51job招聘信息
    Selenium3.8版本以后,已经不支持PhanTomJS了,可以使用谷歌,火狐的无头浏览器来代替PhanTomJS使用chrome的无头浏览器,需要下载谷歌驱动chromedriver.exechromedriver.exe下载 &nb...
    99+
    2023-01-30
    招聘信息 实战 动态
  • Python中怎么利用网络爬虫获取招聘信息
    Python中怎么利用网络爬虫获取招聘信息,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。定义一个class类继承object,定义init方法继承self,主函...
    99+
    2023-06-16
  • 详解如何使用Python网络爬虫获取招聘信息
    目录前言项目目标项目准备反爬措施项目实现效果展示小结前言 现在在疫情阶段,想找一份不错的工作变得更为困难,很多人会选择去网上看招聘信息。可是招聘信息有一些是错综复杂的。而且不能把全部...
    99+
    2022-11-13
  • 利用Python获取赶集网招聘信息前篇
    如何获取一个网站的相关信息,获取赶集网的招聘信息,本文为大家介绍利用python获取赶集网招聘信息的关键代码,供大家参考,具体内容如下 import re import urllib import ur...
    99+
    2022-06-04
    招聘信息 赶集网 Python
  • Python 爬虫 招聘信息并存入数据库
      新学习了selenium,啪一下腾讯招聘   1 from lxml import etree 2 from selenium import webdriver 3 import pymysql 4 def Geturl(f...
    99+
    2023-01-30
    爬虫 招聘信息 数据库
  • 网络爬虫之scrapy爬取某招聘网手机A
             过段时间要开始找新工作了,爬取一些岗位信息来分析一下吧。目前主流的招聘网站包括前程无忧、智联、BOSS直聘、拉勾等等。有段时间时间没爬取手机APP了,这次写一个爬虫爬取前程无忧手机APP岗位信息,其他招聘网站后续再更新...
    99+
    2023-01-30
    爬虫 招聘网 手机
  • Python爬虫实战演练之采集拉钩网招聘信息数据
    目录本文要点:环境介绍本次目标爬虫块使用内置模块:第三方模块:代码实现步骤: (爬虫代码基本步骤)开始代码导入模块发送请求解析数据加翻页保存数据运行代码,得到数据本文要点: ...
    99+
    2022-11-12
  • node.js爬虫爬取拉勾网职位信息
    简介 用node.js写了一个简单的小爬虫,用来爬取拉勾网上的招聘信息,共爬取了北京、上海、广州、深圳、杭州、西安、成都7个城市的数据,分别以前端、PHP、java、c++、python、Android、i...
    99+
    2022-06-04
    爬虫 职位 信息
  • Python网络爬虫与信息提取
    Requests安装 用管理员身份打开命令提示符: pip install requests 测试:打开IDLE: >>> import requests >>> r = requests.get("...
    99+
    2023-01-31
    爬虫 网络 信息
  • Python灰帽编程——网页信息爬取
    文章目录 网页信息爬取1. 相关模块1.1 requests 模块1.1.1 模块中的请求方法1.1.2 请求方法中的参数1.1.3 响应对象中属性 1.2 RE 模块1.2.1 匹配...
    99+
    2023-09-24
    python 开发语言 网络安全 系统安全 python脚本 爬虫 requests模块
  • Python怎样爬取全网美食杰信息
    这期内容当中小编将会给大家带来有关Python怎样爬取全网美食杰信息,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。前言相信很多人是吃货,其实我也是一个吃货,所以在美食杰这网站上,爬取每一道美食的做法,名字...
    99+
    2023-06-02
  • 基于selenium爬取拉勾网职位信息
    1.selenium   Selenium 本是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。而这一特性为爬虫开发提供了一个选择及方向,由于其本身依赖于浏览器,所以使用Python的s...
    99+
    2023-01-31
    职位 信息 selenium
  • 利用requests+BeautifulSoup爬取网页关键信息
    一、requests库基础知识Requests的方法  requests库的response对象二、爬取网站所需信息访问网站,如图1-1所示:图1-1点击子页面,审查网页元素,部分内容如图1-2所示:图1-2实现代码如下...
    99+
    2023-06-02
  • python网络爬虫基于selenium爬取斗鱼直播信息
    目录一、本文使用的第三方包和工具二、selenium的介绍和浏览器驱动的安装1.selenium的介绍2.浏览器驱动的安装三、代码思路分析1.解析数据的函数2.保存数据的函数3.主函...
    99+
    2022-11-13
  • 怎么利用Python网络爬虫来提取信息
    怎么利用Python网络爬虫来提取信息,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。下面小编就为大家带来一篇Python网络爬虫与信息提取(实例讲解)。小编觉得挺不错的,现在就...
    99+
    2023-06-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作