iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python爬虫练习汇总
  • 199
分享到

Python爬虫练习汇总

2024-04-02 19:04:59 199人浏览 安东尼

Python 官方文档:入门教程 => 点击学习

摘要

目录一、 软件配置二、爬取南阳理工OJ题目(一)页面分析(二)代码编写三、爬取学校信息通知(一)页面分析(二)代码编写一、 软件配置 安装必备爬虫环境软件: python 3.8pi

一、 软件配置

安装必备爬虫环境软件:

  • python 3.8
  • pip install requests
  • pip install beautifulsoup4

二、爬取南阳理工OJ题目

网站地址:Http://www.51mxd.cn/

(一)页面分析

切换页面的时候url网址发生变动,因此切换页面时切换第n页则为n.html

查看html代码:

在每一个标签内都是<tr><td></td></tr>使用嵌套模式,因此可以使用爬虫进行爬取

(二)代码编写

导入相应的包


#导入包
import requests
from bs4 import BeautifulSoup
import csv
from tqdm import tqdm#在电脑终端上显示进度,使代码可视化进度加快

定义访问浏览器所需的请求头和写入csv文件需要的表头及存储列表


# 模拟浏览器访问
Headers = 'Mozilla/5.0 (windows NT 10.0; WOW64) AppleWEBKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3741.400 QQBrowser/10.5.3863.400'
# 题目数据
subjects = []
# 表头
csvHeaders = ['题号', '难度', '标题', '通过率', '通过数/总提交数']

定义爬取函数,并删选信息


for pages in tqdm(range(1, 11 + 1)):
    r = requests.get(f'http://www.51mxd.cn/problemset.PHP-page={pages}.htm', Headers)

    r.raise_for_status()
    r.encoding = 'utf-8'
    soup = BeautifulSoup(r.text, 'HTML5lib')

    td = soup.find_all('td')#讲所有含TD的项提取出来
    subject = []
    for t in td:
        if t.string is not None:
            #利用string方法获取其中的内容
            subject.append(t.string)
            if len(subject) == 5:
                subjects.append(subject)
                subject = []

写入文件


with open('D:/NYOJ_Subjects.csv', 'w', newline='') as file:
    fileWriter = csv.writer(file)
    fileWriter.writerow(csvHeaders)  # 写入表头
    fileWriter.writerows(subjects)   # 写入数据

print('\n题目信息爬取完成!!!')

结果

三、爬取学校信息通知

网站地址:http://news.cqjtu.edu.cn/xxtz.htm

(一)页面分析

可以看到在html跳转采用 n-方式 因为为n-.html

爬取数据,日期+新闻题目

(二)代码编写


import requests
from bs4 import BeautifulSoup
import csv

# 获取每页内容
def get_one_page(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36'
    }
    try:
        info_list_page = []  # 一页的所有信息
        resp = requests.get(url, headers=headers)
        resp.encoding = resp.status_code
        page_text = resp.text
        soup = BeautifulSoup(page_text, 'lxml')
        li_list = soup.select('.left-list > ul > li')  # 找到所有li标签
        for li in li_list:
            divs = li.select('div')
            date = divs[0].string.strip()
            title = divs[1].a.string
            info = [date, title]
            info_list_page.append(info)
    except Exception as e:
        print('爬取' + url + '错误')
        print(e)
        return None
    else:
        resp.close()
    print('爬取' + url + '成功')
    return info_list_page

# main
def main():
    # 爬取所有数据
    info_list_all = []
    base_url = 'http://news.cqjtu.edu.cn/xxtz/'
    for i in range(1, 67):
        if i == 1:
            url = 'http://news.cqjtu.edu.cn/xxtz.htm'
        else:
            url = base_url + str(67 - i) + '.htm'
        info_list_page = get_one_page(url)
        info_list_all += info_list_page
    # 存入数据
    with open('D:/教务新闻.csv', 'w', newline='', encoding='utf-8') as file:
        fileWriter = csv.writer(file)
        fileWriter.writerow(['日期', '标题'])  # 写入表头
        fileWriter.writerows(info_list_all)  # 写入数据


if __name__ == '__main__':
    main()

结果:

总结:

本次实验对利用Python 进行爬虫进行了学习,并实现了对网站信息的爬取。

到此这篇关于python爬虫练习汇总的文章就介绍到这了,更多相关Python爬虫练习内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: Python爬虫练习汇总

本文链接: https://www.lsjlt.com/news/161197.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Python爬虫练习汇总
    目录一、 软件配置二、爬取南阳理工OJ题目(一)页面分析(二)代码编写三、爬取学校信息通知(一)页面分析(二)代码编写一、 软件配置 安装必备爬虫环境软件: python 3.8pi...
    99+
    2024-04-02
  • Python爬虫分析汇总
    目录Python爬虫分析一、程序说明二、数据爬取1、获取 CSDN 作者总榜数据2、获取收藏夹列表3、获取收藏数据4、爬虫程序完整代码5、爬取数据结果三、数据分析及可视化Python...
    99+
    2024-04-02
  • 【Java练习题汇总】《第一行代码JAVA》综合测试三,汇总Java练习题
    Java练习题 · 综合测试三 1️⃣ 综合测试三2️⃣ 答案 1️⃣ 综合测试三 线程的启动方法是( )。 A. run() B. start() C. begin() D. acce...
    99+
    2023-08-31
    java 开发语言 经验分享 java-ee list 后端
  • 【python爬虫学习 】python
    pip 安装 pip install scrapy 可能的问题: 问题/解决:error: Microsoft Visual C++ 14.0 is required. 实例demo教程 中文教程文档 第一步:创建项目目录 ...
    99+
    2023-01-31
    爬虫 python
  • Python爬虫小练习之爬取并分析腾讯视频m3u8格式
    目录普通爬虫正常流程:环境介绍分析网站开始代码导入模块数据请求提取数据遍历保存数据运行代码普通爬虫正常流程: 数据来源分析 发送请求 获取数据 解析...
    99+
    2024-04-02
  • Python爬虫学习路线
    (一)如何学习Python 学习Python大致可以分为以下几个阶段: 1.刚上手的时候肯定是先过一遍Python最基本的知识,比如说:变量、数据结构、语法等,基础过的很快,基本上1~2周时间就能过完了,我当时是在这儿看的基础:Pytho...
    99+
    2023-01-31
    爬虫 路线 Python
  • 【Python】爬虫练习-爬取豆瓣网电影评论用户的观影习惯数据
    目录 前言 一、配置环境 1.1、 安装Python 1.2、 安装Requests库和BeautifulSoup库 1.3.、安装Matplotlib 二、登录豆瓣网(重点) 2.1、获取代理 2.2、测试代理ip是否可用 2.3、设置...
    99+
    2023-10-25
    windows python 开发语言 爬虫
  • Python 学习资源汇总
    推荐书籍:Python核心编程(第二版) (强烈推荐,建议有一定基础的看,或者看完简明Python教程再看)Python 基础教程 第二版 (入门,没有核心编程好,但也不错)编写高质量代码:改善Python程序的91个建议 (进阶,有一定基...
    99+
    2023-01-31
    资源 Python
  • Python爬虫突破反爬虫机制知识点总结
    1、构建合理的HTTP请求标头。 HTTP的请求头是一组属性和配置信息,当您发送一个请求到网络服务器时。因为浏览器和Python爬虫发送的请求头不同,反爬行器很可能会被检测到。 2、...
    99+
    2024-04-02
  • python爬虫学习三:python正则
    python爬虫学习三:python正则表达式自己写的一个爬虫:https://github.com/qester/wordpres_Crawler1、正则表达式基础a、正则表达式的大致匹配过程:1、依次拿出表达式和文本中的字符比较2、如果...
    99+
    2023-01-31
    爬虫 正则 python
  • 爬虫学习
    Jupyter环境安装 安装Anaconda(集成环境), 安装成功后能够提供一种基于浏览器的可视化工具 ---Jupyter. 什么是jupyter notebook: Jupyter Notebook是以网页的形式打开,可以在网页页面...
    99+
    2023-01-30
    爬虫
  • Python爬虫基础之爬虫的分类知识总结
    目录一、通用爬虫二、搜索引擎的局限性三、Robots协议四、请求与相应一、通用爬虫 通用网络爬虫是搜索引擎抓取系统(Baidu、Google、Sogou等)的一个重要组成部分。主要目...
    99+
    2024-04-02
  • 每日一练,Python爬取主要城市螺纹钢价格总汇
    前言可能爬取钢铁的数据,对于大家来说并不是那么重要,就当做是一个爬虫练习,提高你的爬虫技巧,哈哈,也不是没有,以后你成家立业有可能会用到的把..导入库...
    99+
    2023-06-02
  • 零基础学习Python爬虫
    目录爬虫为什么我们要使用爬虫爬虫准备工作爬虫项目讲解代码分析1.爬取网页2.逐一解析数据3.保存数据讲解我们的爬虫之前,先概述关于爬虫的简单概念(毕竟是零基础教程) 爬虫 网络爬虫(...
    99+
    2024-04-02
  • Python爬虫框架Scrapy 学习
    开发环境PyCharm目标网站和上一次一样,可参考:http://dingbo.blog.51cto.com/8808323/1597695 但是这次不是在单个文件中运行,而是创建一个scrapy项目1.使用命令行工具创建scrapy项目的...
    99+
    2023-01-31
    爬虫 框架 Python
  • Python 网络爬虫干货总结
      爬取 对于爬取来说,我们需要学会使用不同的方法来应对不同情景下的数据抓取任务。 爬取的目标绝大多数情况下要么是网页,要么是 App,所以这里就分为这两个大类别来进行了介绍。 对于网页来说,我又将其划分为了两种类别,即服务端渲染和...
    99+
    2023-01-31
    干货 爬虫 网络
  • Python爬虫学习教程:天猫商品数据爬虫
    天猫商品数据爬虫使用教程下载chrome浏览器查看chrome浏览器的版本号,下载对应版本号的chromedriver驱动pip安装下列包pip install seleniumpip install pyquery登录微博,并通过微博绑定...
    99+
    2023-06-02
  • [python] 列表的练习总结
    1bicycles = ['trek', 'cannondale', 'redline', 'specialized']print(bicycles)print(bicycles[0]) ##第一个列表数据print(bicycles[0]...
    99+
    2023-01-31
    列表 python
  • 学习python爬虫能做什么
    这篇文章主要介绍“学习python爬虫能做什么”,在日常操作中,相信很多人在学习python爬虫能做什么问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”学习python爬虫能做什么”的疑惑有所帮助!接下来,请跟...
    99+
    2023-06-27
  • 爬虫学习之第四章爬虫进阶之多线程爬虫
    有些时候,比如下载图片,因为下载图片是一个耗时的操作。如果采用之前那种同步的方式下载。那效率肯会特别慢。这时候我们就可以考虑使用多线程的方式来下载图片。 多线程介绍: 多线程是为了同步完成多项任务,通过提高资源使用效率来提高系统的效率...
    99+
    2023-01-31
    爬虫 进阶 第四章
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作