iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >python编写简单爬虫资料汇总
  • 168
分享到

python编写简单爬虫资料汇总

爬虫简单资料 2022-06-04 19:06:52 168人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

  爬虫真是一件有意思的事儿啊,之前写过爬虫,用的是urllib2、BeautifulSoup实现简单爬虫,scrapy也有实现过。最近想更好的学习爬虫,那么就尽可能的做记录吧。这篇博客就我今天的一个学习过

  爬虫真是一件有意思的事儿啊,之前写过爬虫,用的是urllib2、BeautifulSoup实现简单爬虫,scrapy也有实现过。最近想更好的学习爬虫,那么就尽可能的做记录吧。这篇博客就我今天的一个学习过程写写吧。

一 正则表达式

  正则表达式是一个很强大的工具了,众多的语法规则,我在爬虫中常用的有:

. 匹配任意字符(换行符除外) * 匹配前一个字符0或无限次 ? 匹配前一个字符0或1次 .* 贪心算法 .*? 非贪心算法 (.*?) 将匹配到的括号中的结果输出 d 匹配数字 re.S 使得.可以匹配换行符


  常用的方法有:find_all(),search(),sub()

  对以上语法方法做以练习,代码见:https://GitHub.com/Ben0825/Crawler/blob/master/re_test.py

二 urllib和urllib2

  urllib和urllib2库是学习python爬虫最基本的库,利用该库,我们可以得到网页的内容,同时,可以结合正则对这些内容提取分析,得到真正想要的结果。

  在此将urllib和urllib2结合正则爬取了糗事百科中的作者点赞数内容。

  代码见:Https://github.com/Ben0825/Crawler/blob/master/qiubai_test.py

三 BeautifulSoup

  BeautifulSoup是python的一个库,最主要的功能是从网页抓取数据,官方介绍是这样的:
  Beautiful Soup 提供一些简单的、Python 式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。
  Beautiful Soup 自动将输入文档转换为 Unicode 编码,输出文档转换为 utf-8 编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup 就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。
  Beautiful Soup 已成为和 lxml、html6lib 一样出色的 python 解释器,为用户灵活地提供不同的解析策略或强劲的速度。

  首先:爬取百度百科Python词条下相关的100个页面,爬取的页面值自己设定。

  代码详见:https://github.com/Ben0825/Crawler/tree/master/python_baike_Spider

  代码运行:

  查看图片

       查看图片

  巩固篇,依据豆瓣中图书的标签得到一个书单,同样使用BeautifulSoup。

  代码详见:https://github.com/Ben0825/Crawler/blob/master/doubanTag.py

  运行结果:  

查看图片

   以上就是今天学习的一些内容,爬虫真的很有意思啊,明天继续学scrapy!

--结束END--

本文标题: python编写简单爬虫资料汇总

本文链接: https://www.lsjlt.com/news/15137.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Python资料汇总
    大家好,51CTO下载中心根据资料的热度和好评度收集了80个Python资料,分享给Python开发的同学。内容包括1个Python专题、66个学习资料、7套Python源码和6个相关软件。附件较多,无法一一分享,在此大家整理一个下载目录了...
    99+
    2023-01-31
    资料 Python
  • 使用python编写简单网络爬虫(一)
          总算有时间动手用所学的python知识编写一个简单的网络爬虫了,这个例子主要实现用python爬虫从百度图库中下载美女的图片,并保存在本地,闲话少说,直接贴出相应的代码如下:---------------------------...
    99+
    2023-01-31
    爬虫 简单 网络
  • Python爬虫练习汇总
    目录一、 软件配置二、爬取南阳理工OJ题目(一)页面分析(二)代码编写三、爬取学校信息通知(一)页面分析(二)代码编写一、 软件配置 安装必备爬虫环境软件: python 3.8pi...
    99+
    2024-04-02
  • Python爬虫分析汇总
    目录Python爬虫分析一、程序说明二、数据爬取1、获取 CSDN 作者总榜数据2、获取收藏夹列表3、获取收藏数据4、爬虫程序完整代码5、爬取数据结果三、数据分析及可视化Python...
    99+
    2024-04-02
  • Python简单爬虫
    爬取链家二手房源信息import requests import re from bs4 import BeautifulSoup import csv url = ['https://cq.lianjia.com/ershoufang/...
    99+
    2023-01-31
    爬虫 简单 Python
  • python简单爬虫笔记
    python模拟游览器爬取相关页面 import urllib.request url="https://blog.51cto.com/itstyle/2146899" #模拟浏览器 headers=("User-Agent","Moz...
    99+
    2023-01-31
    爬虫 简单 笔记
  • Python 简单业务爬虫
    如何快速下载贴吧图片呢?#!/usr/bin/python # -*- coding: UTF-8 -*- import urllib import re def getHtml(url):     page = urllib.urlop...
    99+
    2023-01-31
    爬虫 简单 业务
  • python实现简单爬虫--爬图片
    首先有两个功能需求:第一:获取到要爬的页面html内容;第二:使用正则表达式进行匹配并进行保存到本地。#!/usr/bin/env python #encoding:utf-8 import urllib import re def get...
    99+
    2023-01-31
    爬虫 简单 图片
  • Python如何写出最简单的网页爬虫
    Python如何写出最简单的网页爬虫,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。最近对python爬虫有了强烈地兴趣,在此分享自己的学习路径。1.开发工具笔者使用的工具是...
    99+
    2023-06-17
  • python编写爬虫刷流量
    这代码不是我自己写的,我是看视频写的。我也不知道算不算是原创,只能说放在这里做个记录,以后自己看了方便。# coding:utf-8 import webbrowser as web import time import os imp...
    99+
    2023-01-31
    爬虫 流量 python
  • 一个简单的python爬虫,爬取知乎
    一个简单的python爬虫,爬取知乎主要实现 爬取一个收藏夹 里 所有问题答案下的 图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码:# -*- coding:utf-8 ...
    99+
    2023-06-02
  • Node.js简单实现爬虫代码怎么写
    以下是一个简单的Node.js爬虫代码示例: const request = require('request'); const c...
    99+
    2023-10-26
    Node.js
  • python爬虫之pyppeteer库简单使用
    pyppeteer 介绍Pyppeteer之前先说一下Puppeteer,Puppeteer是谷歌出品的一款基于Node.js开发的一款工具,主要是用来操纵Chrome浏览器的 AP...
    99+
    2024-04-02
  • python简单爬虫--get方式详解
    目录环境准备进行爬虫参考总结简单爬虫可以划分为get、post格式。其中,get是单方面的获取资源,而post存在交互,如翻译中需要文字输入。本文主要描述简单的get爬虫。 环境准备...
    99+
    2024-04-02
  • python爬虫-简单使用xpath下载
      首先 1.为方便以下进行       谷歌浏览器里要安装xpath脚本  2.下载一个lmxl     命令:pip install lxml 3. 以下三张图是一个,当时爬的 《糗事百科》里的图片   值的注意的是:在爬取接口时,要...
    99+
    2023-01-30
    爬虫 简单 python
  • Python 简单爬虫抓取糗事百科
        该爬虫主要实现的功能是抓取糗事百科里面的一些段子。    urllib2可以用urllib2.openurl中设置Request参数,来修改Header头。如果你访问一个网站,想更改User Agent(可以伪装你的浏览器),你就要...
    99+
    2023-01-31
    爬虫 糗事 百科
  • python爬虫入门教程(非常详细),超级简单的Python爬虫教程
    一、基础入门 1.1什么是爬虫 爬虫(spider,又网络爬虫),是指向网站/网络发起请求,获取资源后分析并提取有用数据的程序。 从技术层面来说就是 通过程序模拟浏览器请求站点的行为,把站点返回的HT...
    99+
    2023-09-01
    python 爬虫 python爬虫 爬虫入门 python零基础
  • python爬虫简单的添加代理以及编写进行访问的实现代码
    python爬虫简单的添加代理以及编写进行访问的实现代码,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。在使用python对网页进行多次快速爬取的时候,访问次数过于频繁,服务...
    99+
    2023-06-02
  • 使用Python实现简单的爬虫框架
    目录一、请求网页二、解析 HTML三、构建爬虫框架爬虫是一种自动获取网页内容的程序,它可以帮助我们从网络上快速收集大量信息。在本文中,我们将学习如何使用 Python 编写一个简单的...
    99+
    2023-05-19
    Python如何实现爬虫框架 Python爬虫框架 Python爬虫
  • 关于python简单的爬虫操作(requests和etree)
    虎扑体育-NBA球员得分数据排行 第1页  示例代码: import requests from lxml import etree url = 'https://n...
    99+
    2023-05-16
    python爬虫 爬虫操作requests 爬虫etree
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作