python编写简单爬虫资料汇总

爬虫简单资料 2022-06-04 19:06:52 168人浏览八月长安

Python 官方文档：入门教程 => 点击学习

摘要

　　爬虫真是一件有意思的事儿啊，之前写过爬虫，用的是urllib2、BeautifulSoup实现简单爬虫，scrapy也有实现过。最近想更好的学习爬虫，那么就尽可能的做记录吧。这篇博客就我今天的一个学习过

　　爬虫真是一件有意思的事儿啊，之前写过爬虫，用的是urllib2、BeautifulSoup实现简单爬虫，scrapy也有实现过。最近想更好的学习爬虫，那么就尽可能的做记录吧。这篇博客就我今天的一个学习过程写写吧。

一正则表达式

　　正则表达式是一个很强大的工具了，众多的语法规则，我在爬虫中常用的有：

. 匹配任意字符（换行符除外） * 匹配前一个字符0或无限次 ? 匹配前一个字符0或1次 .* 贪心算法 .*? 非贪心算法（.*?) 将匹配到的括号中的结果输出 d 匹配数字 re.S 使得.可以匹配换行符

　　常用的方法有：find_all()，search()，sub()

　　对以上语法方法做以练习，代码见：https://GitHub.com/Ben0825/Crawler/blob/master/re_test.py

二 urllib和urllib2

　　urllib和urllib2库是学习python爬虫最基本的库，利用该库，我们可以得到网页的内容，同时，可以结合正则对这些内容提取分析，得到真正想要的结果。

　　在此将urllib和urllib2结合正则爬取了糗事百科中的作者点赞数内容。

　　代码见：Https://github.com/Ben0825/Crawler/blob/master/qiubai_test.py

三 BeautifulSoup

　　BeautifulSoup是python的一个库，最主要的功能是从网页抓取数据，官方介绍是这样的：
　　Beautiful Soup 提供一些简单的、Python 式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。
　　Beautiful Soup 自动将输入文档转换为 Unicode 编码,输出文档转换为 utf-8 编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup 就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。
　　Beautiful Soup 已成为和 lxml、html6lib 一样出色的 python 解释器,为用户灵活地提供不同的解析策略或强劲的速度。

　　首先：爬取百度百科Python词条下相关的100个页面，爬取的页面值自己设定。

　　代码详见：https://github.com/Ben0825/Crawler/tree/master/python_baike_Spider

　　代码运行：

　　查看图片

　　巩固篇，依据豆瓣中图书的标签得到一个书单，同样使用BeautifulSoup。

　　代码详见：https://github.com/Ben0825/Crawler/blob/master/doubanTag.py

　　运行结果：　　

查看图片

　　　以上就是今天学习的一些内容，爬虫真的很有意思啊，明天继续学scrapy!

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: python编写简单爬虫资料汇总

本文链接: https://www.lsjlt.com/news/15137.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Python资料汇总

大家好，51CTO下载中心根据资料的热度和好评度收集了80个Python资料，分享给Python开发的同学。内容包括1个Python专题、66个学习资料、7套Python源码和6个相关软件。附件较多，无法一一分享，在此大家整理一个下载目录了...

99+

2023-01-31

资料 Python
使用python编写简单网络爬虫（一）

总算有时间动手用所学的python知识编写一个简单的网络爬虫了，这个例子主要实现用python爬虫从百度图库中下载美女的图片，并保存在本地，闲话少说，直接贴出相应的代码如下：---------------------------...

99+

2023-01-31

爬虫简单网络
Python爬虫练习汇总

目录一、软件配置二、爬取南阳理工OJ题目（一）页面分析（二）代码编写三、爬取学校信息通知（一）页面分析（二）代码编写一、软件配置安装必备爬虫环境软件: python 3.8pi...

99+

2024-04-02
Python爬虫分析汇总

目录Python爬虫分析一、程序说明二、数据爬取1、获取 CSDN 作者总榜数据2、获取收藏夹列表3、获取收藏数据4、爬虫程序完整代码5、爬取数据结果三、数据分析及可视化Python...

99+

2024-04-02
Python简单爬虫

爬取链家二手房源信息import requests import re from bs4 import BeautifulSoup import csv url = ['https://cq.lianjia.com/ershoufang/...

99+

2023-01-31

爬虫简单 Python
python简单爬虫笔记

python模拟游览器爬取相关页面 import urllib.request url="https://blog.51cto.com/itstyle/2146899" #模拟浏览器 headers=("User-Agent","Moz...

99+

2023-01-31

爬虫简单笔记
Python 简单业务爬虫

如何快速下载贴吧图片呢？#!/usr/bin/python # -*- coding: UTF-8 -*- import urllib import re def getHtml(url): page = urllib.urlop...

99+

2023-01-31

爬虫简单业务
python实现简单爬虫--爬图片

首先有两个功能需求：第一：获取到要爬的页面html内容；第二：使用正则表达式进行匹配并进行保存到本地。#!/usr/bin/env python #encoding:utf-8 import urllib import re def get...

99+

2023-01-31

爬虫简单图片
Python如何写出最简单的网页爬虫

Python如何写出最简单的网页爬虫，针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。最近对python爬虫有了强烈地兴趣，在此分享自己的学习路径。1.开发工具笔者使用的工具是...

99+

2023-06-17
python编写爬虫刷流量

这代码不是我自己写的，我是看视频写的。我也不知道算不算是原创，只能说放在这里做个记录，以后自己看了方便。# coding:utf-8 import webbrowser as web import time import os imp...

99+

2023-01-31

爬虫流量 python
一个简单的python爬虫,爬取知乎

一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录，可自行实现，比图片更简单具体代码里有详细注释，请自行阅读项目源码：# -*- coding:utf-8 ...

99+

2023-06-02
Node.js简单实现爬虫代码怎么写

以下是一个简单的Node.js爬虫代码示例： const request = require('request'); const c...

99+

2023-10-26

Node.js
python爬虫之pyppeteer库简单使用

pyppeteer 介绍Pyppeteer之前先说一下Puppeteer，Puppeteer是谷歌出品的一款基于Node.js开发的一款工具，主要是用来操纵Chrome浏览器的 AP...

99+

2024-04-02
python简单爬虫--get方式详解

目录环境准备进行爬虫参考总结简单爬虫可以划分为get、post格式。其中，get是单方面的获取资源，而post存在交互，如翻译中需要文字输入。本文主要描述简单的get爬虫。环境准备...

99+

2024-04-02
python爬虫-简单使用xpath下载

首先 1.为方便以下进行谷歌浏览器里要安装xpath脚本 2.下载一个lmxl 命令：pip install lxml 3. 以下三张图是一个，当时爬的《糗事百科》里的图片　　值的注意的是：在爬取接口时，要...

99+

2023-01-30

爬虫简单 python
Python 简单爬虫抓取糗事百科

该爬虫主要实现的功能是抓取糗事百科里面的一些段子。 urllib2可以用urllib2.openurl中设置Request参数，来修改Header头。如果你访问一个网站，想更改User Agent（可以伪装你的浏览器），你就要...

99+

2023-01-31

爬虫糗事百科
python爬虫入门教程(非常详细),超级简单的Python爬虫教程

一、基础入门 1.1什么是爬虫爬虫(spider，又网络爬虫)，是指向网站/网络发起请求，获取资源后分析并提取有用数据的程序。从技术层面来说就是通过程序模拟浏览器请求站点的行为，把站点返回的HT...

99+

2023-09-01

python 爬虫 python爬虫爬虫入门 python零基础
python爬虫简单的添加代理以及编写进行访问的实现代码

python爬虫简单的添加代理以及编写进行访问的实现代码，针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。在使用python对网页进行多次快速爬取的时候,访问次数过于频繁,服务...

99+

2023-06-02
使用Python实现简单的爬虫框架

目录一、请求网页二、解析 HTML三、构建爬虫框架爬虫是一种自动获取网页内容的程序，它可以帮助我们从网络上快速收集大量信息。在本文中，我们将学习如何使用 Python 编写一个简单的...

99+

2023-05-19

Python如何实现爬虫框架 Python爬虫框架 Python爬虫
关于python简单的爬虫操作(requests和etree)

虎扑体育-NBA球员得分数据排行第1页示例代码： import requests from lxml import etree url = 'https://n...

99+

2023-05-16

python爬虫爬虫操作requests 爬虫etree