首页 > 资讯 > 后端开发 > Python >Python 爬虫学习笔记之正则表达式

460

分享到

Python 爬虫学习笔记之正则表达式

爬虫学习笔记正则表达式 2022-06-04 18:06:10 460人浏览泡泡鱼

Python 官方文档：入门教程 => 点击学习

摘要

正则表达式的使用想要学习 python 爬虫，首先需要了解一下正则表达式的使用，下面我们就来看看如何使用。 . 的使用这个时候的点就相当于一个占位符，可以匹配任意一个字符，什么意思呢？看个例子就知道

正则表达式的使用

想要学习 python 爬虫，首先需要了解一下正则表达式的使用，下面我们就来看看如何使用。

. 的使用这个时候的点就相当于一个占位符，可以匹配任意一个字符，什么意思呢？看个例子就知道


 import re 
 content = "helloworld" 
 b = re.findall('w.',content) 
 print b`

注意了，我们首先导入了 re，这个时候大家猜一下输出结果是什么？因为 . 相当于一个占位符，所以理所当然的这个时候的输出结果是 wo 。

* 的使用跟上面的 . 不同，* 可以匹配前一个字符任意次数，看个例子


content = "helloworldhelloworld" 
b = re.findall('w*',content) 
print b

这个时候的输出结果是 ['', '', '', '', '', 'w', '', '', '', '', '', '', '', '', '', 'w', '', '', '', '', '']，可见是一个列表，长度和匹配的字符串一致，遇到要匹配的字符就打印出来。

.* 的使用.* 是一种组合使用，它可以尽可能多的匹配内容，比如下面这个例子


content = "helloworldhelloworldworld" 
b = re.findall('he.*ld',content) 
print b

它会输出 ['helloworldhelloworldworld']，它为什么不只打印一个 helloworld，为什么全部打印下来了？这就是一种贪心算法，也就是说我要找到最长的那个符合条件的内容。

.*? 的使用与上面相反，这个符号会找到尽可能短的符合条件的内容，然后放到一个列表中去，如下所示


content = 'xxhelloworldxxxxhelloworldxx' 
b = re.findall('xx.*?xx',content) 
print b

输出的结果为 ['xxhelloworldxx', 'xxhelloworldxx']，可见，有个 xx 在前面好烦，怎么才能去掉呢？很简单，加个括号即可，括号加在哪？


content = 'xxhelloworldxxxxhelloworldxx' 
b = re.findall('xx(.*?)xx',content) 
print b

以上我们讨论的都是内容不包含换行符的情况，如果有了换行符结果又会发生什么变化呢？


content = '''xxhelloworld xx''' 
b = re.findall('xx(.*?)xx',content) 
print b

这个时候的输出结果为一个空列表，那怎么办啊？如果我们写网络爬虫的时候，网页源代码肯定不止是一行啊，如果换一行我们就读不出来了，那就好尴尬了，当然有解决办法~


content = '''xxhelloworld xx''' 
b = re.findall('xx(.*?)xx',content,re.S) 
print b

这样就可以了，还有一个非常方便的提取数字的技巧，如下所示


content = '''xx123456 xx''' 
b = re.findall('(d+)',content,re.S) 
print b

在网页源代码中爬取图片链接并下载

这篇文章中只是网络爬虫的第一步，所以讲解的也比较浅，所以现在我们先来利用正则表达式实现一个手动的网络爬虫，什么是手动的呢？就是我们自己把网页源代码复制下来，保存在一个 txt 文件中，然后利用正则表达式去过滤信息，然后去下载。

首先我搜索了一下 linux 桌面，然后找到了如下一个网页

查看图片

右击查看网络源代码，按 ctrl+f 搜索 img src 找到中间一部分进行复制，并且粘贴到一个 txt 文件中去，

查看图片

然后就可以利用我们上述的知识去提取我们想要的信息，源代码如下


import re import requests 
 f = open('source.txt', 'r') 
 html = f.read() 
 f.close() 
 pattern = '<img src="(.*?)"' 
 pic_url = re.findall(pattern, html, re.S)
 i = 0 
 for each in pic_url: 
   print 'Downloading :' + each 
   pic = requests.get(each) 
   fp = open('picture\' + str(i) + '.jpg', 'wb') 
   fp.write(pic.content) 
   fp.close() 
   i = i + 1

首先打开我们保存网络源代码的 txt文件，进行读取，关闭文件流，然后就是利用正则表达式提取图片链接，最后利用requests 中的 get() 方法进行图片下载，注意这个 requests 不是Python 中自带的，我们需要下载指定的文件，然后将其放入到 Python 的Lib 目录下，此处下载，进入网站后，按ctrl+f 搜索关键词 requests 就可以看到如下页面

查看图片

，可以看出，我们下载的是 .whl 后缀的文件，手动将其改成 .zip 后缀，然后解压，就可以得到两个目录，将名为 requests 的目录复制粘贴到上面讲的目录即可使用。

好了介绍完了，我们去看下运行结果


 C:Python27python.exe E:/PythonCode/20160820/Spider.py
 Downloading:Http://n1.itc.cn/img8/wb/smccloud/fetch/2015/07/04/112732422680200576.JPG
 Downloading :http://n1.itc.cn/img8/wb/smccloud/fetch/2015/07/04/112640070563900918.JPG
 Downloading :http://n1.itc.cn/img8/wb/smccloud/fetch/2015/07/04/112547718465744154.JPG
 Downloading :http://n1.itc.cn/img8/wb/smccloud/fetch/2015/07/04/112455366330382227.JPG
 Downloading :http://n1.itc.cn/img8/wb/smccloud/fetch/2015/07/04/112363014254719641.JPG
 Downloading :http://n1.itc.cn/img8/wb/smccloud/fetch/2015/07/04/112270662197888742.JPG
 Downloading :http://n1.itc.cn/img8/wb/smccloud/fetch/2015/07/04/112178310031994750.JPG
 Downloading :http://n1.itc.cn/img8/wb/smccloud/fetch/2015/07/04/112085957910403853.JPG
 
 Process finished with exit code 0

这个时候就下载成功了，到我们的 picture 目录下去查看下载的图片

查看图片

下载成功了。注意，自己找网页源代码实验的时候，最好不要让链接中带有中文，否则可能会出现乱码，由于我本身学习 Python 也才很短的时间，关于中文乱码问题，应对起来还不是那么得心应手，所以在此也就不再讲解，本文暂时告以段落，有意见或疑问可留言或者私聊我。

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python 爬虫学习笔记之正则表达式

本文链接: https://www.lsjlt.com/news/14158.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

爬虫之正则表达式

1.学习爬虫，为什么必须会正则表达式？我们爬取一些网页具体内容时，只需要这个网页某个标签的一部分内容就足够，或者是这个标签的某个属性的值时，用普通的 xpath 或者css.selector是不能完成的，此时我们就需用到正则表达式...

99+

2023-01-30

爬虫正则表达式
Python爬虫之正则表达式（1）

廖雪峰正则表达式学习笔记 1：用\d可以匹配一个数字；用\w可以匹配一个字母或数字； '00\d' 可以匹配‘007’，但是无法匹配‘00A’; ‘\d\d\d’可以匹配‘010’； ‘\w\w\d’可以匹配‘py3’; 2...

99+

2023-01-30

爬虫正则表达式 Python
javascript学习笔记（五）正则表达式

常用到的元字符有： •. 查找单个字符，除了换行和行结束符； •\w 匹配字母、汉字、数字、下划线等符号； •\s 匹配空白符(包含空格、制表符等...

99+

2022-11-21

正则表达式
python爬虫之解析库正则表达式

上次说到了requests库的获取,然而这只是开始,你获取了网页的源代码,但是这并不是我们的目的,我们的目的是解析链接里面的信息,比如各种属性 @href @class span 抑或是p节点里面的文本内容,但是我们需要一种工...

99+

2023-01-30

爬虫正则表达式 python
python学习--正则表达式

正则表达式是一种用来匹配字符串的强有力的工具它的设计思想是用一种描述性的语言来给字符串定义一个规则，凡是符合规则的字符串，我们就认为它“匹配”了，否则，该字符串就是不合法的。Python支持的正则表达式元字符和语法：语法说明实例完整匹配的字...

99+

2023-01-31

正则表达式 python
Python re正则表达式学习

一、re.match re.match 尝试从字符串的开始匹配一个模式，如：下面的例子匹配第一个单词。 import re text = "JGood is a handsome boy, he is cool, c...

99+

2023-01-31

正则表达式 Python
python爬虫学习三：python正则

python爬虫学习三：python正则表达式自己写的一个爬虫：https://github.com/qester/wordpres_Crawler1、正则表达式基础a、正则表达式的大致匹配过程：1、依次拿出表达式和文本中的字符比较2、如果...

99+

2023-01-31

爬虫正则 python
python3正则表达式笔记

\d可以匹配一个数字，\w可以匹配一个子字母和数字.可以匹配任意字符\d{3}匹配3个字符\s匹配一个空格，\s+至少有一个空格\s{3,8}匹配3到8的数字\d{3}\-\d{3,8}'010-12345'\d{3}\-\d{3,8}[0...

99+

2023-01-31

笔记正则表达式
Python爬虫正则表达式怎么理解

本篇内容介绍了“Python爬虫正则表达式怎么理解”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！元字符^ $ * + . | {} [] ...

99+

2023-06-17
Pyhton爬虫知识之正则表达式详解

目录前言1、正则表达式基础2、正则表达式的基本符号2.1 点号 “.”2.2 星号 “*”2.3 问号 “”2...

99+

2024-04-02
PHP学习笔记：字符串处理与正则表达式

在PHP开发中，字符串处理和正则表达式是非常重要的技巧之一。无论是对用户输入的数据进行处理，还是对文本进行搜索和替换，字符串处理和正则表达式都能帮助我们实现更加灵活和高效的操作。本文将介绍一些常用的字符串处理函数和正则表达式的用法，并提供具...

99+

2023-10-21

正则表达式处理 PHP 学习笔记：字符串
python re 正则表达式学习总结

# -*- coding: utf-8 -*- import re import os #------------------------------------- re(正则表达式)模块 ------------------------...

99+

2023-01-31

正则表达式 python
Python语法学习之正则表达式怎么使用

这篇文章主要介绍“Python语法学习之正则表达式怎么使用”的相关知识，小编通过实际案例向大家展示操作过程，操作方法简单快捷，实用性强，希望这篇“Python语法学习之正则表达式怎么使用”文章能帮助大家解决问题。要想成功的进行字符串的匹配需...

99+

2023-06-30
python网络爬虫精解之正则表达式的使用说明

目录一、常见的匹配规则二、常见的匹配方法1、match（）2、search（）3、findall（）4、sub（）5、compile（）一、常见的匹配规则二、常见的匹配方法 1、...

99+

2024-04-02
Go语言入门学习之正则表达式

目录前言什么是正则表达式MatchString 函数Compile 函数MustCompile 函数FindAllString 函数FindAllStringIndex 函数Spli...

99+

2024-04-02
Java中@Pattern注解常用的校验正则表达式学习笔记

目录1、前端传参要求2、其他常用正则表达式2.1 数字校验2.2 字符串校验2.3 月份时间校验2.4 Email校验2.5 汉字校验2.5 联系电话校验2.5 密码校验总结1、 ...

99+

2024-04-02
Python语法学习之正则表达式的量词汇总

目录正则表达式中的符号示例 - 1示例 - 2示例 - 3示例 - 4示例 - 5示例 - 6示例 - 7示例 - 8组的概念贪婪模式与非贪婪模式正则表达式中的符号符号描述re1 ...

99+

2024-04-02
8.网络爬虫—正则表达式RE实战

8.网络爬虫—正则表达式RE实战正则表达式（Regular Expression）re.Ire.Are.Sre.Mre.Xre.Lre.U美某杰实战写入csv文件：前言：...

99+

2023-09-07

正则表达式爬虫 python
Python语法学习之正则表达式的使用详解

目录正则表达式中的特殊字符正则表达式的使用正则小案例 - 1正则小案例 - 2正则小案例 - 3要想成功的进行字符串的匹配需要使用到正则表达式模块，正则表达式匹配规则以及需要被匹配的...

99+

2024-04-02
python爬虫Mitmproxy安装使用学习笔记

目录一、简介和安装1.1、概念和作用概念作用1.2、安装1.3、工具介绍二、设置代理2.1、PC端设置代理2.2、PC端安装证书2.3、移动端设置代理三、 mitmdump3.1、插...

99+

2024-04-02