爬虫入门01

爬虫 2023-08-30 11:08:13 457人浏览八月长安

摘要

1. 请求头中最常见的一些重要内容 User-Agent : 请求载体的身份标识(⽤啥发送的请求)Referer: 防盗链(这次请求是从哪个⻚⾯来的? 反爬会⽤到)cookie: 本地字符串数据信息(⽤户登录信息, 反爬的token) 2.

1. 请求头中最常见的一些重要内容

User-Agent : 请求载体的身份标识(⽤啥发送的请求)
Referer: 防盗链(这次请求是从哪个⻚⾯来的? 反爬会⽤到)
cookie: 本地字符串数据信息(⽤户登录信息, 反爬的token)

2. 响应头中一些重要内容

cookie: 本地字符串数据信息(⽤户登录信息, 反爬的token)
各种神奇的莫名其妙的字符串(这个需要经验了, ⼀般都是token
字样, 防⽌各种攻击和反爬)

数据解析的四种方式

re解析
bs4解析（beautifulsoup）
xpath解析
pyquery解析
这四种方式可以混合使用，完全以结果做导向，只要能拿到想要的数据。

正则表达式

元字符：具有固定含义的特殊符号，常用元字符
- . 匹配除换⾏符以外的任意字符, 未来在python的re模块
  中是⼀个坑.
- \w 匹配字⺟或数字或下划线
- \s 匹配任意的空⽩符
  \d 匹配数字
- \n 匹配⼀个换⾏符
- \t 匹配⼀个制表符
- ^ 匹配字符串的开始
- $ 匹配字符串的结尾
- \W 匹配⾮字⺟或数字或下划线
- \D 匹配⾮数字
- \S 匹配⾮空⽩符
- a|b 匹配字符a或字符b
- () 匹配括号内的表达式，也表示⼀个组
- […] 匹配字符组中的字符
- [^…] 匹配除了字符组中字符的所有字符
量词：控制前面的元字符出现的次数
- 重复零次或更多次
- - 重复⼀次或更多次
- ? 重复零次或⼀次
- {n} 重复n次
- {n,} 重复n次或更多次
- {n,m} 重复n到m次
贪婪匹配和惰性匹配
- .* 贪婪匹配, 尽可能多的去匹配结果
- .*? 惰性匹配, 尽可能少的去匹配结果 -> 回溯
  这两个要着重的说⼀下. 因为我们写爬⾍⽤的最多的就是这个惰性匹
  配.

正则预加载

提前编写好正则对象

import re# 提前把正则对象加载完毕obj = re.compile(r"\d+")# 直接把加载好的正则进行使用ret = obj.finditer("abc123Def456qqq789")for item in ret:    print(item.group())

分组提取数据

# 分组提取a = """中国联通
中国移动
"""obj = re.compile(r"(?P.*?)")ret = obj.finditer(a)for item in ret:    print(item.group("id"), item.group("name"))

Python中如何让"."匹配换行符、re.S

obj = re.compile(r'.*?(?P.*?)', re.S)

app逆向四个阶段

快速了解app逆向到底干的什么
Java基础
安卓开发
逆向+案例

安卓设备

真机
模拟器

# win: 逍遥、夜神、雷电、网易mumu# max: 网页mumwin安装时需要开启vt。

安装网页mumu模拟器后，先开启root权限

来源地址：https://blog.csdn.net/weixin_42289273/article/details/132511657

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 爬虫入门01

本文链接: https://www.lsjlt.com/news/382561.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

爬虫入门01

1. 请求头中最常见的一些重要内容 User-Agent : 请求载体的身份标识(⽤啥发送的请求)Referer: 防盗链(这次请求是从哪个⻚⾯来的反爬会⽤到)cookie: 本地字符串数据信息(⽤户登录信息, 反爬的token) 2. ...

99+

2023-08-30

爬虫
爬虫——scrapy入门

安装scrapy pip install scrapy windows可能安装失败，需要先安装c++库或twisted，pip install twisted 创建项目 scrapy startproject tuto...

99+

2023-01-30

爬虫入门 scrapy
Python爬虫教程-01-爬虫介绍

Python 爬虫的知识量不是特别大，但是需要不停和网页打交道，每个网页情况都有所差异，所以对应变能力有些要求参考资料精通Python爬虫框架Scrapy，人民邮电出版社 url, http web前端，html，css，...

99+

2023-01-30

爬虫教程 Python
Python爬虫入门：爬虫基础了解

Python爬虫入门（1）：综述 Python爬虫入门（2）：爬虫基础了解 Python爬虫入门（3）：Urllib库的基本使用 Python爬虫入门（4）：Urllib库的高级用法 Python爬虫入门（5）：URLError异常...

99+

2023-01-30

爬虫入门基础
Python爬虫-01：爬虫的概念及分类

目录 # 1. 为什么要爬虫 2. 什么是爬虫？ 3. 爬虫如何抓取网页数据？ # 4. Python爬虫的优势？ ...

99+

2023-01-30

爬虫概念 Python
【猿灰灰赠书活动 - 01期】- 【Python网络爬虫入门到实战】

说明：博文为大家争取福利，与机械工业出版社合作进行送书活动图书：《Python网络爬虫入门到实战》一、好书推荐图书介绍本书介绍了Python3网络爬虫的常见技术。首先介绍了网页的基...

99+

2023-09-05

python
python基础之爬虫入门

目录前言一、简单静态网页的爬取1.1 选取爬虫策略——缩略图1.2 选取爬虫策略——高清大图二、动态加载网站的爬取2.1 选取爬虫策略——selenium2.2 选取爬虫策略——ap...

99+

2022-11-12
python爬虫之『入门基础』

1.首先需要了解一下http请求，当用户在地址栏中输入网址，发送网络请求的过程是什么？可以参考我之前学习的时候转载的一篇文章一次完整的HTTP事务过程–超详细 2.还需要了解一下http的请求方式有兴趣的同学可以去查一下http的八...

99+

2023-01-31

爬虫入门基础
（01）Hibernate入门

1、Hibernate在SSH中的地位SSH序号技术作用1Struts基于mvc模式的应用层框架技术！2Spring创建对象、处理对象的依赖关系以及框架整合！3Hibernate基于持久层的框架(数据访问层...

99+

2022-10-18
01、Docker入门

目录 1、Docker是什么 2、Docker与虚拟化 3、Docker虚拟化的好处好处一：应用部署方便好处二：服务器同等配置，性能更优，利用率更高 4、核心概念 5、CentOS7 安装docker(在线方式) 6、镜像 7、Doc...

99+

2023-09-04

linux 运维服务器
Python爬虫入门教程 29-100

1. 手机APP数据----写在前面继续练习pyspider的使用，最近搜索了一些这个框架的一些使用技巧，发现文档竟然挺难理解的，不过使用起来暂时没有障碍，估摸着，要在写个5篇左右关于这个框架的教程。今天教程中增加了图片的处理，你可以重...

99+

2023-01-30

爬虫入门教程 Python
Python爬虫入门教程 44-100

1. 第二款抓包工具Charles安装与使用 Charles和Fiddler一样，也是一款抓包工具，比Fiddler界面更加清晰，支持多平台 1.1 官方网址 https://www.charlesproxy.com/ 1.2 下载地址...

99+

2023-01-30

爬虫入门教程 Python
Python爬虫入门教程 45-100

1. Charles抓取兔儿故事背景介绍之前已经安装了Charles，接下来我将用两篇博客简单写一下关于Charles的使用，今天抓取一下兔儿故事里面关于小猪佩奇的故事。爬虫编写起来核心的重点是分析到链接，只要把链接分析到，剩下的就好...

99+

2023-01-30

爬虫入门教程 Python
Python爬虫入门教程 47-100

1. 准备下载软件介绍一款爬虫辅助工具mitmproxy ，mitmproxy 就是用于MITM的proxy,MITM中间人攻击。说白了就是服务器和客户机中间通讯多增加了一层。跟Fiddler和Charles最大的不同就是，mitmpr...

99+

2023-01-30

爬虫入门教程 Python
Python爬虫入门教程 46-100

1. 手机收音机-爬前叨叨今天选了一下，咱盘哪个APP呢，原计划是弄荔枝APP，结果发现竟然没有抓到数据，很遗憾，只能找个没那么圆润的了。搜了一下，找到一个手机收音机下载量也是不错的。 2. 爬虫套路爬虫基本套路抓包获取链接 ...

99+

2023-01-30

爬虫入门教程 Python
Python爬虫入门教程 55-100

验证码探究如果你是一个数据挖掘爱好者，那么验证码是你避免不过去的一个天坑，和各种验证码斗争，必然是你成长的一条道路，接下来的几篇文章，我会尽量的找到各种验证码，并且去尝试解决掉它，中间有些技术甚至我都没有见过，来吧，一起Coding吧 ...

99+

2023-01-31

爬虫入门教程 Python
Python爬虫入门教程 65-100

爬虫与反爬虫的修罗场哪种平台最吸引爬虫爱好者，当然是社区类的，那里容易产生原生态，高质量的数据啊，你看微博，知乎，豆瓣爬的不亦乐乎。评论也是产生内容的好地方生活类点评网站旅游类点评网站音乐类点评只要有点评的地方，总有成千上万...

99+

2023-01-31

爬虫入门教程 Python
Python爬虫入门教程 41-100

爬前叨叨从40篇博客开始，我将逐步讲解一下手机APP的爬虫，关于这部分，我们尽量简化博客内容，在这部分中可能涉及到一些逆向，破解的内容，这部分尽量跳过，毕竟它涉及的东西有点复杂，并且偏离了爬虫体系太远，有兴趣的博友，可以一起研究下。之...

99+

2023-01-30

爬虫入门教程 Python
Python爬虫入门教程 40-100

爬前叨叨第40篇博客吹响号角，爬取博客园博客~本文最终抓取到了从2010年1月1日到2019年1月7日的37W+文章，后面可以分析好多东西了呢经常看博客的同志知道，博客园每个栏目下面有200页，多了的数据他就不显示了，最多显示4000...

99+

2023-01-30

爬虫入门教程 Python
Python爬虫入门教程 37-100

爬前叨叨 2019年开始了，今年计划写一整年的博客呢~，第一篇博客写一下一个外包网站的爬虫，万一你从这个外包网站弄点外快呢，呵呵哒数据分析官方网址为 https://www.clouderwork.com/ 进入全部项目列表页面...

99+

2023-01-30

爬虫入门教程 Python