首页 > 资讯 > 后端开发 > Python >Python爬虫基础入门实例分析

287

分享到

Python爬虫基础入门实例分析

2023-06-27 10:06:15 287人浏览薄情痞子

Python 官方文档：入门教程 => 点击学习

摘要

这篇文章主要介绍“python爬虫基础入门实例分析”的相关知识，小编通过实际案例向大家展示操作过程，操作方法简单快捷，实用性强，希望这篇“python爬虫基础入门实例分析”文章能帮助大家解决问题。 &

这篇文章主要介绍“python爬虫基础入门实例分析”的相关知识，小编通过实际案例向大家展示操作过程，操作方法简单快捷，实用性强，希望这篇“python爬虫基础入门实例分析”文章能帮助大家解决问题。

首先，屏幕前的小伙伴们需要先安装 requests 库，安装之前需先安装好 Python 环境，如未安装，小编在这给小伙伴们提供最新的 Python 编译器安装教程：Python 最新 3.9.0 编译器安装教程。

安装好 Python 环境后，windows 用户打开 cmd 命令输入以下命令即可（其余系统安装大致相同）。

pip install requests

linux 用户：

sudo pip install requests

接下来就是实例讲解啦，小伙伴们多多动手操练呐！

1、爬取百度首页页面，并获取页面信息

实例

# 爬取百度页面

import requests #导入requests爬虫库

resp = requests.get('Http://www.baidu.com') #生成一个response对象

resp.encoding = 'utf-8' #设置编码格式为 utf-8

print(resp.status_code) #打印状态码

print(resp.text) #输出爬取的信息

2、requests 库 get 方法实例

在此之前先给大家介绍一个网址：httpbin.org，这个网站能测试 HTTP 请求和响应的各种信息，比如 cookie、ip、headers 和登录验证等，且支持 GET、POST 等多种方法，对 WEB 开发和测试很有帮助。它用 Python + flask 编写，是一个开源项目。

官方网站：http://httpbin.org/

开源地址：https://GitHub.com/Runscope/httpbin

实例

# get方法实例

import requests #导入requests爬虫库

resp5、爬取网页图片，并保存到本地。5、爬取网页图片，并保存到本地。 = requests.get("http://httpbin.org/get") #get方法

print( resp.status_code ) #打印状态码

print( resp.text ) #输出爬取的信息

3、requests 库 post 方法实例

实例

# post方法实例

import requests #导入requests爬虫库

resp = requests.post("http://httpbin.org/post") #post方法

print( resp.status_code ) #打印状态码

print( resp.text ) #输出爬取的信息

4、requests库 put 方法实例

实例

# put方法实例

import requests #导入requests爬虫库

resp = requests.put("http://httpbin.org/put") # put方法

print( resp.status_code ) #打印状态码

print( resp.text ) #输出爬取的信息

5、requests 库 get 方法传参

想要使用 get 方法传递参数，有两种方法可行：

在 get 方法之后加上要传递的参数用“=”号链接并用“&”符号隔开；
使用 params 字典传递多个参数。实例如下：

实例

# get传参方法实例1

import requests #导入requests爬虫库

resp = requests.get("http://httpbin.org/get?name=w3cschool&age=100") # get传参

print( resp.status_code ) #打印状态码

print( resp.text ) #输出爬取的信息

实例

# get传参方法实例2

import requests #导入requests爬虫库

data = {

"name":"w3cschool",

"age":100

} #使用字典存储传递参数

resp = requests.get( "http://httpbin.org/get" , params=data ) # get传参

print( resp.status_code ) #打印状态码

print( resp.text ) #输出爬取的信息

6、requests 库 post 方法传参

使用 post 方法传递参数和使用 get 方法传递参数的方法二是类似的。实例如下：

实例

# post传参方法实例

import requests #导入requests爬虫库

data = {

"name":"w3cschool",

"age":100

} #使用字典存储传递参数

resp = requests.post( "http://httpbin.org/post" , params=data ) # post传参

print( resp.status_code ) #打印状态码

print( resp.text ) #输出爬取的信息

7、如何绕过各大网站的反爬虫措施，以猫眼票房为例：

实例

import requests #导入requests爬虫库

url = 'http://piaofang.maoyan.com/dashboard' #猫眼票房网址地址

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/87.0.4280.88 Safari/537.36'

} #设置头部信息,伪装浏览器

resp = requests.get(url, headers=headers) #

print(resp.status_code) #打印状态码

print(resp.text) #网页信息

8、爬取网页图片，并保存到本地。

先在E盘建立一个爬虫目录，才能够保存信息，小伙伴们可自行选择目录保存，在代码中更改相应目录代码即可。

实例

import requests #导入requests爬虫库

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'

} #设置头部信息,伪装浏览器

resp = requests.get('https://file.lsjlt.com/upload/202306/27/wlmx5zq3yjv.png', headers = headers) #get方法的到图片响应

file = open("E:\\爬虫\\test.png","wb") #打开一个文件,wb表示以二进制格式打开一个文件只用于写入

file.write(resp.content) #写入文件

file.close() #关闭文件操作

关于“Python爬虫基础入门实例分析”的内容就介绍到这里了，感谢大家的阅读。如果想了解更多行业相关的知识，可以关注编程网Python频道，小编每天都会为大家更新不同的知识点。

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Python爬虫基础入门实例分析

本文链接: https://www.lsjlt.com/news/309623.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

PythonOOP 的力量：封装与抽象类的超级英雄联盟

...

99+

2024-05-15
Python 代码的建筑师：封装与抽象类的蓝图和构建工具

...

99+

2024-05-15
PythonOOP 的航海图：封装与抽象类的船帆和指南针

...

99+

2024-05-15
Python 封装与抽象类的实验室：试验和发现的乐趣

...

99+

2024-05-15
Python 代码的可读性之钥：封装与抽象类的解读指南

...

99+

2024-05-15
PythonOOP 的秘密花园：封装与抽象类的花卉盛宴

...

99+

2024-05-15
Python 代码的组织大师：封装与抽象类的秩序之道

...

99+

2024-05-15
Python 封装与抽象类的终极秘籍：通往对象导向编程之路

...

99+

2024-05-15
PythonOOP 的宝藏：封装与抽象类的寻宝之旅

...

99+

2024-05-15
Python 代码的救星：封装与抽象类的代码重构秘籍

...

99+

2024-05-15

软考高级职称资格查询

软考职称历年真题下载

2023下半年-信息系统项目管理师-真题考点汇总（完整版）
164.2 KB 查看
2023年下半年信息系统项目管理师第一、二批次各科目真题考点整理(考友回忆版)
143.67 KB 查看
2023上半年软考高级《信息系统项目管理师》真题答案（抢先版）
500.26 KB 查看
2022年下半年软考高级职称考试考情分析
823.36 KB 查看
2022年下半年软考高级职称考试真题
569.84 KB 查看

软考职称资料下载

热门wiki

近期文章

基于聚合数据的短信API接口调用示例-Python版

基于聚合数据的老黄历接口调用示例-Python版

基于Python的免费手机号码归属地查询

基于Python的免费IP地址归属地查询

python利用pyqt5和opencv打开电脑摄像头并进行拍照

用python 修改word中表格数据，插入图片 +实例分析

基于Python的免费天气预报接口查询

基于Python的免费新闻头条接口查询

PythonOOP 的力量：封装与抽象类的超级英雄联盟

Python 代码的建筑师：封装与抽象类的蓝图和构建工具

回答

如何调试操作系统的错误？
操作系统

2023-11-15发布

回答

操作系统中的I/O系统是如何实现的？
操作系统

2023-11-15发布

回答

如何实现操作系统的内存管理？
操作系统

2023-11-15发布

回答

什么是虚拟内存，它对操作系统有什么影响？
操作系统

2023-11-15发布

回答

ASP中的MVC架构和WebForms架构有什么区别和使用场景？
ASP.NET

2023-11-15发布

回答

ASP中的数据验证和数据校验有什么不同？
ASP.NET

2023-11-15发布

回答

ASP中的ADO对象和DAO对象有什么区别和使用方法？
ASP.NET

2023-11-15发布

回答

Node.js中的包管理器NPM是什么？如何使用它进行依赖管理？
node.js

2023-11-15发布

回答

Vue.js中的动态组件是什么？如何使用它来动态渲染组件？
VUE

2023-11-15发布

回答

如何使用Vue.js实现懒加载和预加载？
VUE

2023-11-15发布

Python爬虫基础入门实例分析

实例

实例

实例

实例

实例

实例

实例

实例

实例

本篇文章演示代码以及资料文档资料下载

PythonOOP 的力量：封装与抽象类的超级英雄联盟

Python 代码的建筑师：封装与抽象类的蓝图和构建工具

PythonOOP 的航海图：封装与抽象类的船帆和指南针

Python 封装与抽象类的实验室：试验和发现的乐趣

Python 代码的可读性之钥：封装与抽象类的解读指南

PythonOOP 的秘密花园：封装与抽象类的花卉盛宴

Python 代码的组织大师：封装与抽象类的秩序之道

Python 封装与抽象类的终极秘籍：通往对象导向编程之路

PythonOOP 的宝藏：封装与抽象类的寻宝之旅

Python 代码的救星：封装与抽象类的代码重构秘籍

python分析数据的方法是什么

如何使用Python实现抽奖小程序

python copy函数的作用是什么

python进程池创建队列的方法是什么

python字符串处理与应用的方法有哪些

python全局变量如何定义

python如何读取文件夹下所有文件

python keyerror错误怎么解决

python如何提取字符串的数字

python中怎么将回车作为输入内容