爬虫笔记1：Python爬虫常用库

爬虫常用笔记 2023-01-31 06:01:23 433人浏览独家记忆

Python 官方文档：入门教程 => 点击学习

摘要

请求库：1、urllib：urllib库是python3自带的库（python2有urllib和urllib2，到了Python3统一为urllib），这个库是爬虫里最简单的库。2、requests：requests属于第三方库，使用起来

请求库：
1、urllib：urllib库是python3自带的库（python2有urllib和urllib2，到了Python3统一为urllib），这个库是爬虫里最简单的库。
2、requests：requests属于第三方库，使用起来比urllib要简单不少，且功能更加强大，是最常用的请求库。
3、selenium：Selenium属于第三方库，它是一个自动化测试工具，可以利用它自动完成浏览器的操作，如点击，下拉，拖拽等等，通常完成ajax复杂的操作。

解析库：
1、lxml：属于第三方库，支持html和xml的解析，支持XPath的解析方式，解析效率非常高。
2、Beautiful Soup：属于第三方库，api强大，使用也方便。
3、pyquery：属于第三方库，功能强大在于CSS选择器上，对Jquery比较了解的话使用pyquery将会十分方便，因此我也比较推荐使用pyquery。

存储库：
1、PyMysql：mysql作为最常用的数据库之一，PyMysql也是爬虫后存储数据的非常好的选择，它可以实现对数据库的创建表，增删查改等操作。
2、PyMonGo：PyMongo是和mongoDB进行交互的库。
3、Redis-py：redis-py是和Redis进行交互的库。

图像识别库：
1、tesserocr：tesserocr是Python使用OCR技术来识别图像，本质是对tesseract做一层API的封装，所以在安装tesserocr之前必须先安装tesseract。

爬虫框架
1、pyspider：pyspider 是由国人 binux 编写的强大的网络爬虫系统，它带有强大的 WEBUI、脚本编辑器、任务监控器、项目管理以及结果处理器，它支持多种数据库后端、多种消息队列、javascript 渲染页面的爬取。依赖库有Phantomjs。
2、scrapy：功能极其强大，依赖库较多。

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 爬虫笔记1：Python爬虫常用库

本文链接: https://www.lsjlt.com/news/190475.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

爬虫笔记1：Python爬虫常用库

请求库：1、urllib：urllib库是Python3自带的库（Python2有urllib和urllib2，到了Python3统一为urllib），这个库是爬虫里最简单的库。2、requests：requests属于第三方库，使用起来...

99+

2023-01-31

爬虫常用笔记
python爬虫笔记-day3

正则使用的注意点re.findall("a(.*)b","str"),能够返回括号中的内容,括号前后的内容起到定位和过滤的效果原始字符串r，待匹配字符串中有反斜杠的时候，使用r能够忽视反斜杠带来的转义的效果点号默认情况匹配不到\n\s能够匹...

99+

2023-01-31

爬虫笔记 python
python简单爬虫笔记

python模拟游览器爬取相关页面 import urllib.request url="https://blog.51cto.com/itstyle/2146899" #模拟浏览器 headers=("User-Agent","Moz...

99+

2023-01-31

爬虫简单笔记
Python爬虫笔记4-Beautif

BeautifulSoup介绍与lxml一样，BeautifulSoup也是一个HTML/XML的解析器，主要功能也是如何解析和提取HTML/XML数据。几种解析工具的对比工具速度难度正则表达式最快困难 ...

99+

2023-01-31

爬虫笔记 Python
Python爬虫笔记3-解析库Xpat

当爬取到Html数据后，可以用正则对数据进行提取，但有时候正则表达式编写起来不方便，而且万一写错了，可能导致匹配失败。这时候就需要借助其他解析工具了。 XML引入什么是XML？ XML 指可扩展标记语言（EXtensible Mark...

99+

2023-01-31

爬虫笔记 Python
Python爬虫1-使用urlopen

GitHub代码练习地址：https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac01_urlopen.py 爬虫简介- 爬虫定义：网络爬虫（又被称为网页蜘蛛，网络机器...

99+

2023-01-30

爬虫 Python urlopen
python3 爬虫笔记（一）beaut

很多人学习python，爬虫入门，在python爬虫中，有很多库供开发使用。用于请求的urllib(python3)和request基本库，xpath,beautiful soup,pyquery这样的解析库。其中xpath中用到大量的...

99+

2023-01-30

爬虫笔记 beaut
Python爬虫笔记5-JSON格式数

环境：python-3.6.5 JSON JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式，它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景，比如网站前...

99+

2023-01-31

爬虫格式笔记
python爬虫Mitmproxy安装使用学习笔记

目录一、简介和安装1.1、概念和作用概念作用1.2、安装1.3、工具介绍二、设置代理2.1、PC端设置代理2.2、PC端安装证书2.3、移动端设置代理三、 mitmdump3.1、插...

99+

2024-04-02
python爬虫常用模块

python标准库之urllib模块涉及到网络这块，必不可少的模式就是urllib.request了，顾名思义这个模块主要负责打开URL和HTTP协议之类的urllib最简单的应用就是urllib.request.urlopen(url, ...

99+

2023-01-30

爬虫模块常用
python爬虫

#!/usr/bin/python import re #导入正则模块 import urllib #导入url模块 def getHtml(url): #定义获取网页函数 page = urllib.urlopen(url...

99+

2023-01-31

爬虫 python
Python 爬虫

--安装爬虫需要的库C:\python37>pip install requestsCollecting requests Downloading https://files.pythonhosted.org/packag...

99+

2023-06-02
python爬虫13：pymysql库

python爬虫13：pymysql库前言 python实现网络爬虫非常简单，只需要掌握一定的基础知识和一定的库使用技巧即可。本系列目标旨在梳理相关知识点，方便以后复习。申明 ...

99+

2023-10-07

python 爬虫开发语言
python爬虫之爬取笔趣阁小说

目录前言一、首先导入相关的模块二、向网站发送请求并获取网站数据三、拿到页面数据之后对数据进行提取四、获取到小说详情页链接之后进行详情页二次访问并获取文章数据五、对小说详情页进行静态页...

99+

2024-04-02
python—爬虫

1.1 介绍通过过滤和分析HTML代码，实现对文件、图片等资源的获取，一般用到：urllib和urllib2模块正则表达式（re模块）requests模块Scrapy框架urllib库：1）获取web页面2）在远程http服务器上验证3）表...

99+

2023-01-31

爬虫 python
【Python3爬虫】常见反爬虫措施及解

这一篇博客，是关于反反爬虫的，我会分享一些我遇到的反爬虫的措施，并且会分享我自己的解决办法。如果能对你有什么帮助的话，麻烦点一下推荐啦。 UserAgent中文名为用户代理，它使得服务器能够识别客户使用的操作系统及版本、CPU 类...

99+

2023-01-30

爬虫措施常见
Python爬虫教程-01-爬虫介绍

Python 爬虫的知识量不是特别大，但是需要不停和网页打交道，每个网页情况都有所差异，所以对应变能力有些要求参考资料精通Python爬虫框架Scrapy，人民邮电出版社 url, http web前端，html，css，...

99+

2023-01-30

爬虫教程 Python
带你入门Python爬虫，8个常用爬虫技巧盘点

python作为一门高级编程语言，它的定位是优雅、明确和简单。我学用python差不多一年时间了，用得最多的还是各类爬虫脚本：写过抓代理本机验证的脚本，写过论坛中自动登录自动发贴的脚本，写过自动收邮件的脚本，写过简单的验证码识别的脚本。这些...

99+

2023-06-05
python爬虫库有哪些

Python爬虫库有以下几个：1、Beautiful Soup一个Python的HTML/XML解析库，可以轻松地从网页中提取数据。...

99+

2023-05-13

python爬虫库 python
Python 爬虫库RoboBrowser怎么用

这篇文章主要介绍“Python 爬虫库RoboBrowser怎么用”，在日常操作中，相信很多人在Python 爬虫库RoboBrowser怎么用问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”Python 爬虫...

99+

2023-06-13