iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >爬虫笔记1:Python爬虫常用库
  • 433
分享到

爬虫笔记1:Python爬虫常用库

爬虫常用笔记 2023-01-31 06:01:23 433人浏览 独家记忆

Python 官方文档:入门教程 => 点击学习

摘要

请求库:1、urllib:urllib库是python3自带的库(python2有urllib和urllib2,到了Python3统一为urllib),这个库是爬虫里最简单的库。2、requests:requests属于第三方库,使用起来

请求库:
1、urllib:urllib库是python3自带的库(python2有urllib和urllib2,到了Python3统一为urllib),这个库是爬虫里最简单的库。
2、requests:requests属于第三方库,使用起来比urllib要简单不少,且功能更加强大,是最常用的请求库。
3、selenium:Selenium属于第三方库,它是一个自动化测试工具,可以利用它自动完成浏览器的操作,如点击,下拉,拖拽等等,通常完成ajax复杂的操作。


解析库:
1、lxml:属于第三方库,支持html和xml的解析,支持XPath的解析方式,解析效率非常高。
2、Beautiful Soup:属于第三方库,api强大,使用也方便。
3、pyquery:属于第三方库,功能强大在于CSS选择器上,对Jquery比较了解的话使用pyquery将会十分方便,因此我也比较推荐使用pyquery。


存储库:
1、PyMysqlmysql作为最常用的数据库之一,PyMysql也是爬虫后存储数据的非常好的选择,它可以实现对数据库的创建表,增删查改等操作。
2、PyMonGo:PyMongo是和mongoDB进行交互的库。
3、Redis-py:redis-py是和Redis进行交互的库。


图像识别库:
1、tesserocr:tesserocr是Python使用OCR技术来识别图像,本质是对tesseract做一层API的封装,所以在安装tesserocr之前必须先安装tesseract。


爬虫框架
1、pyspider:pyspider 是由国人 binux 编写的强大的网络爬虫系统,它带有强大的 WEBUI、脚本编辑器、任务监控器、项目管理以及结果处理器,它支持多种数据库后端、多种消息队列javascript 渲染页面的爬取。依赖库有Phantomjs
2、scrapy:功能极其强大,依赖库较多。

--结束END--

本文标题: 爬虫笔记1:Python爬虫常用库

本文链接: https://www.lsjlt.com/news/190475.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 爬虫笔记1:Python爬虫常用库
    请求库:1、urllib:urllib库是Python3自带的库(Python2有urllib和urllib2,到了Python3统一为urllib),这个库是爬虫里最简单的库。2、requests:requests属于第三方库,使用起来...
    99+
    2023-01-31
    爬虫 常用 笔记
  • python爬虫笔记-day3
    正则使用的注意点re.findall("a(.*)b","str"),能够返回括号中的内容,括号前后的内容起到定位和过滤的效果原始字符串r,待匹配字符串中有反斜杠的时候,使用r能够忽视反斜杠带来的转义的效果点号默认情况匹配不到\n\s能够匹...
    99+
    2023-01-31
    爬虫 笔记 python
  • python简单爬虫笔记
    python模拟游览器爬取相关页面 import urllib.request url="https://blog.51cto.com/itstyle/2146899" #模拟浏览器 headers=("User-Agent","Moz...
    99+
    2023-01-31
    爬虫 简单 笔记
  • Python爬虫笔记4-Beautif
    BeautifulSoup介绍 与lxml一样,BeautifulSoup也是一个HTML/XML的解析器,主要功能也是如何解析和提取HTML/XML数据。 几种解析工具的对比 工具 速度 难度 正则表达式 最快 困难 ...
    99+
    2023-01-31
    爬虫 笔记 Python
  • Python爬虫笔记3-解析库Xpat
    当爬取到Html数据后,可以用正则对数据进行提取,但有时候正则表达式编写起来不方便,而且万一写错了,可能导致匹配失败。这时候就需要借助其他解析工具了。 XML引入 什么是XML? XML 指可扩展标记语言(EXtensible Mark...
    99+
    2023-01-31
    爬虫 笔记 Python
  • Python爬虫1-使用urlopen
    GitHub代码练习地址:https://github.com/Neo-ML/PythonPractice/blob/master/SpiderPrac01_urlopen.py 爬虫简介- 爬虫定义:网络爬虫(又被称为网页蜘蛛,网络机器...
    99+
    2023-01-30
    爬虫 Python urlopen
  • python3 爬虫笔记(一)beaut
    很多人学习python,爬虫入门,在python爬虫中,有很多库供开发使用。 用于请求的urllib(python3)和request基本库,xpath,beautiful soup,pyquery这样的解析库。其中xpath中用到大量的...
    99+
    2023-01-30
    爬虫 笔记 beaut
  • Python爬虫笔记5-JSON格式数
    环境:python-3.6.5 JSON JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前...
    99+
    2023-01-31
    爬虫 格式 笔记
  • python爬虫Mitmproxy安装使用学习笔记
    目录一、简介和安装1.1、概念和作用概念作用1.2、安装1.3、工具介绍二、设置代理2.1、PC端设置代理2.2、PC端安装证书2.3、移动端设置代理三、 mitmdump3.1、插...
    99+
    2024-04-02
  • python爬虫常用模块
    python标准库之urllib模块涉及到网络这块,必不可少的模式就是urllib.request了,顾名思义这个模块主要负责打开URL和HTTP协议之类的urllib最简单的应用就是urllib.request.urlopen(url, ...
    99+
    2023-01-30
    爬虫 模块 常用
  • python爬虫
    #!/usr/bin/python import re #导入正则模块 import urllib #导入url模块 def getHtml(url): #定义获取网页函数 page = urllib.urlopen(url...
    99+
    2023-01-31
    爬虫 python
  • Python 爬虫
    --安装爬虫需要的库C:\python37>pip install requestsCollecting requests  Downloading https://files.pythonhosted.org/packag...
    99+
    2023-06-02
  • python爬虫13:pymysql库
    python爬虫13:pymysql库 前言 ​ python实现网络爬虫非常简单,只需要掌握一定的基础知识和一定的库使用技巧即可。本系列目标旨在梳理相关知识点,方便以后复习。 申明 ​ ...
    99+
    2023-10-07
    python 爬虫 开发语言
  • python爬虫之爬取笔趣阁小说
    目录前言一、首先导入相关的模块二、向网站发送请求并获取网站数据三、拿到页面数据之后对数据进行提取四、获取到小说详情页链接之后进行详情页二次访问并获取文章数据五、对小说详情页进行静态页...
    99+
    2024-04-02
  • python—爬虫
    1.1 介绍通过过滤和分析HTML代码,实现对文件、图片等资源的获取,一般用到:urllib和urllib2模块正则表达式(re模块)requests模块Scrapy框架urllib库:1)获取web页面2)在远程http服务器上验证3)表...
    99+
    2023-01-31
    爬虫 python
  • 【Python3爬虫】常见反爬虫措施及解
    这一篇博客,是关于反反爬虫的,我会分享一些我遇到的反爬虫的措施,并且会分享我自己的解决办法。如果能对你有什么帮助的话,麻烦点一下推荐啦。   UserAgent中文名为用户代理,它使得服务器能够识别客户使用的操作系统及版本、CPU 类...
    99+
    2023-01-30
    爬虫 措施 常见
  • Python爬虫教程-01-爬虫介绍
    Python 爬虫的知识量不是特别大,但是需要不停和网页打交道,每个网页情况都有所差异,所以对应变能力有些要求 参考资料 精通Python爬虫框架Scrapy,人民邮电出版社 url, http web前端,html,css,...
    99+
    2023-01-30
    爬虫 教程 Python
  • 带你入门Python爬虫,8个常用爬虫技巧盘点
    python作为一门高级编程语言,它的定位是优雅、明确和简单。我学用python差不多一年时间了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过论坛中自动登录自动发贴的脚本,写过自动收邮件的脚本,写过简单的验证码识别的脚本。这些...
    99+
    2023-06-05
  • python爬虫库有哪些
    Python爬虫库有以下几个:1、Beautiful Soup一个Python的HTML/XML解析库,可以轻松地从网页中提取数据。...
    99+
    2023-05-13
    python爬虫库 python
  • Python 爬虫库RoboBrowser怎么用
    这篇文章主要介绍“Python 爬虫库RoboBrowser怎么用”,在日常操作中,相信很多人在Python 爬虫库RoboBrowser怎么用问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Python 爬虫...
    99+
    2023-06-13
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作