iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python爬虫入门中8个常用爬虫技巧盘点分别是怎样的
  • 734
分享到

Python爬虫入门中8个常用爬虫技巧盘点分别是怎样的

2023-06-02 05:06:03 734人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

今天就跟大家聊聊有关python爬虫入门中8个常用爬虫技巧盘点分别是怎样的,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。编程对于任何一个新手来说都不是一件容易的事情,python对于

今天就跟大家聊聊有关python爬虫入门中8个常用爬虫技巧盘点分别是怎样的,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。

编程对于任何一个新手来说都不是一件容易的事情,python对于任何一个想学习的编程的人来说的确是一个福音,阅读Python代码像是在阅读文章,源于Python语言提供了非常优雅的语法,被称为最优雅的语言之一。

Python入门

用得最多的还是各类爬虫脚本,

写过抓代理本机验证的脚本、写过论坛中自动登录自动发贴的脚本

写过自动收邮件的脚本、写过简单的验证码识别的脚本。

这些脚本有一个共性,都是和WEB相关的,

总要用到获取链接的一些方法,故累积了不少爬虫抓站的经验,

在此总结一下,那么以后做东西也就不用重复劳动了。

基本抓取网页

get方法

Python爬虫入门中8个常用爬虫技巧盘点分别是怎样的

post方法

Python爬虫入门中8个常用爬虫技巧盘点分别是怎样的

使用代理服务器

这在某些情况下比较有用,

比如IP被封了,或者比如IP访问的次数受到限制等等。

Python爬虫入门中8个常用爬虫技巧盘点分别是怎样的

Cookies处理

Python爬虫入门中8个常用爬虫技巧盘点分别是怎样的

是的没错,如果想同时用代理和cookie,

那就加入proxy_support然后operner改为 ,如下:

Python爬虫入门中8个常用爬虫技巧盘点分别是怎样的

伪装成浏览器访问

某些网站反感爬虫的到访,于是对爬虫一律拒绝请求。

这时候我们需要伪装成浏览器,

这可以通过修改Http包中的header来实现:

Python爬虫入门中8个常用爬虫技巧盘点分别是怎样的

页面解析

对于页面解析最强大的当然是正则表达式

这个对于不同网站不同的使用者都不一样,就不用过多的说明。

Python爬虫入门中8个常用爬虫技巧盘点分别是怎样的

很多时候跟着书和网站查找资料学习,会发现没有目标,学了很多却不知道自己到底能够做出什么成绩。要有一个清晰的职业学习规划,学习过程中会遇到很多问题,你可以到我们的 python学习交流群【 784758214 】,基础,进阶。从企业招聘人才需求 到怎么学习python,和学习什么内容都有免费系统分享,让你无论是自学还是找相应的培训都能让你少走弯路。希望可以帮助你快速了解Python,学习python

其次就是解析库了,常用的有两个lxml和BeautifulSoup。

对于这两个库,我的评价是,

都是html/XML的处理库,Beautifulsoup纯python实现,效率低,

但是功能实用,比如能用通过结果搜索获得某个HTML节点的源码

lxmlC语言编码,高效,支持Xpath。

验证码的处理

碰到验证码咋办?

这里分两种情况处理:

Google那种验证码,没办法。

简单的验证码:字符个数有限,只使用了简单的平移或旋转加噪音而没有扭曲的,

这种还是有可能可以处理的,一般思路是旋转的转回来,噪音去掉,

然后划分单个字符,划分好了以后再通过特征提取的方法(例如PCA)降维并生成特征库,

然后把验证码和特征库进行比较。

这个比较复杂,这里就不展开了,

具体做法请弄本相关教科书好好研究一下。

gzip/deflate支持

现在的网页普遍支持gzip压缩,这往往可以解决大量传输时间,

以VeryCD的主页为例,未压缩版本247K,压缩了以后45K,为原来的1/5。

这就意味着抓取速度会快5倍。

然而python的urllib/urllib2默认都不支持压缩

要返回压缩格式,必须在request的header里面写明’accept-encoding’,

然后读取response后更要检查header查看是否有’content-encoding’一项来判断是否需要解码,很繁琐琐碎。

如何让urllib2自动支持gzip, defalte呢?

其实可以继承BaseHanlder类,

然后build_opener的方式来处理:

Python爬虫入门中8个常用爬虫技巧盘点分别是怎样的

多线程并发抓取

线程太慢的话,就需要多线程了,

这里给个简单的线程池模板 这个程序只是简单地打印了1-10,

但是可以看出是并发的。

虽然说Python的多线程很鸡肋

但是对于爬虫这种网络频繁型,

还是能一定程度提高效率的。

Python爬虫入门中8个常用爬虫技巧盘点分别是怎样的

总结

阅读Python编写的代码感觉像在阅读英语一样,这让使用者可以专注于解决问题而不是去搞明白语言本身。

Python虽然是基于C语言编写,但是摒弃了C中复杂的指针,使其变得简明易学。

并且作为开源软件,Python允许对代码进行阅读,拷贝甚至改进。

这些性能成就了Python的高效率,有“人生苦短,我用Python”之说,是一种十分精彩又强大的语言。

总而言之,开始学Python一定要注意这4点:

代码规范,这本身就是一个非常好的习惯,如果开始不养好好的代码规划,以后会很痛苦。

多动手,少看书,很多人学Python就一味的看书,这不是学数学物理,你看例题可能就会了,学习Python主要是学习编程思想。

勤练习,学完新的知识点,一定要记得如何去应用,不然学完就会忘,学我们这行主要都是实际操作。

学习要有效率,如果自己都觉得效率非常低,那就停不停,找一下原因,去问问过来人这是为什么。

看完上述内容,你们对Python爬虫入门中8个常用爬虫技巧盘点分别是怎样的有进一步的了解吗?如果还想了解更多知识或者相关内容,请关注编程网Python频道,感谢大家的支持。

--结束END--

本文标题: Python爬虫入门中8个常用爬虫技巧盘点分别是怎样的

本文链接: https://www.lsjlt.com/news/229074.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Python爬虫入门中8个常用爬虫技巧盘点分别是怎样的
    今天就跟大家聊聊有关Python爬虫入门中8个常用爬虫技巧盘点分别是怎样的,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。编程对于任何一个新手来说都不是一件容易的事情,Python对于...
    99+
    2023-06-02
  • 带你入门Python爬虫,8个常用爬虫技巧盘点
    python作为一门高级编程语言,它的定位是优雅、明确和简单。我学用python差不多一年时间了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过论坛中自动登录自动发贴的脚本,写过自动收邮件的脚本,写过简单的验证码识别的脚本。这些...
    99+
    2023-06-05
  • Python爬虫的8个常用技巧分别是什么
    这篇文章将为大家详细讲解有关Python爬虫的8个常用技巧分别是什么,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。python作为一门高级编程语言,它的定位是优雅、明确和简单。我学用pyth...
    99+
    2023-06-04
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作