如何快速上手python爬虫

2023-06-27 15:06:49 366人浏览独家记忆

Python 官方文档：入门教程 => 点击学习

摘要

这篇“如何快速上手python爬虫”文章的知识点大部分人都不太理解，所以小编给大家总结了以下内容，内容详细，步骤清晰，具有一定的借鉴价值，希望大家阅读完这篇文章能有所收获，下面我们一起来看看这篇“如何快速上手python爬虫”文章吧。“爬虫

这篇“如何快速上手python爬虫”文章的知识点大部分人都不太理解，所以小编给大家总结了以下内容，内容详细，步骤清晰，具有一定的借鉴价值，希望大家阅读完这篇文章能有所收获，下面我们一起来看看这篇“如何快速上手python爬虫”文章吧。

“爬虫”是一种形象的说法。互联网比喻成一张大网，爬虫是一个程序或脚本在这种大网上爬走。碰到虫子（资源），若是所需的资源就获取或下载下来。这个资源通常是网页、文件等等，可以通过该资源里面的url链接，顺藤摸瓜继续爬取这些链接的资源。

什么是爬虫

爬虫：一段自动抓取互联网信息的程序，从互联网上抓取对于我们有价值的信息。

Python爬虫架构

Python 爬虫架构主要由五个部分组成，分别是调度器、URL管理器、网页下载器、网页解析器、应用程序（爬取的有价值数据）。

调度器：相当于一台电脑的CPU，主要负责调度URL管理器、下载器、解析器之间的协调工作。
URL管理器：包括待爬取的URL地址和已爬取的URL地址，防止重复抓取URL和循环抓取URL，实现URL管理器主要用三种方式，通过内存、数据库、缓存 数据库来实现。
网页下载器：通过传入一个URL地址来下载网页，将网页转换成一个字符串，网页下载器有urllib2（Python官方基础模块）包括需要登录、代理、和cookie，requests(第三方包)
网页解析器：将一个网页字符串进行解析，可以按照我们的要求来提取出我们有用的信息，也可以根据DOM树的解析方式来解析。网页解析器有正则表达式（直观，将网页转成字符串通过模糊匹配的方式来提取有价值的信息，当文档比较复杂的时候，该方法提取数据的时候就会非常的困难）、html.parser（Python自带的）、beautifulsoup（第三方插件，可以使用Python自带的html.parser进行解析，也可以使用lxml进行解析，相对于其他几种来说要强大一些）、lxml（第三方插件，可以解析 xml 和 HTML），html.parser 和 beautifulsoup 以及 lxml 都是以 DOM 树的方式进行解析的。
应用程序：就是从网页中提取的有用数据组成的一个应用。

下面用一个图来解释一下调度器是如何协调工作的: 如何快速上手python爬虫

urllib2 实现下载网页的三种方式

#!/usr/bin/python# -*- coding: UTF-8 -*-import cookielibimport urllib2url = "Http://www.baidu.com"response1 = urllib2.urlopen(url)print "第一种方法"#获取状态码，200表示成功print response1.getcode()#获取网页内容的长度print len(response1.read())print "第二种方法"request = urllib2.Request(url)#模拟Mozilla浏览器进行爬虫request.add_header("user-agent","Mozilla/5.0")response2 = urllib2.urlopen(request)print response2.getcode()print len(response2.read())print "第三种方法"cookie = cookielib.Cookiejar()#加入urllib2处理cookie的能力opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))urllib2.install_opener(opener)response3 = urllib2.urlopen(url)print response3.getcode()print len(response3.read())print cookie

第三方库 Beautiful Soup 的安装

Beautiful Soup: Python 的第三方插件用来提取 xml 和 HTML 中的数据，官网地址 https://www.crummy.com/software/BeautifulSoup/

安装 Beautiful Soup

打开 cmd（命令提示符），进入到 Python（Python2.7版本）安装目录中的 scripts 下，输入 dir 查看是否有 pip.exe, 如果用就可以使用 Python 自带的 pip 命令进行安装，输入以下命令进行安装即可：

pip install beautifulsoup4

测试是否安装成功

编写一个 Python 文件，输入:

\#!/usr/bin/python # -*- coding: UTF-8 -*- import re from bs4 import BeautifulSoup html_doc = """ The DORMouse's story  **The Dormouse's story** Once upon a time there were three little sisters; and their names were [Elsie](http://example.com/elsie), [Lacie](http://example.com/lacie) and [Tillie](http://example.com/tillie); and they lived at the bottom of a well. ... """ #创建一个BeautifulSoup解析对象 soup = BeautifulSoup(html_doc,"html.parser",from_encoding="utf-8") #获取所有的链接 links = soup.find_all('a') print "所有的链接" for link in links: print link.name,link['href'],link.get_text() print "获取特定的URL地址" link_node = soup.find('a',href="http://example.com/elsie") print link_node.name,link_node['href'],link_node['class'],link_node.get_text() print "正则表达式匹配" link_node = soup.find('a',href=re.compile(r"ti")) print link_node.name,link_node['href'],link_node['class'],link_node.get_text() print "获取P段落的文字" p_node = soup.find('p',class_='story') print p_node.name,p_node['class'],p_node.get_text()

以上就是关于“如何快速上手python爬虫”这篇文章的内容，相信大家都有了一定的了解，希望小编分享的内容对大家有帮助，若想了解更多相关的知识内容，请关注编程网Python频道。

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 如何快速上手python爬虫

本文链接: https://www.lsjlt.com/news/311403.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

如何快速上手python爬虫

这篇“如何快速上手python爬虫”文章的知识点大部分人都不太理解，所以小编给大家总结了以下内容，内容详细，步骤清晰，具有一定的借鉴价值，希望大家阅读完这篇文章能有所收获，下面我们一起来看看这篇“如何快速上手python爬虫”文章吧。“爬虫...

99+

2023-06-27
python3 爬虫零基础快速上手（爬

(补1：由于csdn页面重构了，看到有很多人浏览，特地更新一下获取内容补充的字都为绿字) Python是一种面向对象的解释型计算机程序设计语言,类似c,java ,php,JavaScript一种语言，比如，完成同一个任务，C语言要写10...

99+

2023-01-31

爬虫上手快速
教你快速上手Selenium爬虫,万物皆可爬

目录一、基本使用二、查找节点2.1 查找单个节点2.2 查找多个节点三、节点交互四、动作链五、执行 JavaScript 代码六、获取节点信息七、管理 Cookies八、改变节点属性...

99+

2024-04-02
Python爬虫：如何快速掌握Python爬虫核心技术，批量爬取网络图片

对于爬虫，很多伙伴首选的可能就是Python了吧，我们在学习Python爬虫的时候得有侧重点，这篇文章教大家如何快速掌握Python爬虫的核心！有不清楚的地方，可以留言！1. 概述本文主要实现一个简单的爬虫，目的是从一个百度贴吧页面下载图片...

99+

2023-06-02
零基础如何快速学习好Python网络爬虫

Python网络爬虫上手很快，能够尽早入门，可是想精通确实是需求些时间，需求达到爬虫工程师的级别更是需求煞费苦心了，接下来共享的学习道路是针对小白或许学习Python网络爬虫不久的同伴们。学习网络爬虫能够分三步走，如果你是大神，请直接绕...

99+

2023-01-31

爬虫快速基础
如何快速的生成一个Python爬虫请求头

今天就跟大家聊聊有关如何快速的生成一个Python爬虫请求头，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。python可以做什么Python是一种编程语言，内置了许多有效的工具，Py...

99+

2023-06-06
如何快速上手SQL

这篇文章主要为大家展示了“如何快速上手SQL”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“如何快速上手SQL”这篇文章吧。两张示例表为了方便练习SQL语法，特地...

99+

2024-04-02
如何快速上手Rollup

本篇内容主要讲解“如何快速上手Rollup”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“如何快速上手Rollup”吧!什么是rollup？系统的了解rollup...

99+

2024-04-02
如何快速上手Picasso

这篇文章将为大家详细讲解有关如何快速上手Picasso，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。Picasso是Square公司出品的一款非常优秀的开源图片加载库，是目前Android开发中超级流行的...

99+

2023-06-27
如何快速上手Vue3

这篇文章主要讲解了“如何快速上手Vue3”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“如何快速上手Vue3”吧！Vue2 与 Vue3 的对比对 TypeS...

99+

2024-04-02
如何快速上手MongoDB

小编给大家分享一下如何快速上手MongoDB，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！MongoDB 是一个基于分布式文件存储的数据库。由 C++ 语言编写。...

99+

2023-06-27
如何快速上手PostgreSQL

本篇内容介绍了“如何快速上手PostgreSQL”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！一、安装首先，安装PostgreSQL客户端。...

99+

2023-06-27
如何快速上手SaltStack

这篇文章给大家分享的是有关如何快速上手SaltStack的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。SaltStack是一个服务器基础架构集中化管理平台，具备配置管理、远程执行、监控等功能，基于Python语言...

99+

2023-06-27
如何快速上手MMdnn

这篇“如何快速上手MMdnn”文章的知识点大部分人都不太理解，所以小编给大家总结了以下内容，内容详细，步骤清晰，具有一定的借鉴价值，希望大家阅读完这篇文章能有所收获，下面我们一起来看看这篇“如何快速上手MMdnn”文章吧。MMdnn 是微软...

99+

2023-06-27
如何快速上手GitHub

这篇文章给大家分享的是有关如何快速上手GitHub的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。GitHub 是一个面向开源及私有软件项目的托管平台，因为只支持 Git 作为唯一的版本库格式进行托管，故名 Git...

99+

2023-06-27
如何快速上手coLinux

这篇文章给大家分享的是有关如何快速上手coLinux的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。colinux位是一款可以帮助用户创建虚拟系统的工具，通过该软件，您可以在电脑上运行Linux系统，支持在win中...

99+

2023-06-27
Python爬虫系列（一）——手把手教你写Python爬虫

1. 什么是爬虫？根据百度百科的定义，网络爬虫，又称为网页蜘蛛，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。人们如今的生活，大都离不开网络，发一条微信，电子支付买一杯奶茶，刷一条微博...

99+

2023-09-14

爬虫 python 数据挖掘
Python3 爬虫快速入门攻略

1、定义：网络爬虫（Web Spider），又被称为网页蜘蛛，是一种按照一定的规则，自动地抓取网站信息的程序或者脚本。 2、简介：网络蜘蛛是一个很形象的名字。如果把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘...

99+

2023-01-31

爬虫入门快速
Linux中如何快速上手Samba

这篇文章主要介绍了Linux中如何快速上手Samba，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。Samba是在Linux和UNIX系统上实现SMB协议的一个免费软件，有服务...

99+

2023-06-27
如何快速上手LINQ to XML

如何快速上手LINQ to XML，针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。操作XML的技术有很多种：1)DOM(Document O...

99+

2024-04-02