2019-02-13 Python爬虫问

爬虫 Python 2023-01-30 23:01:15 219人浏览薄情痞子

Python 官方文档：入门教程 => 点击学习

摘要

soup=BeautifulSoup(html.text,'lxml') #data=soup.select('body > div.main > div.ctr > div > div.newsmcont &g

soup=BeautifulSoup(html.text,'lxml')
#data=soup.select('body > div.main > div.ctr > div > div.newsmcont > p:nth-of-type(3) > img')
#data=soup.select('body > div.main > div.ctr > div > div.newsmcont > p > img')[2]
data=soup.select('body > div.main > div.ctr > div > div.newsmcont > p:nth-child(3) > img')
print（data）

当使用copy selector时，复制的是nth-child,而soup 似乎不支持nth-child,所以会报以下错误：

NotImplementedError: Only the following pseudo-classes are implemented: nth-of-type.

将nth-child 改为 nth-of-type 就可以了。

或者去掉nth-child,在后面加上[i-1],即[2]。

关于nth-child 和 nth-type，他们都是取父元素下的第n个元素，他们的区别可以通过下面这个例子了解一下：

<div> 
<ul class="demo"> 
<p>zero</p> 
<li>one</li> 
<li>two</li> 
</ul> 
</div>

上面这个例子，.demo li:nth-child(2)选择的是<li>one</li>节点，而.demo li:nth-of-type(2)则选择的是<li>two</li>节点。

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 2019-02-13 Python爬虫问

本文链接: https://www.lsjlt.com/news/181085.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

2019-02-13 Python爬虫问

soup=BeautifulSoup(html.text,'lxml') #data=soup.select('body > div.main > div.ctr > div > div.newsmcont &g...

99+

2023-01-30

爬虫 Python
Python爬虫-02：HTTPS请求与

目录 1. HTTP和HTTPS 1.1. HTTP的请求和响应流程：打开一个网页的过程 1.2. URL 2. ...

99+

2023-01-30

爬虫 Python HTTPS
python爬虫13：pymysql库

python爬虫13：pymysql库前言 python实现网络爬虫非常简单，只需要掌握一定的基础知识和一定的库使用技巧即可。本系列目标旨在梳理相关知识点，方便以后复习。申明 ...

99+

2023-10-07

python 爬虫开发语言
02 python网络爬虫《Http和H

一.HTTP协议　　1.概念: 　　　　Http协议就是服务器(Server)和客户端(Client)之间进行数据交互(相互传输数据)的一种形式。之间形成的特殊行话（黑话：（土匪）天王盖地虎，（我）宝塔镇河妖）称为协议。　　2.Ht...

99+

2023-01-31

爬虫网络 python
2019-02-18 扩展Python控

"中文编程"知乎专栏原文地址续前文扩展Python控制台实现中文反馈信息, 实现了如下效果: >>> 学 Traceback (most recent call last): File "<console&...

99+

2023-01-30

Python
2019-02-10 扩展Python控

"中文编程"知乎专栏原文地址参考了周蟒的实现, 运行效果如下: $ python3 解释器.py Python 3.6.5 (v3.6.5:f59c0932b4, Mar 28 2018, 05:52:31) [GCC 4.2.1 C...

99+

2023-01-30

Python
Python爬虫问题有哪些

本篇内容主要讲解“Python爬虫问题有哪些”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“Python爬虫问题有哪些”吧! 现在爬虫好找工作吗？如果是一年前我可能会说爬虫的工作还是挺好找的，但现...

99+

2023-06-02
python爬虫

#!/usr/bin/python import re #导入正则模块 import urllib #导入url模块 def getHtml(url): #定义获取网页函数 page = urllib.urlopen(url...

99+

2023-01-31

爬虫 python
Python 爬虫

--安装爬虫需要的库C:\python37>pip install requestsCollecting requests Downloading https://files.pythonhosted.org/packag...

99+

2023-06-02
python—爬虫

1.1 介绍通过过滤和分析HTML代码，实现对文件、图片等资源的获取，一般用到：urllib和urllib2模块正则表达式（re模块）requests模块Scrapy框架urllib库：1）获取web页面2）在远程http服务器上验证3）表...

99+

2023-01-31

爬虫 python
Python爬虫教程-01-爬虫介绍

Python 爬虫的知识量不是特别大，但是需要不停和网页打交道，每个网页情况都有所差异，所以对应变能力有些要求参考资料精通Python爬虫框架Scrapy，人民邮电出版社 url, http web前端，html，css，...

99+

2023-01-30

爬虫教程 Python
python爬虫（六）

Scrapy(一) scrapy是一个网络爬虫的通用框架，在许多应用当中可以用于数据提取，信息处理等。如何安装scrapy呢？如果你安装了Anaconda，则可以使用：conda install scrapy进行安装，如果没有，但电脑...

99+

2023-01-30

爬虫 python
python爬虫（二）

HTTP和HTTPS HTTP，全称超文本传送协议，是属于计算机网络中应用层的协议，而HTTPS是HTTP加上SSL，HTTP是明文传输，速度快，但安全系数很低，而HTTPS比HTTP安全很多，但缺点是传输速度比较慢。一．HTTP之请求...

99+

2023-01-30

爬虫 python
python爬虫（四）

Json，lxml模块一.JSON模块 Json是一种网络中常用的数据交换类型，一个文件要想在网络进行传输，需要将文件转换为一种便于在网络之间传输的类型，便于人们进行阅读，json就是这样应运而生的。Json中的数据是由键值对构成的，与...

99+

2023-01-30

爬虫 python
Python 爬虫—scrapy

scrapy用于从网站中提取所需数据的开源协作框架。以一种快速、简单但可扩展的方式。该爬虫框架适合于那种静态页面， js 加载的话，如果你无法模拟它的 API 请求，可能就需要使用 seleni...

99+

2023-09-06

python 爬虫 scrapy
Python爬虫-04：贴吧爬虫以及GE

目录 1. URL的组成 2. 贴吧爬虫 2.1. 只爬贴吧第一页 2.2. 爬取所有贴吧的页面 ...

99+

2023-01-30

爬虫贴吧 Python
爬虫笔记1：Python爬虫常用库

请求库：1、urllib：urllib库是Python3自带的库（Python2有urllib和urllib2，到了Python3统一为urllib），这个库是爬虫里最简单的库。2、requests：requests属于第三方库，使用起来...

99+

2023-01-31

爬虫常用笔记
Python爬虫入门：爬虫基础了解

Python爬虫入门（1）：综述 Python爬虫入门（2）：爬虫基础了解 Python爬虫入门（3）：Urllib库的基本使用 Python爬虫入门（4）：Urllib库的高级用法 Python爬虫入门（5）：URLError异常...

99+

2023-01-30

爬虫入门基础
Python3网络爬虫实战-13、部署相

在将 Scrapy 代码部署到远程 Scrapyd 的时候，其第一步就是要将代码打包为 Egg 文件，其次需要将 Egg 文件上传到远程主机，这个过程如果我们用程序来实现是完全可以的，但是我们并不需要做这些工作，因为 ScrapydCli...

99+

2023-01-31

爬虫实战网络
55. Python 爬虫（4）

webdriverSelenium是ThroughtWorks公司开发的一套Web自动化测试工具。它分为三个组件：Selenium IDE Selenium RC (Remote Control) Selenium WebdriverSel...

99+

2023-01-31

爬虫 Python