iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >2019-02-13 Python爬虫问
  • 219
分享到

2019-02-13 Python爬虫问

爬虫Python 2023-01-30 23:01:15 219人浏览 薄情痞子

Python 官方文档:入门教程 => 点击学习

摘要

soup=BeautifulSoup(html.text,'lxml') #data=soup.select('body > div.main > div.ctr > div > div.newsmcont &g

soup=BeautifulSoup(html.text,'lxml')
#data=soup.select('body > div.main > div.ctr > div > div.newsmcont > p:nth-of-type(3) > img')
#data=soup.select('body > div.main > div.ctr > div > div.newsmcont > p > img')[2]
data=soup.select('body > div.main > div.ctr > div > div.newsmcont > p:nth-child(3) > img')
print(data)

当使用copy selector时,复制的是nth-child,而soup 似乎不支持nth-child,所以会报以下错误:

NotImplementedError: Only the following pseudo-classes are implemented: nth-of-type.

将nth-child 改为 nth-of-type 就可以了。

或者去掉nth-child,在后面加上[i-1],即[2]。

关于nth-child 和 nth-type,他们都是取父元素下的第n个元素,他们的区别可以通过下面这个例子了解一下:

<div> 
<ul class="demo"> 
<p>zero</p> 
<li>one</li> 
<li>two</li> 
</ul> 
</div>

上面这个例子,.demo li:nth-child(2)选择的是<li>one</li>节点,.demo li:nth-of-type(2)则选择的是<li>two</li>节点。

--结束END--

本文标题: 2019-02-13 Python爬虫问

本文链接: https://www.lsjlt.com/news/181085.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 2019-02-13 Python爬虫问
    soup=BeautifulSoup(html.text,'lxml') #data=soup.select('body > div.main > div.ctr > div > div.newsmcont &g...
    99+
    2023-01-30
    爬虫 Python
  • Python爬虫-02:HTTPS请求与
    目录 1. HTTP和HTTPS 1.1. HTTP的请求和响应流程:打开一个网页的过程 1.2. URL 2. ...
    99+
    2023-01-30
    爬虫 Python HTTPS
  • python爬虫13:pymysql库
    python爬虫13:pymysql库 前言 ​ python实现网络爬虫非常简单,只需要掌握一定的基础知识和一定的库使用技巧即可。本系列目标旨在梳理相关知识点,方便以后复习。 申明 ​ ...
    99+
    2023-10-07
    python 爬虫 开发语言
  • 02 python网络爬虫《Http和H
    一.HTTP协议   1.概念:     Http协议就是服务器(Server)和客户端(Client)之间进行数据交互(相互传输数据)的一种形式。 之间形成的特殊行话(黑话:(土匪)天王盖地虎,(我)宝塔镇河妖)称为协议。   2.Ht...
    99+
    2023-01-31
    爬虫 网络 python
  • 2019-02-18 扩展Python控
    "中文编程"知乎专栏原文地址 续前文扩展Python控制台实现中文反馈信息, 实现了如下效果: >>> 学 Traceback (most recent call last): File "<console&...
    99+
    2023-01-30
    Python
  • 2019-02-10 扩展Python控
    "中文编程"知乎专栏原文地址 参考了周蟒的实现, 运行效果如下: $ python3 解释器.py Python 3.6.5 (v3.6.5:f59c0932b4, Mar 28 2018, 05:52:31) [GCC 4.2.1 C...
    99+
    2023-01-30
    Python
  • Python爬虫问题有哪些
    本篇内容主要讲解“Python爬虫问题有哪些”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Python爬虫问题有哪些”吧! 现在爬虫好找工作吗?如果是一年前我可能会说爬虫的工作还是挺好找的,但现...
    99+
    2023-06-02
  • python爬虫
    #!/usr/bin/python import re #导入正则模块 import urllib #导入url模块 def getHtml(url): #定义获取网页函数 page = urllib.urlopen(url...
    99+
    2023-01-31
    爬虫 python
  • Python 爬虫
    --安装爬虫需要的库C:\python37>pip install requestsCollecting requests  Downloading https://files.pythonhosted.org/packag...
    99+
    2023-06-02
  • python—爬虫
    1.1 介绍通过过滤和分析HTML代码,实现对文件、图片等资源的获取,一般用到:urllib和urllib2模块正则表达式(re模块)requests模块Scrapy框架urllib库:1)获取web页面2)在远程http服务器上验证3)表...
    99+
    2023-01-31
    爬虫 python
  • Python爬虫教程-01-爬虫介绍
    Python 爬虫的知识量不是特别大,但是需要不停和网页打交道,每个网页情况都有所差异,所以对应变能力有些要求 参考资料 精通Python爬虫框架Scrapy,人民邮电出版社 url, http web前端,html,css,...
    99+
    2023-01-30
    爬虫 教程 Python
  • python爬虫(六)
    Scrapy(一) scrapy是一个网络爬虫的通用框架,在许多应用当中可以用于数据提取,信息处理等。 如何安装scrapy呢? 如果你安装了Anaconda,则可以使用:conda install scrapy进行安装,如果没有,但电脑...
    99+
    2023-01-30
    爬虫 python
  • python爬虫(二)
    HTTP和HTTPS HTTP,全称超文本传送协议,是属于计算机网络中应用层的协议,而HTTPS是HTTP加上SSL,HTTP是明文传输,速度快,但安全系数很低,而HTTPS比HTTP安全很多,但缺点是传输速度比较慢。 一.HTTP之请求...
    99+
    2023-01-30
    爬虫 python
  • python爬虫(四)
    Json,lxml模块 一.JSON模块 Json是一种网络中常用的数据交换类型,一个文件要想在网络进行传输,需要将文件转换为一种便于在网络之间传输的类型,便于人们进行阅读,json就是这样应运而生的。Json中的数据是由键值对构成的,与...
    99+
    2023-01-30
    爬虫 python
  • Python 爬虫—scrapy
    scrapy用于从网站中提取所需数据的开源协作框架。以一种快速、简单但可扩展的方式。 该爬虫框架适合于那种静态页面, js 加载的话,如果你无法模拟它的 API 请求,可能就需要使用 seleni...
    99+
    2023-09-06
    python 爬虫 scrapy
  • Python爬虫-04:贴吧爬虫以及GE
    目录 1. URL的组成 2. 贴吧爬虫 2.1. 只爬贴吧第一页 2.2. 爬取所有贴吧的页面 ...
    99+
    2023-01-30
    爬虫 贴吧 Python
  • 爬虫笔记1:Python爬虫常用库
    请求库:1、urllib:urllib库是Python3自带的库(Python2有urllib和urllib2,到了Python3统一为urllib),这个库是爬虫里最简单的库。2、requests:requests属于第三方库,使用起来...
    99+
    2023-01-31
    爬虫 常用 笔记
  • Python爬虫入门:爬虫基础了解
    Python爬虫入门(1):综述 Python爬虫入门(2):爬虫基础了解 Python爬虫入门(3):Urllib库的基本使用 Python爬虫入门(4):Urllib库的高级用法 Python爬虫入门(5):URLError异常...
    99+
    2023-01-30
    爬虫 入门 基础
  • Python3网络爬虫实战-13、部署相
    在将 Scrapy 代码部署到远程 Scrapyd 的时候,其第一步就是要将代码打包为 Egg 文件,其次需要将 Egg 文件上传到远程主机,这个过程如果我们用程序来实现是完全可以的,但是我们并不需要做这些工作,因为 ScrapydCli...
    99+
    2023-01-31
    爬虫 实战 网络
  • 55. Python 爬虫(4)
    webdriverSelenium是ThroughtWorks公司开发的一套Web自动化测试工具。它分为三个组件:Selenium IDE Selenium RC (Remote Control) Selenium WebdriverSel...
    99+
    2023-01-31
    爬虫 Python
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作