python爬虫（四）

爬虫 python 2023-01-30 23:01:46 565人浏览八月长安

Python 官方文档：入门教程 => 点击学习

摘要

JSON，lxml模块一.jsON模块 Json是一种网络中常用的数据交换类型，一个文件要想在网络进行传输，需要将文件转换为一种便于在网络之间传输的类型，便于人们进行阅读，json就是这样应运而生的。Json中的数据是由键值对构成的，与

JSON，lxml模块

一.jsON模块
Json是一种网络中常用的数据交换类型，一个文件要想在网络进行传输，需要将文件转换为一种便于在网络之间传输的类型，便于人们进行阅读，json就是这样应运而生的。Json中的数据是由键值对构成的，与python中字典不同的是，json将数据转换为一种字符串的形式。
在电脑上如何安装json呢？
打开电脑的cmd，输入pip install json，然后在Python命令行中运行 import json,如果没有出现什么错误，说明已经成功安装了。
Json中有许多模块，我目前在爬虫中用到的就两个方法，其他的
方法等碰见了再讲解。
json.loads() #把json字符串转换为python类型
def loads(s, encoding=None, cls=None, object_hook=None, parse_float=None, parse_int=None, parse_constant=None, object_pairs_hook=None, **kw):
这是loads的源代码，可以参考一下。

json.loads('{"name":"Shara", "school":”MIT”}')
{'name': ‘Shara’, 'school': 'MIT'}

json.dumps() #把python类型转换为json字符串类型

def dumps(obj, skipkeys=False, ensure_ascii=True, check_circular=True,
allow_nan=True, cls=None, indent=None, separators=None,
default=None, sort_keys=False, **kw):
这是dumps的源代码。

dict ={'name': ‘Shara’, 'school': 'MIT'}
json.dumps(dict)
{"name":"Shara", "school":”MIT”}

二.lxml模块
介绍这个模块之前，首先要讲一点有关xpath的内容。
xpath，用于在html文件中查找某些内容的一种语法结构。html即之前讲过的服务器返回给浏览器的响应文件，或者说是xml文件，在网页“检查”中的Elements中也找召见。
具体用法：

输入//div[@class = ‘g’] ,把html中所有的这个元素选中，图中颜色部分是我选中的部分，后面还可加一些提取的符号，比如@href，就是把href中的元素提取出来，/text(),是把指定的目录下的文本提取出来。
https://www.w3.org/TR/xpath20/ 这个网站中包含了所有有关xpath的相关应用。
下面进入lxml环节。
安装，与前面许多包的安装是相同的：
pip install lxml
在python中使用时，通常写作
from lxml import etree
elements = etree.HTML(html字符串) #加入响应即可
elements.xpath() #这是就可以使用xpath模块了
将lxml重新起名为etree，国际通用惯例，记住就行。Lxml模块的作用过程是先获取一个html字符串，然后使用xpath来处理该字符串，使之成为一个elements对象，最后在对其数据进行整理，以便观察的一个流程。

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: python爬虫（四）

本文链接: https://www.lsjlt.com/news/180887.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

python爬虫（四）

Json，lxml模块一.JSON模块 Json是一种网络中常用的数据交换类型，一个文件要想在网络进行传输，需要将文件转换为一种便于在网络之间传输的类型，便于人们进行阅读，json就是这样应运而生的。Json中的数据是由键值对构成的，与...

99+

2023-01-30

爬虫 python
python爬虫第四天

昨天学到了正则表达式基础知识：原子今天开始学习第二个基础知识：元字符元字符就是正则表达式中含有特殊含义的一些字符常见的元字符及含义符号含义 . 匹配除换行符以外的任意字...

99+

2023-01-30

爬虫第四天 python
Python爬虫的两套解析方法和四种爬虫实现

【本文转载自微信公众号：数据科学家养成记，作者：louwill，转载授权请联系原作者】对于大多数朋友而言，爬虫绝对是学习python的最好的起手和入门方式。因为爬虫思维模式固定，编程模式也相对简单，一般在细节处理上积累一些经验都...

99+

2023-06-02
爬虫学习之第四章爬虫进阶之多线程爬虫

有些时候，比如下载图片，因为下载图片是一个耗时的操作。如果采用之前那种同步的方式下载。那效率肯会特别慢。这时候我们就可以考虑使用多线程的方式来下载图片。多线程介绍：多线程是为了同步完成多项任务，通过提高资源使用效率来提高系统的效率...

99+

2023-01-31

爬虫进阶第四章
爬虫框架Scrapy 之(四) ---

解析后返回可迭代对象这个对象返回以后就会被爬虫重新接收，然后进行迭代通过scrapy crawl budejie -o xx.josn/xx.xml/xx.csv 将迭代数据输出到json、xml或者csv格式的外部文件中如果...

99+

2023-01-31

爬虫框架 Scrapy
python爬虫

#!/usr/bin/python import re #导入正则模块 import urllib #导入url模块 def getHtml(url): #定义获取网页函数 page = urllib.urlopen(url...

99+

2023-01-31

爬虫 python
Python 爬虫

--安装爬虫需要的库C:\python37>pip install requestsCollecting requests Downloading https://files.pythonhosted.org/packag...

99+

2023-06-02
python—爬虫

1.1 介绍通过过滤和分析HTML代码，实现对文件、图片等资源的获取，一般用到：urllib和urllib2模块正则表达式（re模块）requests模块Scrapy框架urllib库：1）获取web页面2）在远程http服务器上验证3）表...

99+

2023-01-31

爬虫 python
Python爬虫教程-01-爬虫介绍

Python 爬虫的知识量不是特别大，但是需要不停和网页打交道，每个网页情况都有所差异，所以对应变能力有些要求参考资料精通Python爬虫框架Scrapy，人民邮电出版社 url, http web前端，html，css，...

99+

2023-01-30

爬虫教程 Python
python爬虫（六）

Scrapy(一) scrapy是一个网络爬虫的通用框架，在许多应用当中可以用于数据提取，信息处理等。如何安装scrapy呢？如果你安装了Anaconda，则可以使用：conda install scrapy进行安装，如果没有，但电脑...

99+

2023-01-30

爬虫 python
python爬虫（二）

HTTP和HTTPS HTTP，全称超文本传送协议，是属于计算机网络中应用层的协议，而HTTPS是HTTP加上SSL，HTTP是明文传输，速度快，但安全系数很低，而HTTPS比HTTP安全很多，但缺点是传输速度比较慢。一．HTTP之请求...

99+

2023-01-30

爬虫 python
Python 爬虫—scrapy

scrapy用于从网站中提取所需数据的开源协作框架。以一种快速、简单但可扩展的方式。该爬虫框架适合于那种静态页面， js 加载的话，如果你无法模拟它的 API 请求，可能就需要使用 seleni...

99+

2023-09-06

python 爬虫 scrapy
Python爬虫-04：贴吧爬虫以及GE

目录 1. URL的组成 2. 贴吧爬虫 2.1. 只爬贴吧第一页 2.2. 爬取所有贴吧的页面 ...

99+

2023-01-30

爬虫贴吧 Python
爬虫笔记1：Python爬虫常用库

请求库：1、urllib：urllib库是Python3自带的库（Python2有urllib和urllib2，到了Python3统一为urllib），这个库是爬虫里最简单的库。2、requests：requests属于第三方库，使用起来...

99+

2023-01-31

爬虫常用笔记
Python爬虫入门：爬虫基础了解

Python爬虫入门（1）：综述 Python爬虫入门（2）：爬虫基础了解 Python爬虫入门（3）：Urllib库的基本使用 Python爬虫入门（4）：Urllib库的高级用法 Python爬虫入门（5）：URLError异常...

99+

2023-01-30

爬虫入门基础
55. Python 爬虫（4）

webdriverSelenium是ThroughtWorks公司开发的一套Web自动化测试工具。它分为三个组件：Selenium IDE Selenium RC (Remote Control) Selenium WebdriverSel...

99+

2023-01-31

爬虫 Python
python爬虫基础

Note：一：简单爬虫的基本步骤1.爬虫的前奏： (1)明确目的 (2)找到数据对应的网页 (3)分析网页的结构，找到数据的位置2.爬虫第二步：__fetch_content方法模拟HTTP请求，向服务器发送这个...

99+

2023-01-30

爬虫基础 python
python图片爬虫

#!/usr/bin/env python# -*- coding:utf-8 -*-import argparseimport osimport reimport sysimport urllibi...

99+

2023-08-31

python 爬虫开发语言
python - 爬虫简介

什么是爬虫？模拟浏览器对网站服务器发送请求解析服务器返回的响应数据，并保存数据爬虫能获取哪些数据？原则上所有可以通过浏览器获取的数据都可以爬取爬虫也只能获取爬取浏览器可以正常获取的数据爬虫的应用场景？数据分析 (如电影票房、股票信...

99+

2023-09-10

爬虫
Python爬虫教程-34-分布式爬虫介

Python爬虫教程-34-分布式爬虫介绍分布式爬虫在实际应用中还算是多的，本篇简单介绍一下分布式爬虫什么是分布式爬虫分布式爬虫就是多台计算机上都安装爬虫程序，重点是联合采集。单机爬虫就是只在一台计算机上的爬虫。其实搜索引擎...

99+

2023-01-30

爬虫分布式教程