iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >python 数据分析之 HTML文件解析
  • 798
分享到

python 数据分析之 HTML文件解析

htmlpython数据分析 2023-09-02 14:09:04 798人浏览 薄情痞子

Python 官方文档:入门教程 => 点击学习

摘要

python 数据分析之 html文件解析 一 :Html1. Html 理解2. Html 介绍3. Html 构成4. HTML结构 介绍1> HTML文件结构A: 文档类型声明B: 根标

python 数据分析html文件解析

一 :Html

1. Html 理解

HTML 是用来描述网页的一种语言。HTML 是一种在 WEB 上使用的通用标记语言。HTML 允许你格式化文本,添加图片,创建链接、输入表单、框架和表格等等,并可将之存为文本文件,浏览器即可读取和显示。

HTML 指的是超文本标记语言: HyperText Markup Language
HTML 不是一种编程语言,而是一种标记语言
标记语言是一套标记标签 (markup tag)
HTML 使用标记标签来描述网页
HTML 文档包含了HTML 标签及文本内容
HTML文档也叫做 web 页面

2. Html 介绍

HTML:是 Hypertext Marked Language,即超文本标记语言,是一种用来制作超文本文档的简单标记语言;
Http超文本传输协议规定了浏览器在运行 HTML 文档时所遵循的规则和进行的操作。HTTP协议的制定使浏览器在运行超文本时有了统一的规则和标准。
HTML文件本质上是文本文件,而普通的文本文件只能显示字符。但是HTML技术则通过HTML标签把其他网页、图片、音频、视频等各种多媒体资源引入到当前网页中,让网页有了非常丰富的呈现方式,这就是超文本的含义——本身是文本,但是呈现出来的最终效果超越了文本。

3. Html 构成

html开发,本质上就是编写一个.html格式的文档,最终通过浏览器执行该文档,一个html文档中包含三部分:HTML部分、HTML部分、js部分

Html组成含义
HTML部分HTML:hyper text markup language;hyper text:超文本,是指写在html文档中,并在网络上传输的 文字、图片、视频、音频;markup language:标记语言 。所谓标记:就是指由一对尖括号扩起来,当中具有特定英文单词的标识。标记的其他叫法:标签 元素 element。
CSS部分CSS:cascading style sheet 层叠样式表;用来对文档中的标签设置样式,从而改变超文本在浏览器上的渲染效果
JS部分JS:javascript;运行在浏览器端的脚本语言。平时我们看到网页,除了可以看以外,还可以处理一些用 户的交互行为,例如:鼠标的点击,键盘的控制等等。这些功能需要通过JS来完成

html文档中只有两种类型的标记

html文档标记类型含义
单标记不能存放内容,多是一些功能性的标记
双标记有开始有结束,主要功能是存放内容,可以是超文本, 也可以是其他标记

4. HTML结构 介绍

1> HTML文件结构

A: 文档类型声明

写在html文档的第一行是文档中唯一个非标签字符,起文档说明作用,用来告知浏览器,当前文档是一 个支持HTML5标准的文档,不可省略,其中最重要的就是当前HTML文档遵循的语法标准。

HTML4版本的文档类型声明是:

HTML5版本的文档类型声明是:

B: 根标签

html标签是整个文档的根标签,所有其他标签都必须放在html标签里面。上面的文档类型不能当做普通标签看待。该标签包含两个子标签:head 和 body

C: 头部 -head 元素

head标签用于定义文档的头部,其他头部元素都放在head标签里。头部元素包括title标签、script标签、style标签、link标签、meta标签等等。

D: title 标签

作用:设置文档的标题或者名称。浏览器通常将该标签的内容显示在窗口顶部或者标签页上。每个 HTML 文档只能有一个,必须有一个 title 标签。

E: meta 标签

声明字符的编码格式为 utf-8

F: 主体-body 标签

body标签定义网页的主体内容,在浏览器窗口内显示的内容都定义到body标签内;也就是我们的主要内容(比如文本、超链接、图像、表格和列表等)
E: 注释
描述当前代码功能,代码信息 、编写日期、作者 、维护日期、维护者

HTML注释的写法是:

F: demo

Html test 

我的第一个标题

我的第一个段落。

=================================== 声明为 HTML5 文档 元素是 HTML 页面的根元素 元素包含了文档的元(meta)数据,如 定义网页编码格式为 utf-8(由于在大部分浏览器中直接输出中文会出现乱码,所以要在头部将字符声明为UTF-8) 元素描述了文档的标题<body> 元素包含了可见的页面内容<h1> 元素定义一个大标题<p> 元素定义一个段落</code></code></pre> <h3><a id="2__88"></a>2> 各部分详解</h3> <h4><a id="A__89"></a>A: 标题</h4> <p>HTML 标题(Heading)是通过<h1> - <h6> 标签来定义的</p> <pre><code><code><!DOCTYPE html><html><head><meta charset="utf-8"><title>Html test

我的第一个标题

我的第二个标题

我的第三个标题

B: 段落

HTML 段落是通过标签

来定义的

Html test 

这是一个段落。

这是一个段落。

这是一个段落。

C: 链接

HTML 链接是通过标签 来定义的

 这是一个链接使用了 href 属性 

D: 图像

HTML 图像是通过标签 来定义的。注意: 图像的名称和尺寸是以属性的形式提供的。

  

E: 表格

表格由

标签来定义。每个表格均有若干行(由 标签定义),每行被分割为若干单元格(由
标签定义)。字母 td 指表格数据(table data),即数据单元格的内容。数据单元格可以包含文本、图片、列表、段落、表单、水平线、表格等等。表格的表头使用 标签进行定义。如果不定义边框属性,表格将不显示边框。有时这很有用,但是大多数时候,我们希望显示边框。使用边框属性来显示一个带有边框的表格:

Header 1 Header 2
row 1, cell 1 row 1, cell 2
row 2, cell 1 row 2, cell 2

3> 列表速查

A: 基本文档

文档标题可见文本...

B: 基本标签

h1-h6 块元素 独立成行 行间距
属性:
align
对齐方式 left center right

color
不存在 如果需要设置样式 要嵌套font标签

最大的标题

. . .

. . .

. . .

. . .

我是标题1

这是一个段落。


(换行)
(水平线)

C: 文本格式化

粗体文本计算机代码强调文本斜体文本键盘输入 
预格式化文本
更小的文本重要的文本 (缩写)
(联系信息) (文字方向)
(从另一个源引用的部分) (工作的名称) (删除的文本) (插入的文本) (下标文本) (上标文本)

D: 链接

普通的链接:链接文本图像链接: 替换文本邮件链接: 发送e-mail书签:提示部分跳到提示部分

E: 图片

替换文本

F: 样式/区块

文档中的块级元素
文档中的内联元素

G: 列表

无序列表

有序列表

  1. 第一项
  2. 第二项

H: 定义列表

项目 1
描述项目 1
项目 2
描述项目 2

I: 表格

` `    
表格标题 表格标题
表格数据 表格数据

J: 框架

K: 实体

< 等同于 <> 等同于 >© 等同于 ©

M: 文本修饰

font 行内标签
属性:
size
字体大小 最大值是7

color
颜色值 颜色单词 red green blue 颜色的RGB rgb(0,0,255)
十六进制表示 #0000ff

face
字体族 黑体 楷体 宋体 华文彩云 必须浏览器支持

        Title     主题内容。    我还是主体内容




5> HTML语法基本规则

序列规则内容
1根标签有且只能有一个
2标签可以嵌套但不能交叉嵌套
3注释不能嵌套
4属性必须有值,值必须加引号,单引号或双引号均可
5标签名不区分大小写但建议使用小写

6> Htlm特点

序列内容
1使用是一对一对的标签组成;双标签 可以嵌套其他标签
2标签之间可以相互嵌套,但是不可以交叉嵌套;;;
3使用属性去区分标签不同; ;

二: Python 对Html 文件分析

1. BeautifulSoup

在使用BeautiSoup对其进行解析,解析的时候要使用相应类型的解析器html.parser

from bs4 import BeautifulSoupfile = open(r'C:/Users/CHH_PC/Desktop/test.html','rb')html = file.read()bs = BeautifulSoup(html,'html.parser')

BeautifulSoup 将复杂的HTML文档转换成一个复杂的树形结构,每个结点都是一个Python对象,所有对象可以分为四种:

对象含义
Tag标签及其内容:拿到它所找到的第一个内容;
NavigableString这个内容就是NavigableString(标签里的内容,string)
BeautifulSoup表示对整个文档的访问
Comment是一个特殊的NavigableString,输出内容不包括注释符号

2. BeautifulSoup应用

1> 常用参数

用法解释
bs.titleTag 标签及其内容:拿到它所找到的第一个内容
bs.title.string只获得标签的内容,不要标签
bs.a.attrs快速拿到标签里面的所有属性
bs.NavigableStringNavigableString用.string获取标签内部的文字。
bs…head获取head标签的所有内容
bs.head.contentshead文档的遍历
bs.body.contentsbody文档的遍历
bs.body.contents[1]body中第一个文档的遍历;content可遍历的内容有很多,获取Tag所有的子节点,返回一个list;contents[1] 用列表索引获取它的某一个元素
bs…prettify()获取HTML的缩进格式
bs…title获取title标签的所有内容
bs.title.name获取title标签的名称
bs.title.string获取title的文本内容
bs.div获取第一个div标签中的所有内容
bs.div[‘id’]获取第一个div标签的id的值
bs.a获取第一个a标签中的所有内容
bs.find_all(‘a’)获取所有的a标签中的所有内容

2> 遍历文档树

其他参数demo
childrenfor child in bs.body.contents[9].children: print(child);hildren 获取 Tag 所有的子节点,返回一个 生成器
.descsndants获取 Tag 所有的子孙节点
.strings如果Tag包含多个字符串,即在子孙节点中,可以用此获取,再进行遍历;
.striped_strings与strings 用法一致,清除多余的空白字符串;for child in bs.body.contents[9].stripped_strings: print(child)
.parent获取Tag 父节点
.parents递归得到父辈元素的所有节点,返回一个生成器;
.previous_sibling获取当前Tag上一个节点,属性通常是字符串或者空白,真实结果其实是当前标签与上一个标签之间的顿号与换行符;
.next_sibling获取当前Tag下一个节点,属性通常是字符串或者空白,真实结果其实是当前标签与下一个标签之间的顿号与换行符;
.previous_siblings获取当前Tag上面所有的兄弟节点,返回一个生成器;
.next_siblings获取当前Tag下面所有的兄弟节点,返回一个生成器;
.previous_element获取解析过程中上一个被解析的对象,可能与previous_sibling相同,但通常都不同,
.next_element获取解析过程中下一个被解析的对象,可能与previous_sibling相同,但通常都不同;
.previous_elements返回一个生成器,可以向前访问文档的解析内容;
.next_elements返回一个生成器,可以向后访问文档的解析内容;

3> 文档的搜索

参数含义
find_all()divs_bs = bs.find_all(‘div’) print(divs_bs)找到所有的列标签,统一放到divs_bs ;也可以编译一个find_all(re.compile(‘a’))对象,然后find_all其中的内容
kwargs(参数)divs_bs = bs.find_all( id=“wp”)或者 divs_bs = bs.find_all(‘div’, id=“wp”) 再进行遍历
textdivs_bs = bs.find_all( text=“请输入搜索内容”);其他属性divs_bs = bs.find_all( value=“请输入搜索内容”)
limitdivs_bs = bs.find_all(‘div’, limit=1) print(divs_bs);输出一个div信息
css选择器含义
titlehead\bodydivs_bs = bs.select(‘title’) 通过title查询;
#divs_bs = bs.select(“#toptb”) 加# 通过ID查找
.divs_bs = bs.select(“.pg_index”) 加 . 通过类名查找
head > titledivs_bs = bs.select(‘head > title’) 通过子标签查询;
aivs_bs = bs.select(“a[class=‘sister’]”) 按照属性查找

4> BeautifulSoup解析器

解析器语法优势劣势
Python标准库BeautifulSoup(html, ‘html.parser’)Python的内置标准、执行速度适中、文档容错能力强Python2.7.3及python3.2.2之前的版本文档容错能力差
lxml HTML解析库BeautifulSoup(html, ‘lxml’)速度快、文档容错能力强需要安装C语言
lxml XML解析库BeautifulSoup(html, ‘xml’)速度快、唯一支持XML的解析器速度快、唯一支持XML的解析器
html5lib解析库BeautifulSoup(html, ‘html5lib’)最好的容错性、以浏览器的方式解析文档,生成HTMLS格式的文档速度慢、不依赖外部扩展

例如:
soup = BeautifulSoup(html, ‘lxml’)创建对象
soup = BeautifulSoup(open(‘test.html’),‘lxml’)读取HTML文件

5> BeautifulSoup 高阶

A: find_all 参数举例

举例含义
soup.find_all(‘a’)查找与字符串完整匹配的内容,用于查找文档中所有的标签
soup.find_all(re.compile(‘^b’))传入正则表达式,BeautifulSoup会通过正则表达式的match()来匹配内容。返回所有表示和标签。
soup.find_all([‘p’,‘a’])传入列表参数,BeautifulSoup会与列表中任一元素匹配的内容返回。返回所有的

标签

soup.find_all(text=re.compile(‘^b’))匹配正则表达式
soup.find_all(传方法)soup.find_all(test_def);def test_def: return tag.has_attr(“class”) 此处传参方法,判断标签是否含有class信息

三:urllib.requests

1. urllib库的作用-解析网页

作用:urllib 模块是一个高级的 web 交流库,其核心功能就是模仿web浏览器等客户端,去请求相应的资源,并返回一个类文件对象。可以使用代码模拟浏览器发起请求
urllib 是python3 的内置库,urllib库最大的作用就是可以去设定相关的头部信息然后和网站建立请求连接,请求连接建立完成后就能够去获取到网页的整体数据,这也是python爬虫脚本实现的核心

2. urllib子模块

urllib模块包括:urllib.request, urllib.error, urllib.parse,urllib.robotparser

子模块解释
urllib.request请求模块-可以用来发送request和获取request的结果
urllib.error异常处理模块-包含了urllib.request产生的异常
urllib.parseurl解析模块-用来解析和处理https://blog.csdn.net/weixin_42914706/article/details/URL
urllib.robotparserrobots.txt解析模块-用来解析页面的robots.txt文件

模拟请求使用的最主要的库便是urllib.request,异常处理用urllib.error库

3. 使用流程

序列步骤
1指定url
2发起请求:针对指定的url发起一个请求
3获取页面数据:获取服务器响应回来的页面数据
4持久化存储

4. urllib.request 发送请求

urllib.request 模块提供了最基本的构造 HTTP 请求的方法,利用它可以模拟浏览器的一个请求发起过程,同时它还带有处理 authenticaton (授权验证), redirections (重定向), cookies (浏览器Cookies)以及其它内容
demo

1> demo

import urllib.requestresponse = urllib.request.urlopen("https://www.baidu.com")print(response)====================返回一个一个 HTTPResposne 类型的对象,它包含方法有 read() 、 readinto() 、getheader(name) 、 getheaders() 、 fileno() 等函数和 msg 、 version 、 status 、 reason 、 debuglevel 、 closed 等属性,所以可以通过response 调用这些方法和属性

2> 函数

函数含义
response.status返回结果的状态码,如200代表请求成功,404代表网页未找到等
response.getheaders()返回list 格式head 信息
response.getheader(“Server”)查询具体信息
response.read()读取返回信息

5. urllib.request.urlopen()

def urlopen(url, data=None, timeout=Socket._GLOBAL_DEFAULT_TIMEOUT,            *, cafile=None, capath=None, cadefault=False, context=None)
属性理解
data参数是可选的;如果要添加 data ,它要是字节流编码格式的内容,即 bytes 类型,通过 bytes() 函数可以进行转化,另外如果你传递了这个 data 参数,它的请求方式就不再是 GET 方式请求,而是 POST
timeouttimeout 参数可以设置超时时间,单位为秒,意思就是如果请求超出了设置的这个时间还没有得到响应,就会抛出异常,如果不指定,就会使用全局默认时间。它支持 HTTP 、 HTTPS 、 FTP 请求
cafile 和 capath两个参数是指定CA证书和它的路径,这个在请求 HTTPS 链接时会有用
cadefault参数现在已经弃用了,默认为 False

1> data

import urllib.parseimport urllib.requestdata = bytes(urllib.parse.urlencode({'Word': 'hello'}), encoding='utf8')response = urllib.request.urlopen('http://httpbin.org/post', data=data)print(response.read().decode()) # 把bety转换为字典形式数据========================{  "args": {},   "data": "",   "files": {},   "fORM": {    "word": "hello"  },   "headers": {    "Accept-Encoding": "identity",     "Content-Length": "10",     "Content-Type": "application/x-www-form-urlencoded",     "Host": "httpbin.org",     "User-Agent": "Python-urllib/3.7",     "X-Amzn-Trace-Id": "Root=1-63f61236-4616d33D219931e3332ba8b5"  },   "JSON": null,   "origin": "117.143.152.208",   "url": "http://httpbin.org/post"}

POST 请求:
这里我们传递了一个参数 word ,值是 hello 。它需要被转码成 bytes (字节流)类型。其中转字节流采用了 bytes() 方法;
第一个参数需要是 str (字符串)类型,需要用 urllib.parse.urlencode() 方法来将参数字典转化为字符串。
第二个参数指定编码格式,在这里指定为 utf8

2> timeout

import urllib.requestresponse = urllib.request.urlopen("https://www.baidu.com/?tn=65081411_1_oem_dg",timeout=1)print(response.read().decode())

设置了超时时间是1秒,程序1秒过后服务器依然没有响应,于是抛出了 urllib.error.https://blog.csdn.net/weixin_42914706/article/details/URLError: 异常,错误原因是 timed out;因此我们可以通过设置这个超时时间来控制一个网页如果长时间未响应就跳过它的抓取,利用 try,except 语句就可以实现这样的操作

import urllib.requestimport  socketimport urllib.errortry:    response = urllib.request.urlopen('http://httpbin.org/get',timeout=0.1)except urllib.error.https://blog.csdn.net/weixin_42914706/article/details/URLError as e:    if  isinstance(e.reason, socket.timeout):            print("Time out!")

3> Request

1. Request 详解

import urllib.requestrequest = urllib.request.Request("https://www.baidu.com")response = urllib.request.urlopen(request)print(response.read().decode("utf-8"))

依然是用 urlopen() 方法来发送这个请求,只不过这次 urlopen() 方法的参数不再是一个https://blog.csdn.net/weixin_42914706/article/details/URL,而是一个 Request ,通过构造这个这个数据结构,一方面我们可以将请求独立成一个对象,另一方面可配置参数更加
丰富和灵活

def __init__(self, url, data=None, headers={},                 origin_req_host=None, unverifiable=False,                 method=None):
参数含义
url参数是请求链接,这个是必传参数,其他的都是可选参数
data参数如果要传必须传 bytes (字节流)类型的,如果是一个字典,可以先用 urllib.parse.urlencode() 编码。
headers参数是一个字典,你可以在构造 Request 时通过 headers 参数传递,也可以通过调用 Request 对象的 add_header() 方法来添加请求头。请求头最常用的用法就是通过修改 User-Agent 来伪装浏览器,默认的 User-Agent 是 Python-urllib ,你可以通过修改它来伪装浏览器,比如要伪装火狐浏览器,你可以把它设置为 Mozilla/5.0 (X11; U; linux i686)Gecko/20071127 Firefox/2.0.0.11
origin_req_host指的是请求方的 host 名称或者 IP 地址
unverifiable指的是这个请求是否是无法验证的,默认是 False 。意思就是说用户没有足够权限来选择接收这个请求的结果。例如我们请求一个HTML文档中的图片,但是我们没有自动抓取图像的权限,这时 unverifiable 的值就是 True
method是一个字符串,它用来指示请求使用的方法,比如 GET , POST , PUT 等等

2. 传入多个参数构建一个 Request

通过四个参数构造了一个 Request , url 即请求链接,在 headers 中指定了 User-Agent 和 Host ,传递的参数 data 用了 urlencode() 和 bytes() 方法来转成字节流,另外指定了请求方式为 POST

from urllib import request,parseurl = "http://httpbin.org/post"headers = {    #伪装一个火狐浏览器    "User-Agent":'Mozilla/4.0 (compatible; MSIE 5.5; windows NT)',    "host":'httpbin.org'}dict = {    "name":"Germey"}data = bytes(parse.urlencode(dict),encoding="utf8")req = request.Request(url=url,data=data,headers=headers,method="POST")response = request.urlopen(req)print(response.read().decode("utf-8"))=========================={  "args": {},   "data": "",   "files": {},   "form": {    "name": "Germey"  },   "headers": {    "Accept-Encoding": "identity",     "Content-Length": "11",     "Content-Type": "application/x-www-form-urlencoded",     "Host": "httpbin.org",     "User-Agent": "Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)",     "X-Amzn-Trace-Id": "Root=1-63f61795-1ff741e6101a79d9442e056c"  },   "json": null,   "origin": "117.143.152.208",   "url": "http://httpbin.org/post"}Process finished with exit code 0

headers 也可以用 add_header() 方法来添加。

req = request.Request(url=url, data=data, method=‘POST’)
req.add_header(‘User-Agent’, ‘Mozilla/4.0 (compatible; MSIE 5.5;Windows NT)’)

如此一来,我们就可以更加方便地构造一个 Request ,实现请求的发送

6. urllib.request高级特性

虽然可以构造 Request ,但是一些更高级的操作,比如 Cookies 处理,代理该怎样来设置?需要更强大的工具 Handler ;
简而言之你可以把它理解为各种处理器,有专门处理登录验证的,有处理 Cookies 的,有处理代理设置的,利用它们我们几乎可以做到任何 HTTP 请求中所有的事情

1> urllib.request.BaseHandler

它是所有其他 Handler 的父类,它提供了最基本的 Handler 的方法,例
如 default_open() 、 protocol_request() 等

BaseHandler 子类含义
HTTPDefaultErrorHandler用于处理HTTP响应错误,错误都会抛出 HTTPError 类型的异常
HTTPRedirectHandler用于处理重定向
HTTPCookieProcessor用于处理 Cookie
ProxyHandler用于设置代理,默认代理为空
HTTPPasswordMgr用于管理密码,它维护了用户名密码的表
HTTPBasicAuthHandler用于管理认证,如果一个链接打开时需要认证,那么可以用它来解决认证问题

实例代码1

import urllib.requestauth_handler = urllib.request.HTTPBasicAuthHandler()auth_handler.add_password(realm='PDQ Application',                          uri='https://mahler:8092/site-updates.py',                          user='klem',                          passwd='kadidd!ehopper')opener = urllib.request.build_opener(auth_handler)urllib.request.install_opener(opener)urllib.request.urlopen('http://www.example.com/login.html'=============================说明 Handler 和 Opener 的使用方法。在这里,首先实例化了一个 HTTPBasicAuthHandler 对象,利用 add_password() 添加进去用户名和密码,相当于建立了一个处理认证的处理器;接下来利用 urllib.request.build_opener() 方法来利用这个处理器构建一个 Opener ,那么这个 Opener 在发送请求的时候就具备了认证功能了。接下来利用 Opener 的 open() 方法打开链接,就可以完成认证了

实例代码2
代理

import urllib.requestproxy_handler = urllib.request.ProxyHandler({'http': 'http://218.202.111.10:80','https': 'https://180.250.163.34:8888'})opener = urllib.request.build_opener(proxy_handler)response = opener.open('https://www.baidu.com')print(response.read())=============================用于说明代理的设置方法,代理可能已经失效。在这里使用了 ProxyHandler , ProxyHandler 的参数是一个字典,key是协议类型,比如 http 还是 https 等,value是代理链接,可以添加多个代理。然后利用 build_opener() 方法利用这个 Handler 构造一个 Opener ,然后发送请求即可

2> Cookie设置

获取网站的 Cookie

import http.cookiejar, urllib.requestcookie = http.cookiejar.CookieJar() 或则cookie = http.cookiejar.LWPCookieJar(filename)# LWPCookieJar ,同样可以读取和保存 Cookie ,但是保存的格式和 MozillaCookieJar 的不一样,它会保存成与libwww-perl的Set-Cookie3文件格式的 Cookiehandler = urllib.request.HTTPCookieProcessor(cookie)opener = urllib.request.build_opener(handler)response = opener.open('http://www.baidu.com')for item in cookie:   print(item.name+"="+item.value)========================打印BAIDUID=8D12919D30F39DFDD8FC36AC5F965BD4:FG=1BIDUPSID=8D12919D30F39DFDD1ED7D576F0628B2H_PS_PSSID=36561_38129_37906_37861_38264_38173_38289_38243_38034_38263_37928_38285_26350_22157_37881PSTM=1678009542BDSVRTM=0BD_HOME=1===============================================首先必须声明一个 CookieJar 对象,接下来我们就需要利用 HTTPCookieProcessor 来构建一个 handler ,最后利用 build_opener 方法构建出 opener ,执行 open() 即可

Cookie 实际也是以文本形式保存

filename = 'cookie.txt'cookie = http.cookiejar.MozillaCookieJar(filename)handler = urllib.request.HTTPCookieProcessor(cookie)opener = urllib.request.build_opener(handler)response = opener.open('http://www.baidu.com')cookie.save(ignore_discard=True, ignore_expires=True)===================这时的 CookieJar 就需要换成 MozillaCookieJar ,生成文件时需要用到它,它是 CookieJar 的子类,可以用来处理 Cookie 和文件相关的事件,读取和保存 Cookie ,它可以将 Cookie 保存成 Mozilla 型的格式;运行之后可以发现生成了一个 cookie.txt 文件

从文件读取并利用Cookie 信息

cookie = http.cookiejar.LWPCookieJar()cookie.load('cookie.txt', ignore_discard=True, ignore_expires=True)handler = urllib.request.HTTPCookieProcessor(cookie)opener = urllib.request.build_opener(handler)response = opener.open('http://www.baidu.com')print(response.read().decode('utf-8'))===========================利用上面的方式生成了 LWPCookieJar 格式的 Cookie ,然后利用 load() 方法,传入文件名称,后面同样的方法构建 handler 和 opener 即可

四 : python 数据分析之 xlsxwriter文件解析

python 数据分析之 xlsxwriter文件解析
https://blog.csdn.net/weixin_42914706/article/details/129116587

来源地址:https://blog.csdn.net/weixin_42914706/article/details/129112667

--结束END--

本文标题: python 数据分析之 HTML文件解析

本文链接: https://www.lsjlt.com/news/390969.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • python 数据分析之 HTML文件解析
    python 数据分析之 HTML文件解析 一 :Html1. Html 理解2. Html 介绍3. Html 构成4. HTML结构 介绍1> HTML文件结构A: 文档类型声明B: 根标...
    99+
    2023-09-02
    html python 数据分析
  • python数据分析之文件读取详解
    目录前言:一·Numpy库中操作文件二·Pandas库中操作文件三·补充总结前言: 如果你使用的是Anaconda中的Jupyter,则不需要下载Pands和Numpy库;如果你使用...
    99+
    2024-04-02
  • Python数据分析基础之文件的读取
    目录一·Numpy库中操作文件1.操作csv文件2.在pycharm中操作csv文件3.其他情况(.npy类型文件)二·Pandas库中操作文件1.操作csv文件2.从剪贴板上复制数...
    99+
    2024-04-02
  • Python数据分析之pandas函数详解
    目录一、apply和applymap二、排序三、处理缺失数据一、apply和applymap 1. 可直接使用NumPy的函数 示例代码: # Numpy ufunc 函数 df...
    99+
    2024-04-02
  • Python数据分析之分析千万级淘宝数据
    目录1、项目背景与分析说明2、导入相关库3、数据预览、数据预处理4、模型构建1)流量指标的处理2)用户行为指标3)漏斗分析4)客户价值分析(RFM分析)1、项目背景与分析说明 1)项...
    99+
    2024-04-02
  • python数据分析之聚类分析(cluster analysis)
    何为聚类分析 聚类分析或聚类是对一组对象进行分组的任务,使得同一组(称为聚类)中的对象(在某种意义上)与其他组(聚类)中的对象更相似(在某种意义上)。它是探索性数据挖掘的主要任务,也...
    99+
    2024-04-02
  • python数据分析之pandas数据选
      Pandas是作为Python数据分析著名的工具包,提供了多种数据选取的方法,方便实用。本文主要介绍Pandas的几种数据选取的方法。   Pandas中,数据主要保存为Dataframe和Series是数据结构,这两种数据结构数据...
    99+
    2023-01-30
    数据 python pandas
  • Python数据分析之matplotlib绘图详解
    目录多子图散点图水平柱状图同位置柱状图多子图 figure是绘制对象(可以理解为一个空白的画布),一个figure对象可以包含多个Axes子图,一个Axes是一个绘图区域,不加设置时...
    99+
    2024-04-02
  • python文件数据分析治理提取
    目录前提提要要求思路代码运行结果分析1)读取文件2)读取数据3)数据整理4)正则表达式匹配外加数据去重6)数据导出保存前提提要 python2.0有无法直接读取中文路径的问题,需要另...
    99+
    2024-04-02
  • Python数据分析库之pandas,你
    写这个系列背后的故事 咦,面试系列的把基础部分都写完啦,哈哈答,接下来要弄啥嘞~ pandas吧 外国人开发的 翻译成汉语叫 熊猫 厉害厉害,很接地气 一个基于numpy的库 干啥的? 做数据分析用的 而数据分析是python体系下一个...
    99+
    2023-01-31
    数据 Python pandas
  • python数据分析之公交IC卡刷卡分析
    目录一、背景二、任务要求三、使用步骤四、总结一、背景 交通大数据是由交通运行管理直接产生的数据(包括各类道路交通、公共交通、对外交通的刷卡、线圈、卡口、GPS、视频、图片等数据)、交...
    99+
    2024-04-02
  • 【Python爬虫】数据解析之bs4解析和xpath解析
    🔥一个人走得远了,就会忘记自己为了什么而出发,希望你可以不忘初心,不要随波逐流,一直走下去🎶 🦋 欢迎关注🖱点赞👍收...
    99+
    2023-09-06
    python 爬虫 开发语言
  • python数据分析之时间序列分析详情
    目录前言时间序列的相关检验白噪声检验平稳性检验自相关和偏相关分析移动平均算法简单移动平均法简单指数平滑法霍尔特(Holt)线性趋势法Holt-Winters季节性预测模型ARIMA模...
    99+
    2024-04-02
  • python数据解析之XPath详解
    目录XPathXPath使用方法案例—58二手房总结XPath XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。 x...
    99+
    2024-04-02
  • Python数据分析之绘制m1-m2数据
    目录前言m0-m1-m2 数据获取ppi-cpi 图形绘制总结前言 前文讲述了ppi-cpi的图形绘制,在本文中继续分享另外一个与经济息息相关的货币数据指标M0-M1-M2,在这里还...
    99+
    2024-04-02
  • 数据分析之matplotlib.pypl
      首先都得导模块。 import numpy as np import pandas as pd import matplotlib.pyplot as plt from pandas import Series,DataFrame ...
    99+
    2023-01-30
    数据 matplotlib pypl
  • Python数据分析之Matplotlib数据可视化
    目录1.前言2.Matplotlib概念3.Matplotlib.pyplot基本使用3.数据展示3.1如何选择展示方式3.2绘制折线图3.3绘制柱状图3.3.1普通柱状图3.3.2...
    99+
    2024-04-02
  • Python数据分析之Numpy库的使用详解
    目录前言🧡Numpy库介绍💙ndarray 类常用属性💚Numpy常用函数🍓array函数🥝arang...
    99+
    2024-04-02
  • Python的xpath数据解析案例分析
    这篇“Python的xpath数据解析案例分析”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“Python的xpath数据解析...
    99+
    2023-06-29
  • Pandas数据分析之pandas文本处理
    目录前言文本数据类型字符操作文本格式文本对齐​文本计数和编码格式判断文本高级处理文本分割 文本切片选择 slice划分 partition文本替换指定位置替换重复替换文本连...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作