广告
返回顶部
首页 > 资讯 > 后端开发 > Python >利用python处理网页信息
  • 878
分享到

利用python处理网页信息

网页信息python 2023-01-31 06:01:48 878人浏览 安东尼

Python 官方文档:入门教程 => 点击学习

摘要

    在前几周的grep/sed/awk实战中提到,“和CoreSite - Any2 California接入商建立网络BGP邻居关系。从peeringdb上找到了所有接入商的信息,但是转移信息到本地不是很方便,需要进行多次文本调整,耗

    在前几周的grep/sed/awk实战中提到,“和CoreSite - Any2 California接入商建立网络BGP邻居关系。从peeringdb上找到了所有接入商的信息,但是转移信息到本地不是很方便,需要进行多次文本调整,耗时较长。作为萌新,立马就想到近期学习的grep/sed/awk工具。于是就尝试处理数据。”因为当时是刚学习了linux正则的这三个工具,就立马利用了起来,权当练手。在文末也曾提到所有的操作其实都可以通过python完成。 

    恰巧近几天,又学习了Python抓取页面提取信息的一些知识。因此,就同样的内容,再次以python的方式去处理。


▎元素样本:

    <div class="row item">
      <div class="col-xs-5 col-sm-5 col-md-5">
        <div class="peer" data-sort-value="zenlayer inc" data-filter-value="Zenlayer Inc">
          <a href="/net/1234">Zenlayer Inc</a>
        </div>
        <div class="asn" data-sort-value="21859" data-filter-value="21859">21859</div>
      </div>
      <div class="col-xs-4 col-sm-4 col-md-4">
        <div class="ip4" data-filter-value="206.72.210.119">206.72.210.119</div>
        <div class="ip6" data-filter-value="None">None</div>
      </div>
      <div class="col-xs-3 col-sm-3 col-md-3">
        <div class="speed" data-sort-value="20000" data-filter-value="20G">20G</div>
        <div class="policy" data-filter-value="Open">Open</div>
      </div>
    </div>


▎处理思路:

wKiom1l-G2mi-mUpAAB2YgNhTTc716.png-wh_50


▎简易版脚本:

#/usr/bin/env python                                  
import requests,bs4
headers={'User-Agent': 'Mozilla/5.0 (X11; ubuntu; Linux x86_64; rv:24.0) Gecko/20100101 Firefox/24.0'}
url='https://www.peeringdb.com/ix/142'
peering=requests.get(url,headers=headers)
peering.raise_for_status()
peers=bs4.BeautifulSoup(peering.text[:],'html.parser')
elemPeer=peers.select('.peer a')
elemASN=peers.select('.asn')
elemIP4=peers.select('.ip4')
elemSpeed=peers.select('.speed')
elemPolicy=peers.select('.policy')

if __name__=='__main__': 
	for i in range(len(elemPeer)):
		print(elemPeer[i].getText()+'*'+elemASN[i].getText()+'*'+elemIP4[i].getText()+'*'+elemSpeed[i].getText()+'*'+elemPolicy[i].getText())

作为简易版,这里没有做任何的异常处理,也没有对各个元素的list进行长度比较。这部分在后期可以考虑加上。代码相关的解释参见学习笔记,主要运用了requests和BeautifulSoup两个模块。需要解释的是,elemPeer这个变量在处理的时候,因为“class="peer"”内还有一行“<a href="/net/1234">Zenlayer Inc</a>”,因此还需要加上“a”元素精确定位抓取。


▎运行效果:

wKiom1l98N2Q7VMLAACmzwGyJqw433.png-wh_50


由于测试系统为Centos 7,不支持excel,因此这里不使用openpyxl模块导入EXCEL文件里这个功能。暂时改为手动处理。

阅读者如有兴趣,可优化代码,并深入处理,如:登录网站、爬虫每个接入商的页面,提取其他信息等。


对比此文和前次利用grep/sed/awk处理的两种方式,可以发现python版的处理方式更为简洁,人工处理的部分更少。由此,可以看到python在处理大数据信息上的优势。


--结束END--

本文标题: 利用python处理网页信息

本文链接: https://www.lsjlt.com/news/190431.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 利用python处理网页信息
        在前几周的grep/sed/awk实战中提到,“和CoreSite - Any2 California接入商建立网络BGP邻居关系。从peeringdb上找到了所有接入商的信息,但是转移信息到本地不是很方便,需要进行多次文本调整,耗...
    99+
    2023-01-31
    网页 信息 python
  • 利用python从网页上获取所有信息
    使用python获取网页中的所有信息,具体方法如下:page = urllib2.urlopen(url) contents = page.read() #网页链接 print(contents) ...
    99+
    2022-10-13
  • 利用requests+BeautifulSoup爬取网页关键信息
    一、requests库基础知识Requests的方法  requests库的response对象二、爬取网站所需信息访问网站,如图1-1所示:图1-1点击子页面,审查网页元素,部分内容如图1-2所示:图1-2实现代码如下...
    99+
    2023-06-02
  • Python如何利用正则表达式爬取网页信息及图片
    一、正则表达式是什么? 概念: 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来...
    99+
    2022-11-12
  • Python怎么利用正则表达式爬取网页信息及图片
    小编给大家分享一下Python怎么利用正则表达式爬取网页信息及图片,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!一、正则表达式是什么概念:正则表达式是对字符串操作...
    99+
    2023-06-14
  • Python灰帽编程——网页信息爬取
    文章目录 网页信息爬取1. 相关模块1.1 requests 模块1.1.1 模块中的请求方法1.1.2 请求方法中的参数1.1.3 响应对象中属性 1.2 RE 模块1.2.1 匹配...
    99+
    2023-09-24
    python 开发语言 网络安全 系统安全 python脚本 爬虫 requests模块
  • 使用Python处理文本,整理信息
    任务目标 通过Python将上述的命令输出从一整个文件中取出来,并转换成表格。否则,我需要分别打开每一个文件,找到对应的输出,拷贝到Ecxel,再进行数据分列动作,操作繁琐而且重复性很大,因此考虑用Python尝试自动化完成此项工作。 ...
    99+
    2023-01-31
    文本 信息 Python
  • 怎么利用Python网络爬虫来提取信息
    怎么利用Python网络爬虫来提取信息,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。下面小编就为大家带来一篇Python网络爬虫与信息提取(实例讲解)。小编觉得挺不错的,现在就...
    99+
    2023-06-02
  • 利用Python获取赶集网招聘信息前篇
    如何获取一个网站的相关信息,获取赶集网的招聘信息,本文为大家介绍利用python获取赶集网招聘信息的关键代码,供大家参考,具体内容如下 import re import urllib import ur...
    99+
    2022-06-04
    招聘信息 赶集网 Python
  • 利用Python找回微信撤回信息
    一条撤回的微信消息,就像一个秘密,让你迫切地想去一探究竟;或如一个诱饵,瞬间勾起你强烈的兴趣。你想知道,那是怎样的一句话?是对方不慎讲出的真话,还是一句发错了对象的话? 总之,这个...
    99+
    2022-11-12
  • JavaScript怎么处理网页中的消息
    本篇内容主要讲解“JavaScript怎么处理网页中的消息”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“JavaScript怎么处理网页中的消息”吧! 该Ev...
    99+
    2022-10-19
  • Python中怎么利用网络爬虫获取招聘信息
    Python中怎么利用网络爬虫获取招聘信息,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。定义一个class类继承object,定义init方法继承self,主函...
    99+
    2023-06-16
  • Python如何处理中国地区信息
    本篇文章为大家展示了Python如何处理中国地区信息,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。1.1数据的爬取代码:import pandas as pddata=...
    99+
    2023-06-22
  • Python利用psutil实现获取硬件,网络和进程信息
    目录楔子CPU 相关内存相关磁盘相关网络相关进程管理进程管理操作楔子 Python 有一个第三方模块叫 psutil,专门用来获取操作系统以及硬件相关的信息,比如:CPU、磁盘、网络...
    99+
    2022-11-11
  • Python 基于Selenium实现动态网页信息的爬取
    目录一、Selenium介绍与配置1.Selenium简介2. Selenium+Python环境配置二、网页自动化测试1.启动浏览器并打开百度搜索2.定位元素三、爬取动态网页的名人...
    99+
    2022-11-12
  • 数字信号处理8:利用Python进行数字信号处理基础
    我前两天买了本MATLAB信号处理,但是很无语,感觉自己对MATLAB的语法很陌生,看了半天也觉得自己写不出来,所以就对着MATLAB自己去写用Python进行的数字信号处理基础,我写了两天左右,基本上把matlab书上的代码全部用Pyth...
    99+
    2023-09-20
    python 信号处理 scipy
  • 利用python抓取网页图片
        近期在家想看华为官方的【IP,图话技术,微图】系列文档,奈何家里是长宽,基本打不开页面,刷新多次,心力憔悴。▎下图感受下:    突然想起上次华为云大会送了台云服务器,一直被我用来做linux实验机。于是,突发奇想,利用python...
    99+
    2023-01-31
    网页 图片 python
  • Python怎么利用psutil实现获取硬件,网络和进程信息
    楔子Python 有一个第三方模块叫 psutil,专门用来获取操作系统以及硬件相关的信息,比如:CPU、磁盘、网络、内存等等。下面来看一下它的用法,不过在使用之前需要先安装,直接 pip install psutil 即可。CPU 相关获...
    99+
    2023-05-14
    Python psutil
  • Python数据分析与处理(二)——处理中国地区信息
    目录2.1数据的爬取2.2检查重复数据2.3检查缺失值2.4 检查异常值2.1数据的爬取 代码: import pandas as pd data=pd.read_csv("ex...
    99+
    2022-11-12
  • 利用Python获取操作系统信息实例
    前言 每一位运维人员都应该对自己所管理的机器配置很清楚,因为这对我们快速处理问题很有帮助,比如随着业务增长,突然某些机器负载上涨的厉害,这时候要排查原因,除了从应用程序、架构上分析外,当前硬件性能的分析应该...
    99+
    2022-06-04
    实例 操作系统 信息
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作