广告
返回顶部
首页 > 资讯 > 后端开发 > Python >python 抓网页内容分析
  • 804
分享到

python 抓网页内容分析

网页内容python 2023-01-31 05:01:07 804人浏览 泡泡鱼

Python 官方文档:入门教程 => 点击学习

摘要

用python语言写搜索引擎蜘蛛的脚本非常简单、轻松。给大家分享两种抓网页内容的方法一、用urllib2/sgmllib包,将目标网页的所有URL列出。import urllib2from sgmllib import SGMLParser

python语言写搜索引擎蜘蛛的脚本非常简单、轻松。给大家分享两种抓网页内容的方法

一、用urllib2/sgmllib包,将目标网页的所有URL列出。


import urllib2

from sgmllib import SGMLParser

class URLLister(SGMLParser):
    def reset(self):                           
        SGMLParser.reset(self)
        self.urls = []

    def start_a(self, attrs):                   
        href = [v for k, v in attrs if k=='href']
        if href:
            self.urls.extend(href)

f = urllib2.urlopen("Http://www.baidu.com/")

if f.code == 200:
    parser = URLLister()
    parser.feed(f.read())
    f.close()
    for url in parser.urls: print url




二、用Python调用IE抓取目标网页(Require win32com, pythoncom)的所有图像的url和大小

import win32com.client, pythoncom
import time
ie = win32com.client.DispatchEx('InternetExplorer.Application.1')
ie.Visible = 1
ie.Navigate("http://news.sina.com.cn")
while ie.Busy:
    time.sleep(0.05)
doc = ie.Document
for i in doc.p_w_picpaths:
    print i.src, i.width, i.height

这种方法可以利用IE本身的javascript. Dhtml的支持,来做自动提交FORM,和处理Javascript。
有关样例可以参考http://win32com.de

--结束END--

本文标题: python 抓网页内容分析

本文链接: https://www.lsjlt.com/news/189053.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • python 抓网页内容分析
    用Python语言写搜索引擎蜘蛛的脚本非常简单、轻松。给大家分享两种抓网页内容的方法一、用urllib2/sgmllib包,将目标网页的所有URL列出。import urllib2from sgmllib import SGMLParser...
    99+
    2023-01-31
    网页 内容 python
  • Python抓取网页内容
    import urllib.request response=urllib.request.urlopen("http://www.baidu.co...
    99+
    2023-01-31
    网页 内容 Python
  • Python中怎么抓取网页内容
    Python中怎么抓取网页内容,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。Python抓取网页内容方法一、用urllib2/sgmllib包,将目标网页的所有...
    99+
    2023-06-17
  • node.js抓取并分析网页内容有无特殊内容的js文件
    nodejs获取网页内容绑定data事件,获取到的数据会分几次相应,如果想全局内容匹配,需要等待请求结束,在end结束事件里把累积起来的全局数据进行操作! 举个例子,比如要在页面中找有没有www.baid...
    99+
    2022-06-04
    内容 有无 网页
  • Python抓取网页图片难点分析
    目录一、网页图片抓取时代背景二、网页图片抓取难点处理1、图片地址存放位置不同2、图片地址格式解析处理3、防止IP被封可以采用代理Ip机制三、网页图片抓取场景分类一、网页图片抓取时代背...
    99+
    2023-01-11
    Python抓取网页图片 Python抓取图片 Python抓取网页
  • Python实现周期性抓取网页内容的方法
    本文实例讲述了Python实现周期性抓取网页内容的方法。分享给大家供大家参考,具体如下: 1.使用sched模块可以周期性地执行指定函数 2.在周期性执行指定函数中抓取指定网页,并解析出想要的网页内容,代码...
    99+
    2022-06-04
    周期性 网页 方法
  • Selenium抓不到内容的示例分析
    这篇文章主要为大家展示了“Selenium抓不到内容的示例分析”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“Selenium抓不到内容的示例分析”这篇文章吧。有一些同学在写爬虫的时候,过于依赖 ...
    99+
    2023-06-17
  • Python数据抓取、分析、挖掘和分布式计算内容有哪些
    本篇内容主要讲解“Python数据抓取、分析、挖掘和分布式计算内容有哪些”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Python数据抓取、分析、挖掘和分布式计算内容有哪些”吧!01 数据抓取背...
    99+
    2023-06-17
  • Nodejs抓取html页面内容(推荐)
    废话不多说,直接给大家贴node.js抓取html页面内容的核心代码了。 具体代码如下所示: var http = require("http"); var iconv = require('iconv...
    99+
    2022-06-04
    页面 内容 Nodejs
  • Python之抓取网页元素
    ...
    99+
    2023-01-31
    元素 网页 Python
  • 有哪些让网站页面内容不被抓取的技巧
    本篇内容主要讲解“有哪些让网站页面内容不被抓取的技巧”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“有哪些让网站页面内容不被抓取的技巧”吧!  可能有的朋友会奇怪,网站的页面不是让搜索引擎抓的越多...
    99+
    2023-06-10
  • 利用python抓取网页图片
        近期在家想看华为官方的【IP,图话技术,微图】系列文档,奈何家里是长宽,基本打不开页面,刷新多次,心力憔悴。▎下图感受下:    突然想起上次华为云大会送了台云服务器,一直被我用来做linux实验机。于是,突发奇想,利用python...
    99+
    2023-01-31
    网页 图片 python
  • 网站初上线内容更新内容的示例分析
    这篇文章给大家分享的是有关网站初上线内容更新内容的示例分析的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。  第一,网站编辑一定要具备分析和综合能力。姓氏文化对于笔者这样一个文化小白而言兼职就是两个字郁闷,我自己对...
    99+
    2023-06-10
  • python怎么爬取网页内的指定内容
    要爬取网页内的指定内容,可以使用Python中的第三方库,如BeautifulSoup和Requests。首先,需要安装这两个库。使...
    99+
    2023-08-08
    python
  • python 抓取的网页默认是bytes
    python 抓取的网页默认是bytes的,要转码.查看网页源码可以看到,我本次抓取的网页的编码方式是utf-8的.req = urllib.request.Request(url=myurl,headers = myheaders) d...
    99+
    2023-01-31
    网页 python bytes
  • python如何获取网页指定内容
    要获取网页中的指定内容,可以使用Python的requests库来发送HTTP请求,并使用BeautifulSoup库来解析HTML页面。以下是一个示例代码,用于获取网页中的标题:```pythonimport requestsfrom...
    99+
    2023-08-11
    python
  • python如何向网页里输入内容
    要在Python中向网页输入内容,可以使用requests库发送HTTP请求。具体步骤如下:1. 导入requests库:`impo...
    99+
    2023-08-24
    python
  • Python中怎么抓取分享页面
    Python中怎么抓取分享页面,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。Python抓取分享页面的源代码示例,需要用到python urllib2模块方法,及Beautif...
    99+
    2023-06-02
  • 怎么用python抓取百度贴吧内容
    本篇内容介绍了“怎么用python抓取百度贴吧内容”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!# -*- coding: utf-8imp...
    99+
    2023-06-03
  • 微信小程序如何解析网页内容
    这篇文章主要介绍微信小程序如何解析网页内容,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!微信小程序 解析网页内容详解最近在写一个爬虫,需要将网页进行解析供微信小程序使用。文字和图片解...
    99+
    2022-10-19
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作