简单实现python爬虫功能

爬虫简单功能 2022-06-04 19:06:55 166人浏览八月长安

Python 官方文档：入门教程 => 点击学习

摘要

在我们日常上网浏览网页的时候，经常会看到一些好看的图片，我们就希望把这些图片保存下载，或者用户用来做桌面壁纸，或者用来做设计的素材。　　我们最常规的做法就是通过鼠标右键，选择另存为。但有些图

在我们日常上网浏览网页的时候，经常会看到一些好看的图片，我们就希望把这些图片保存下载，或者用户用来做桌面壁纸，或者用来做设计的素材。

　　我们最常规的做法就是通过鼠标右键，选择另存为。但有些图片鼠标右键的时候并没有另存为选项，还有办法就通过就是通过截图工具截取下来，但这样就降低图片的清晰度。好吧～！其实你很厉害的，右键查看页面源代码。

　　我们可以通过python 来实现这样一个简单的爬虫功能，把我们想要的代码爬取到本地。下面就看看如何使用Python来实现这样一个功能。

一、获取整个页面数据

首先我们可以先获取要下载图片的整个页面信息。

getjpg.py


#coding=utf-8
import urllib

def gethtml(url):
  page = urllib.urlopen(url)
  html = page.read()
  return html

html = getHtml("Http://tieba.baidu.com/p/2738151262")

print html

　　Urllib模块提供了读取WEB页面数据的接口，我们可以像读取本地文件一样读取www和ftp上的数据。首先，我们定义了一个getHtml()函数：

　　urllib.urlopen()方法用于打开一个URL地址。

　　read()方法用于读取URL上的数据，向getHtml()函数传递一个网址，并把整个页面下载下来。执行程序就会把整个网页打印输出。

二、筛选页面中想要的数据

Python 提供了非常强大的正则表达式，我们需要先要了解一点python 正则表达式的知识才行。

假如我们百度贴吧找到了几张漂亮的壁纸，通过到前段查看工具。找到了图片的地址，如：src=”http://imgsrc.baidu.com/forum......jpg”pic_ext=”jpeg”

查看图片

修改代码如下：


import re
import urllib

def getHtml(url):
  page = urllib.urlopen(url)
  html = page.read()
  return html

def getImg(html):
  reg = r'src="(.+?.jpg)" pic_ext'
  imgre = re.compile(reg)
  imglist = re.findall(imgre,html)
  return imglist   
  
html = getHtml("http://tieba.baidu.com/p/2460150866")
print getImg(html)

我们又创建了getImg()函数，用于在获取的整个页面中筛选需要的图片连接。re模块主要包含了正则表达式：

　　re.compile() 可以把正则表达式编译成一个正则表达式对象. 　　re.findall() 方法读取html 中包含 imgre（正则表达式）的数据.

运行脚本将得到整个页面中包含图片的URL地址。

三、将页面筛选的数据保存到本地
把筛选的图片地址通过for循环遍历并保存到本地，代码如下：


#coding=utf-8
import urllib
import re

def getHtml(url):
  page = urllib.urlopen(url)
  html = page.read()
  return html

def getImg(html):
  reg = r'src="(.+?.jpg)" pic_ext'
  imgre = re.compile(reg)
  imglist = re.findall(imgre,html)
  x = 0
  for imgurl in imglist:
    urllib.urlretrieve(imgurl,'%s.jpg' % x)
    x+=1


html = getHtml("http://tieba.baidu.com/p/2460150866")

print getImg(html)

这里的核心是用到了urllib.urlretrieve()方法，直接将远程数据下载到本地。
通过一个for循环对获取的图片连接进行遍历，为了使图片的文件名看上去更规范，对其进行重命名，命名规则通过x变量加1。保存的位置默认为程序的存放目录。
程序运行完成，将在目录下看到下载到本地的文件。

结果展示：

查看图片

以上就是本文的全部内容，希望对大家实现python爬虫功能有所帮助。

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 简单实现python爬虫功能

本文链接: https://www.lsjlt.com/news/15540.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

python实现简单爬虫--爬图片

首先有两个功能需求：第一：获取到要爬的页面html内容；第二：使用正则表达式进行匹配并进行保存到本地。#!/usr/bin/env python #encoding:utf-8 import urllib import re def get...

99+

2023-01-31

爬虫简单图片
java Spring Boot2.7实现一个简单的爬虫功能

首先我们要在 pom.xml 中注入Jsoup 这是一个简单的java爬虫框架 org.jsoup jsoup 1.14.1 然后这里我们直接用main吧做简单一点我们创建一...

99+

2023-10-03

java spring boot 爬虫
Python简单爬虫

爬取链家二手房源信息import requests import re from bs4 import BeautifulSoup import csv url = ['https://cq.lianjia.com/ershoufang/...

99+

2023-01-31

爬虫简单 Python
使用Python实现简单的爬虫框架

目录一、请求网页二、解析 HTML三、构建爬虫框架爬虫是一种自动获取网页内容的程序，它可以帮助我们从网络上快速收集大量信息。在本文中，我们将学习如何使用 Python 编写一个简单的...

99+

2023-05-19

Python如何实现爬虫框架 Python爬虫框架 Python爬虫
python简单爬虫笔记

python模拟游览器爬取相关页面 import urllib.request url="https://blog.51cto.com/itstyle/2146899" #模拟浏览器 headers=("User-Agent","Moz...

99+

2023-01-31

爬虫简单笔记
Python 简单业务爬虫

如何快速下载贴吧图片呢？#!/usr/bin/python # -*- coding: UTF-8 -*- import urllib import re def getHtml(url): page = urllib.urlop...

99+

2023-01-31

爬虫简单业务
怎么使用nodejs实现一个简单的网页爬虫功能

这篇文章主要介绍了怎么使用nodejs实现一个简单的网页爬虫功能，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。网页源码　　使用http.get()方法获取网页源码，以hao1...

99+

2023-06-06
PHP实现简单爬虫的方法

PHP实现简单爬虫的方法，php实现爬虫本文实例讲述了PHP实现简单爬虫的方法。分享给大家供大家参考。具体如下： ...

99+

2023-09-08

php 爬虫开发语言
怎么用.net core 实现简单爬虫

本篇内容主要讲解“怎么用.net core 实现简单爬虫”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“怎么用.net core 实现简单爬虫”吧!一.介绍一个Http请求框架HttpCode.C...

99+

2023-06-19
node.js实现简单爬虫示例详解

目录node.js实现简单爬虫第一步第二步爬虫结果小结：node.js实现简单爬虫工具：cheerio cheerio 是 nodejs 特别为服务端定制的，能够快速灵活的对 JQ...

99+

2023-05-17

node.js简单爬虫 node.js爬虫
一个简单的python爬虫,爬取知乎

一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录，可自行实现，比图片更简单具体代码里有详细注释，请自行阅读项目源码：# -*- coding:utf-8 ...

99+

2023-06-02
Node.js简单实现爬虫代码怎么写

以下是一个简单的Node.js爬虫代码示例： const request = require('request'); const c...

99+

2023-10-26

Node.js
Python如何实现简易Web爬虫

这篇文章给大家分享的是有关Python如何实现简易Web爬虫的内容。小编觉得挺实用的，因此分享给大家做个参考，一起跟随小编过来看看吧。　　简介：　　网络爬虫（又被称为网页蜘蛛)，网络机器人，是一种按...

99+

2024-04-02
python爬虫之pyppeteer库简单使用

pyppeteer 介绍Pyppeteer之前先说一下Puppeteer，Puppeteer是谷歌出品的一款基于Node.js开发的一款工具，主要是用来操纵Chrome浏览器的 AP...

99+

2024-04-02
python - 爬虫简介

什么是爬虫？模拟浏览器对网站服务器发送请求解析服务器返回的响应数据，并保存数据爬虫能获取哪些数据？原则上所有可以通过浏览器获取的数据都可以爬取爬虫也只能获取爬取浏览器可以正常获取的数据爬虫的应用场景？数据分析 (如电影票房、股票信...

99+

2023-09-10

爬虫
python简单爬虫--get方式详解

目录环境准备进行爬虫参考总结简单爬虫可以划分为get、post格式。其中，get是单方面的获取资源，而post存在交互，如翻译中需要文字输入。本文主要描述简单的get爬虫。环境准备...

99+

2024-04-02
python爬虫-简单使用xpath下载

首先 1.为方便以下进行谷歌浏览器里要安装xpath脚本 2.下载一个lmxl 命令：pip install lxml 3. 以下三张图是一个，当时爬的《糗事百科》里的图片　　值的注意的是：在爬取接口时，要...

99+

2023-01-30

爬虫简单 python
如何在Python中实现一个简单的爬虫程序

如何在Python中实现一个简单的爬虫程序随着互联网的发展，数据已成为当今社会最宝贵的资源之一。而爬虫程序则成为了获取互联网数据的重要工具之一。本文将介绍如何在Python中实现一个简单的爬虫程序，并提供具体的代码示例。确定目标网站在开始编...

99+

2023-10-22

Python 程序爬虫
python实现简单倒计时功能

使用python实现简单倒计时exe，供大家参考，具体内容如下使用tkinter制作界面实现倒计时功能。使用time.sleep(1)实现秒级倒计时使用...

99+

2024-04-02
一个PHP实现的轻量级简单爬虫

最近需要收集资料，在浏览器上用另存为的方式实在是很麻烦，而且不利于存储和检索。所以自己写了一个小爬虫，在网上爬东西，迄今为止，已经爬了近百万张网页。现在正在想办法着手处理这些数据。爬虫的结构：爬...

99+

2023-08-31

php 爬虫开发语言