python简单爬虫笔记

爬虫简单笔记 2023-01-31 01:01:07 647人浏览八月长安

Python 官方文档：入门教程 => 点击学习

摘要

python模拟游览器爬取相关页面 import urllib.request url="https://blog.51cto.com/itstyle/2146899" #模拟浏览器 headers=("User-Agent","Moz

python模拟游览器爬取相关页面

import urllib.request

url="https://blog.51cto.com/itstyle/2146899"

#模拟浏览器
headers=("User-Agent","Mozilla/5.0 (windows NT 6.1; WOW64) AppleWEBKit/537.36 (Khtml, like Gecko) Chrome/55.0.2883.87 Safari/537.36")
opener=urllib.request.build_opener()
opener.addheaders=[headers]
data=opener.open(url).read()

fh=open("D:/5.html","wb")
fh.write(data)
fh.close()

Python爬取新闻网站并将文章下载到本地

import urllib.request
import urllib.error
import re
data=urllib.request.urlopen("Http://news.sina.com.cn/").read()
data2=data.decode("utf-8","ignore")
pat='href="(http://news.sina.com.cn/.*?)">'
allurl=re.compile(pat).findall(data2)
for i in range(0,len(allurl)):
    try:
        print("第"+str(i+1)+"次爬取")
        thisurl=allurl[i]
        file="D:/pac/sinanews/"+str(i)+".html"
        urllib.request.urlretrieve(thisurl,file)
        print("-----成功-----")
    except urllib.error.URLError as e:
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)

python爬取月光博客文章下载到本地

import re
import urllib.request
import urllib.error

data=urllib.request.urlopen("http://www.williamlong.info/").read()
pat='rel="bookmark">(.*?)</a>'
pat_url='class="post-title"><a href="(http://www.williamlong.info/arcHives/.*?)"'
data=data.decode("utf-8")
mydata=re.compile(pat).findall(data)   #所有的博客文章名
allurl=re.compile(pat_url).findall(data)   #所有的网址链接

for i in range(0,len(allurl)):
    try:
        print("正在生产第"+str(i+1)+"次文件")
        thisurl=allurl[i]
        file="E:/PAS/yueguang/"+mydata[i]+".html"
        urllib.request.urlretrieve(thisurl,file)
        print("生产成功")
    except urllib.error.URLError as e:
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: python简单爬虫笔记

本文链接: https://www.lsjlt.com/news/183100.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

python简单爬虫笔记

python模拟游览器爬取相关页面 import urllib.request url="https://blog.51cto.com/itstyle/2146899" #模拟浏览器 headers=("User-Agent","Moz...

99+

2023-01-31

爬虫简单笔记
python爬虫笔记-day3

正则使用的注意点re.findall("a(.*)b","str"),能够返回括号中的内容,括号前后的内容起到定位和过滤的效果原始字符串r，待匹配字符串中有反斜杠的时候，使用r能够忽视反斜杠带来的转义的效果点号默认情况匹配不到\n\s能够匹...

99+

2023-01-31

爬虫笔记 python
Python简单爬虫

爬取链家二手房源信息import requests import re from bs4 import BeautifulSoup import csv url = ['https://cq.lianjia.com/ershoufang/...

99+

2023-01-31

爬虫简单 Python
爬虫笔记1：Python爬虫常用库

请求库：1、urllib：urllib库是Python3自带的库（Python2有urllib和urllib2，到了Python3统一为urllib），这个库是爬虫里最简单的库。2、requests：requests属于第三方库，使用起来...

99+

2023-01-31

爬虫常用笔记
Python爬虫笔记4-Beautif

BeautifulSoup介绍与lxml一样，BeautifulSoup也是一个HTML/XML的解析器，主要功能也是如何解析和提取HTML/XML数据。几种解析工具的对比工具速度难度正则表达式最快困难 ...

99+

2023-01-31

爬虫笔记 Python
Python 简单业务爬虫

如何快速下载贴吧图片呢？#!/usr/bin/python # -*- coding: UTF-8 -*- import urllib import re def getHtml(url): page = urllib.urlop...

99+

2023-01-31

爬虫简单业务
python实现简单爬虫--爬图片

首先有两个功能需求：第一：获取到要爬的页面html内容；第二：使用正则表达式进行匹配并进行保存到本地。#!/usr/bin/env python #encoding:utf-8 import urllib import re def get...

99+

2023-01-31

爬虫简单图片
Python爬虫笔记3-解析库Xpat

当爬取到Html数据后，可以用正则对数据进行提取，但有时候正则表达式编写起来不方便，而且万一写错了，可能导致匹配失败。这时候就需要借助其他解析工具了。 XML引入什么是XML？ XML 指可扩展标记语言（EXtensible Mark...

99+

2023-01-31

爬虫笔记 Python
Python爬虫笔记5-JSON格式数

环境：python-3.6.5 JSON JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式，它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景，比如网站前...

99+

2023-01-31

爬虫格式笔记
python3 爬虫笔记（一）beaut

很多人学习python，爬虫入门，在python爬虫中，有很多库供开发使用。用于请求的urllib(python3)和request基本库，xpath,beautiful soup,pyquery这样的解析库。其中xpath中用到大量的...

99+

2023-01-30

爬虫笔记 beaut
一个简单的python爬虫,爬取知乎

一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录，可自行实现，比图片更简单具体代码里有详细注释，请自行阅读项目源码：# -*- coding:utf-8 ...

99+

2023-06-02
python爬虫之pyppeteer库简单使用

pyppeteer 介绍Pyppeteer之前先说一下Puppeteer，Puppeteer是谷歌出品的一款基于Node.js开发的一款工具，主要是用来操纵Chrome浏览器的 AP...

99+

2024-04-02
python - 爬虫简介

什么是爬虫？模拟浏览器对网站服务器发送请求解析服务器返回的响应数据，并保存数据爬虫能获取哪些数据？原则上所有可以通过浏览器获取的数据都可以爬取爬虫也只能获取爬取浏览器可以正常获取的数据爬虫的应用场景？数据分析 (如电影票房、股票信...

99+

2023-09-10

爬虫
python简单爬虫--get方式详解

目录环境准备进行爬虫参考总结简单爬虫可以划分为get、post格式。其中，get是单方面的获取资源，而post存在交互，如翻译中需要文字输入。本文主要描述简单的get爬虫。环境准备...

99+

2024-04-02
python爬虫-简单使用xpath下载

首先 1.为方便以下进行谷歌浏览器里要安装xpath脚本 2.下载一个lmxl 命令：pip install lxml 3. 以下三张图是一个，当时爬的《糗事百科》里的图片　　值的注意的是：在爬取接口时，要...

99+

2023-01-30

爬虫简单 python
python爬虫Mitmproxy安装使用学习笔记

目录一、简介和安装1.1、概念和作用概念作用1.2、安装1.3、工具介绍二、设置代理2.1、PC端设置代理2.2、PC端安装证书2.3、移动端设置代理三、 mitmdump3.1、插...

99+

2024-04-02
Python 简单爬虫抓取糗事百科

该爬虫主要实现的功能是抓取糗事百科里面的一些段子。 urllib2可以用urllib2.openurl中设置Request参数，来修改Header头。如果你访问一个网站，想更改User Agent（可以伪装你的浏览器），你就要...

99+

2023-01-31

爬虫糗事百科
python萌新爬虫学习笔记【建议收藏】

文章目录 1. 如何何请求解析url2. 如何获取标签里面的文本3. 如何解析JSON格式4. 如何添加常用的header5. 如何合并两个div6. 如何删除html dom的部分结构7. ...

99+

2023-09-20

python 爬虫学习
python爬虫入门教程(非常详细),超级简单的Python爬虫教程

一、基础入门 1.1什么是爬虫爬虫(spider，又网络爬虫)，是指向网站/网络发起请求，获取资源后分析并提取有用数据的程序。从技术层面来说就是通过程序模拟浏览器请求站点的行为，把站点返回的HT...

99+

2023-09-01

python 爬虫 python爬虫爬虫入门 python零基础
使用python编写简单网络爬虫（一）

总算有时间动手用所学的python知识编写一个简单的网络爬虫了，这个例子主要实现用python爬虫从百度图库中下载美女的图片，并保存在本地，闲话少说，直接贴出相应的代码如下：---------------------------...

99+

2023-01-31

爬虫简单网络