首页 > 资讯 > 后端开发 > Python >python学习-Selenium爬虫之使用代理ip的方法

134

分享到

python学习-Selenium爬虫之使用代理ip的方法

2023-06-02 05:06:15 134人浏览八月长安

Python 官方文档：入门教程 => 点击学习

摘要

今天给大家分享的是如何在爬取数据的时候防止IP被封，今天给大家分享两种方法，希望大家可以认真学习，再也不用担心被封IP啦。第一种：降低访问速度，我们可以使用time模块中的sleep，使程序每运行一次后就睡眠1s，这样的话就可以

今天给大家分享的是如何在爬取数据的时候防止IP被封，今天给大家分享两种方法，希望大家可以认真学习，再也不用担心被封IP啦。

第一种：

降低访问速度，我们可以使用time模块中的sleep，使程序每运行一次后就睡眠1s，这样的话就可以大大的减少ip被封的几率

第二种：

为了提高效率，我们可以使用代理ip来解决，ip是亿牛云的动态转发代理，以下是代理配置过程的示例

Selenium¶

from selenium import WEBdriver

import string

import zipfile

# 代理服务器

proxyHost = "t.16yun.cn"

proxyPort = "31111"

# 代理隧道验证信息

proxyUser = "username"

proxyPass = "passWord"

def create_proxy_auth_extension(proxy_host, proxy_port,

proxy_username, proxy_password,

scheme='Http', plugin_path=None):

if plugin_path is None:

plugin_path = r'C:/{}_{}@t.16yun.zip'.fORMat(proxy_username, proxy_password)

manifest_JSON = """ { "version": "1.0.0", "manifest_version": 2, "name": "16YUN Proxy", "permissions": [ "proxy", "tabs", "unlimitedStorage", "storage", "", "webRequest", "webRequestBlocking" ], "background": { "scripts": ["background.js"] }, "minimum_chrome_version":"22.0.0" } """

background_js = string.Template(

""" var config = { mode: "fixed_servers", rules: { singleProxy: { scheme: "${scheme}", host: "${host}", port: parseInt(${port}) }, bypassList: ["foobar.com"] } };

chrome.proxy.settings.set({value: config, scope: "regular"}, function() {});

function callbackFn(details) { return { authCredentials: { username: "${username}", password: "${password}" } }; }

chrome.webRequest.onAuthRequired.addListener( callbackFn, {urls: [""]}, ['blocking'] ); """

).substitute(

host=proxy_host,

port=proxy_port,

username=proxy_username,

password=proxy_password,

scheme=scheme,

)

with zipfile.ZipFile(plugin_path, 'w') as zp:

zp.writestr("manifest.json", manifest_json)

zp.writestr("background.js", background_js)

return plugin_path

proxy_auth_plugin_path = create_proxy_auth_extension(

proxy_host=proxyHost,

proxy_port=proxyPort,

proxy_username=proxyUser,

proxy_password=proxyPass)

option = webdriver.ChromeOptions()

option.add_argument("--start-maximized")

# 如报错 chrome-extensions

# option.add_argument("--disable-extensions")

option.add_extension(proxy_auth_plugin_path)

driver = webdriver.Chrome(chrome_options=option)

driver.get("http://httpbin.org/ip")

好了，今天关于python学习的分享就到这里，上边的那段代码可以直接使用，但是里边的代理应该已经过期，大家在使用的时候可能需要联系代理商开通服务，最后呢希望大家能够收藏起来，要记得做笔记哦。好记性不如烂笔头。

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: python学习-Selenium爬虫之使用代理ip的方法

本文链接: https://www.lsjlt.com/news/228958.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

python学习-Selenium爬虫之使用代理ip的方法

今天给大家分享的是如何在爬取数据的时候防止IP被封，今天给大家分享两种方法，希望大家可以认真学习，再也不用担心被封IP啦。第一种：降低访问速度，我们可以使用time模块中的sleep，使程序每运行一次后就睡眠1s，这样的话就可以...

99+

2023-06-02
python爬虫之代理ip正确使用方法实例

目录代理ip原理输入网址后发生了什么呢？代理ip做了什么呢？为什么要用代理呢？爬虫代码中使用代理ip检验代理ip是否生效未生效问题排查1.请求协议不匹配2.代...

99+

2024-04-02
Python 爬虫使用代理 IP 的正确方法

代理 IP 是爬虫中非常常用的方法，可以避免因为频繁请求而被封禁。下面是 Python 爬虫使用代理 IP 的正确方法：选择可靠的代理 IP 供应商，购买或者免费使用代理 IP 列表。 2. 在爬虫中使用第三方库 requests ，并...

99+

2023-09-01

python 开发语言
Python爬虫学习之requests的使用教程

目录requests库简介requests库安装1、pip命令安装2、下载代码进行安装requests库的使用发送请求get请求抓取二进制数据post请求POST请求的文件上传利用r...

99+

2024-04-02
python爬虫之代理ip怎么正确使用

在Python中使用代理IP进行爬虫需要使用第三方库，比如requests库。以下是使用代理IP的正确步骤：1. 导入request...

99+

2023-08-17

python
python爬虫ip代理池的搭建方法

这篇文章主要讲解了“python爬虫ip代理池的搭建方法”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“python爬虫ip代理池的搭建方法”吧！1、选择合适的代理软件并进行ip过滤。总共有2...

99+

2023-06-20
python 爬虫如何使用代理IP

作为一名数据采集者，我们都是知道，一个网站要是频繁访问都会被封IP，那要怎么解决这个问题呢？不可能一直频繁的更换设备，不光数据不能同步，这些设备的成本也是无法预计的，所以这个时候就需要代理IP了。以亿牛云(https://www.16yun...

99+

2023-06-02
使用python爬虫代理时ip被封的解决方法

小编给大家分享一下使用python爬虫代理时ip被封的解决方法，希望大家阅读完这篇文章之后都有所收获，下面让我们一起去探讨吧！python有哪些常用库python常用的库：1.requesuts；2.scrapy；3.pillow；4.tw...

99+

2023-06-14
python爬虫http代理使用方法

目前，许多网站都设置了相应的防爬虫机制。这是因为有些人在实际的防爬虫主权过程中恶意收集或恶意攻击。一般来说，爬虫类开发者为了能够正常收集数据，速度相对较慢，或者一部分爬虫类开发者在网...

99+

2024-04-02
python爬虫之requests库使用代理方式

目录安装上requests库GET方法谷歌浏览器的开发者工具POST方法使用代理在看这篇文章之前，需要大家掌握的知识技能： python基础html基础http状态码让我们看看这篇...

99+

2024-04-02
python爬虫之selenium模块怎么使用

这篇文章主要介绍了python爬虫之selenium模块怎么使用的相关知识，内容详细易懂，操作简单快捷，具有一定借鉴价值，相信大家阅读完这篇python爬虫之selenium模块怎么使用文章都会有所收获，下面我们一起来看看吧。一、什么是Se...

99+

2023-06-30
网络爬虫结合ip代理的使用方法

这篇文章主要讲解了“网络爬虫结合ip代理的使用方法”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“网络爬虫结合ip代理的使用方法”吧！说到网络爬虫，大家都会很熟悉，因为网络爬虫实际上一直在我们...

99+

2023-06-20
使用代理ip遇到反爬虫的解决方法

这篇文章主要介绍使用代理ip遇到反爬虫的解决方法，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！分布式爬虫。我们爬虫的时候可以采用分布式的方法，有一定几率起到反爬虫的作用，也可以增加抓取量。保存cookies。当模拟登...

99+

2023-06-14
怎么使用爬虫代理IP

本篇内容介绍了“怎么使用爬虫代理IP”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！在网络数据时代，许多信息需要整理和使用。然而，面对如此大量...

99+

2023-06-20
如何使用爬虫代理IP

这篇文章给大家介绍如何使用爬虫代理IP，内容非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。进入网站-品易云http代理-点击api提取。选择自己需求内容，点击【提取代理IP】然后根据需要选择提取数量、代理协议、格式等，然后点...

99+

2023-06-14
Python 网页爬虫原理及代理 IP 使用

目录前言一、Python 网页爬虫原理二、Python 网页爬虫案例步骤1：分析网页步骤2：提取数据步骤3：存储数据三、使用代理 IP 四、总结前言随着互联网的发展，网络上的信息量变得越来越庞大。对于数据分析人员和研究...

99+

2023-09-14

python 爬虫 tcp/ip
python爬虫之selenium库的安装及使用教程

目录第一步：python中安装selenium库第二步：下载谷歌浏览器驱动并合理放置第三步：使用selenium爬取QQ音乐歌词（简单示例）第一步：python中安装selenium...

99+

2024-04-02
python爬虫设置每个代理ip的简单方法

python爬虫设置每个代理ip的方法： 1.添加一段代码，设置代理，每隔一段时间换一个代理。 urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy...

99+

2024-04-02
Python爬虫所需要的爬虫代理ip是什么

本篇内容主要讲解“Python爬虫所需要的爬虫代理ip是什么”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“Python爬虫所需要的爬虫代理ip是什么”吧!1 代理类型代理IP一共可以分成4种类型...

99+

2023-06-02
爬虫怎么使用ip代理池

这篇文章主要讲解了“爬虫怎么使用ip代理池”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“爬虫怎么使用ip代理池”吧！1、利用IP代理池技术，每次从IP代理池中随机选择一个IP代理来爬取数据。...

99+

2023-06-20