返回顶部
首页 > 资讯 > 精选 >Java目标网站反爬虫怎么解决
  • 685
分享到

Java目标网站反爬虫怎么解决

2023-06-02 09:06:36 685人浏览 泡泡鱼
摘要

这篇“Java目标网站反爬虫怎么解决”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“Java目标网站反爬虫怎么解决”文章吧。一

这篇“Java目标网站反爬虫怎么解决”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“Java目标网站反爬虫怎么解决”文章吧。

一 前言

在网站的采集过程中,每天都要面对网站的各种反爬虫技术,然而我们要想拿到数据,就需要针对性的制定很多方法来突破他们的反爬。例如,在采集数据过程中目标网站能识别出你的UserAgent,那你在采集的时候就需要添加很多的UserAgent来进行伪造,躲避它们的识别。有些网站能通过cookie来进行识别,所以cookie也是需要加上。它限制你的ip请求次数,那么你就需要限制你的ip速度或者换ip。更严的是会用验证码来识别你是人还是机器,那么你就需要模拟人的行为来进行突破。

 就以我现在采集的项目为例,有个项目是需要采集大众点评的数据,相信大家都知道这个网站很难采集的,ip的请求次数限制的很严,但是我又需要很多的数据,如果是通过降低我爬虫的速度那肯定是不行的,这样的话数据不知道要猴年马月才能采集完。所以我只能通过不停的切换动态ip来应对。那我需要在很短的时间内采集大量的数据,不能把时间用在管理ip池,验证他们的可用性上,所以我需要可以在java中可以实现自动切ip,这样我才可以把时间用在数据的采集上。

在网上找了很多的代理,大多都是提供的api模式的,需要我自己管理ip池,我时间紧数据量又大,这个显然不适合。找到了几家提供动态转发模式的,也测试了几家,可能是因为这个网站的特殊性也可能是因为他们的代理不稳定效果都不是很理想。

二   接入文档范例

JAVA

HttpClient3.1

import org.apache.commons.httpclient.Credentials;import org.apache.commons.httpclient.HostConfiguration;import org.apache.commons.httpclient.HttpClient;import org.apache.commons.httpclient.HttpMethod;import org.apache.commons.httpclient.httpstatus;import org.apache.commons.httpclient.UsernamePassWordCredentials;import org.apache.commons.httpclient.auth.AuthScope;import org.apache.commons.httpclient.methods.GetMethod;

import java.io.IOException;

public class Main {

    private static final String PROXY_HOST = "t.16yun.cn";

    private static final int PROXY_PORT = 31111;

    public static void main(String[] args) {

        HttpClient client = new HttpClient();

        HttpMethod method = new GetMethod("https://httpbin.org/ip");

        HostConfiguration config = client.getHostConfiguration();

        config.setProxy(PROXY_HOST, PROXY_PORT);

        client.getParams().setAuthenticationPreemptive(true);

        String username = "16ABCCKJ";

        String password = "712323";

        Credentials credentials = new UsernamePasswordCredentials(username, password);

        AuthScope authScope = new AuthScope(PROXY_HOST, PROXY_PORT);

        client.getState().setProxyCredentials(authScope, credentials);

        try {

            client.executeMethod(method);

            if (method.getStatusCode() == HttpStatus.SC_OK) {

                String response = method.getResponseBodyAsString();

                System.out.println("Response = " + response);

            }

        } catch (IOException e) {

            e.printStackTrace();

        } finally {

            method.releaseConnection();

        }

    }}

这个demo是直接复制使用的,里面的代理的配置部分是购买的代理信息里面提供的,对应的配置进去就可以运行。

注意事项

动态转发是按照每秒的请求量进行的,这个需要根据自己的数据量对应的进行购买使用。还有就是他们有提供标准和加强版,好像是ip池大小不一样,这个需要具体的向客服了解。根据自己的实际需求进行使用。

以上就是关于“Java目标网站反爬虫怎么解决”这篇文章的内容,相信大家都有了一定的了解,希望小编分享的内容对大家有帮助,若想了解更多相关的知识内容,请关注编程网精选频道。

--结束END--

本文标题: Java目标网站反爬虫怎么解决

本文链接: https://www.lsjlt.com/news/229576.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

猜你喜欢
  • Java目标网站反爬虫怎么解决
    这篇“Java目标网站反爬虫怎么解决”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“Java目标网站反爬虫怎么解决”文章吧。一...
    99+
    2023-06-02
  • 怎么应对网站反爬虫
    这篇文章给大家分享的是有关怎么应对网站反爬虫的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。1、IP代理对于IP代理,各个语言的Native Request API都提供的IP代理响应的API, 需要解决的主要就是...
    99+
    2023-06-15
  • python解决网站的反爬虫策略总结
    本文详细介绍了网站的反爬虫策略,在这里把我写爬虫以来遇到的各种反爬虫策略和应对的方法总结一下。 从功能上来讲,爬虫一般分为数据采集,处理,储存三个部分。这里我们只讨论数据采集部分。 一般网站从三个方面反爬...
    99+
    2022-06-04
    爬虫 策略 网站
  • 计算机网络中常见网站反爬虫的解决措施
    这篇文章主要介绍计算机网络中常见网站反爬虫的解决措施,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!1、最简单的方式便是校验User-Agent除了 User-Agent,所有通过 HTTP 请求传递到服务器的客户端参...
    99+
    2023-06-15
  • 网站怎么阻止网络爬虫
    这篇文章主要为大家展示了“网站怎么阻止网络爬虫”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“网站怎么阻止网络爬虫”这篇文章吧。两种主要方法可以阻止爬虫:1.屏蔽它的 IP 地址。收集爬虫的所有 ...
    99+
    2023-06-20
  • 爬虫遇到需要登录的网站怎么解决
    在日常爬虫工作中我们会遇到这样需要先进行登录才能获取数据的网站,那在遇到这样的情况时我们需要怎么处理呢?今天我们就来简单的分享学习下爬虫对需要登录情况下得处理方式。 通常情况下,用户通过浏览器登录网站...
    99+
    2023-09-02
    爬虫 python 服务器
  • 使用Python爬虫怎么避免频繁爬取网站
    这期内容当中小编将会给大家带来有关使用Python爬虫怎么避免频繁爬取网站,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。python的数据类型有哪些python的数据类型:1. 数字类型,包括int(整型...
    99+
    2023-06-15
  • Python和JS反爬怎么解决反爬参数signKey
    本篇内容主要讲解“Python和JS反爬怎么解决反爬参数signKey”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Python和JS反爬怎么解决反爬参数signKey”吧!实战场景Python...
    99+
    2023-06-30
  • 怎么解决python爬虫乱码
    python爬虫乱码解决方式:识别网页编码格式,并指定与之匹配的解码格式。使用第三方库或正则表达式提取文本。转码提取的文本。使用专门处理网页乱码的第三方库。 解决 Python 爬虫乱...
    99+
    2024-05-22
    python
  • Java中怎么实现一个网络爬虫
    Java中怎么实现一个网络爬虫,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。首先介绍每个类的功能:DownloadPage.java的功能是下载此超链接的页面源代码.Fun...
    99+
    2023-06-17
  • python怎么爬虫lxml库解析xpath网页
    这篇文章主要介绍“python怎么爬虫lxml库解析xpath网页”,在日常操作中,相信很多人在python怎么爬虫lxml库解析xpath网页问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”python怎么爬...
    99+
    2023-06-30
  • 利用java怎么实现一个网页爬虫功能
    利用java怎么实现一个网页爬虫功能?针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。爬虫实现原理网络爬虫基本技术处理网络爬虫是数据采集的一种方法,实际项目开发中,通过爬虫做数...
    99+
    2023-05-31
    java ava
  • 代理ip怎么解决爬虫中的限制
    这篇文章主要讲解了“代理ip怎么解决爬虫中的限制”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“代理ip怎么解决爬虫中的限制”吧!代理IP可以帮助我们更换计算机IP,有了代理IP就可以解决IP...
    99+
    2023-06-20
  • python爬虫字体加密问题怎么解决
    本文小编为大家详细介绍“python爬虫字体加密问题怎么解决”,内容详细,步骤清晰,细节处理妥当,希望这篇“python爬虫字体加密问题怎么解决”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。抛出问题我们看到这个号...
    99+
    2023-07-05
  • python多线程爬虫越跑越慢怎么解决
    在 Python 中,多线程爬虫越跑越慢的问题可能是由于以下原因导致的: GIL(全局解释器锁):Python 中的 GIL 会...
    99+
    2023-10-25
    python
  • seo怎么确定网站的目标关键词
    小编给大家分享一下seo怎么确定网站的目标关键词,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!各大搜索引擎关于关键词量查询都非常类似:a、国内我们主要的对象是百度...
    99+
    2023-06-10
  • 美国网站服务器流量超标怎么解决
    美国网站服务器流量超标解决的方法:1、升级美国网站服务器的带宽及套餐流量,或租用不限制流量的美国网站服务器;2、如果网站受到DDOS攻击或被挂了黑链、木马,先找到木马并清除,然后打上补丁;3、如果是大量视频或图片类的数据占用流量,减少音频视...
    99+
    2024-04-02
  • windows无线鼠标没反应怎么解决
    本文小编为大家详细介绍“windows无线鼠标没反应怎么解决”,内容详细,步骤清晰,细节处理妥当,希望这篇“windows无线鼠标没反应怎么解决”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。解决方法检查一下鼠标背...
    99+
    2023-07-01
  • linux点图标没有反应怎么解决
    如果在Linux上单击图标没有任何反应,可以尝试以下解决方法:1. 重新启动窗口管理器:有时候窗口管理器可能出现问题,导致图标无法正...
    99+
    2023-10-20
    linux
  • 服务器怎么解决反爬和IP被封问题
    服务器解决反爬和IP被封的方法:1、减慢网站爬取速率,能减小目标网站的压力;2、用动态拨号vps服务器设置变换IP,能解决反爬和IP被封的问题,但会降低获取速度。具体内容如下:减慢爬取速率那样目标网站的压力就会相对性减小,可是这么做的话,单...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作