iis服务器助手广告广告
返回顶部
首页 > 资讯 > 精选 >利用JAVA实现一个多线程爬虫
  • 179
分享到

利用JAVA实现一个多线程爬虫

java多线程爬虫 2023-05-31 15:05:16 179人浏览 安东尼
摘要

利用JAVA实现一个多线程爬虫?很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。JAVA 多线程爬虫实例详解前言以前喜欢python的爬虫是出于他的简洁,但到了后期

利用JAVA实现一个多线程爬虫?很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。

JAVA 多线程爬虫实例详解

前言

以前喜欢python的爬虫是出于他的简洁,但到了后期需要更快,更大规模的爬虫的时候,我才渐渐意识到Java的强大。Java有一个很好的机制,就是多线程。而且Java的代码效率执行起来要比Python快很多。这份博客主要用于记录我对多线程爬虫的实践理解。

线程

线程是指一个任务从头至尾的执行流。线程提供了运行一个任务的机制。对于Java而言,可以在一个程序中并发地启动多个线程。这些线程可以在多处理器系统上同时运行。

runnable接口

任务类必须实现runnable接口,它只包含一个run方法。需要实现这个方法来告诉系统线程将如何运行。

Thread类

包含为任务而创建的线程的构造方法,以及控制线程的方法。

synchronized关键字

为避免竞争状态,防止多个线程同时进入程序的某个特定部分,即临界区,以便一次只有一个线程可以访问临界区。

利用加锁同步

Java可以显式加,一个锁是一个Lock接口的实例,它定义了加锁和释放锁的方法。

线程池

线程池是管理开发执行任务个数的理想方法。Java提供Executor接口来执行线程池中的任务,提供ExecutorService接口管理和控制任务。

使用线程池的方法获取url列表

import java.util.ArrayList;import java.util.List;import java.util.concurrent.ExecutorService;import java.util.concurrent.Executors;import java.util.concurrent.locks.Lock;import java.util.concurrent.locks.ReentrantLock;public class MyThreading {  private static String p_id = null;  private static Url urls = null;  public MyThreading(String p_id){    this.p_id = p_id ;   // 京东商品的id    urls = new Url(p_id);   }  public List<String> getUriList(){    ExecutorService executor = Executors.newCachedThreadPool();    for (int i = 0 ; i < 600 ; i ++){      executor.execute(new AddUrl(i));    // 添加任务到线程池    }    executor.shutdown();    while (!executor.isTerminated()){}    return urls.getList();  }  public static class AddUrl implements Runnable{    int page;    public AddUrl(int page){      this.page = page;    }    public void run(){      urls.addList(page);   // 启动多线程任务    }  }  public static class Url {    private static Lock lock = new ReentrantLock();     // 开启显式家锁    private static List<String> urlList = new ArrayList();         private String p_id;    public Url(String p_id ){      this.p_id = p_id ;    }    public List<String> getList(){      return urlList;    }    public void addList(int page){      lock.lock();      try{        String url = "Http://club.jd.com/productpage/p-" + p_id + "-s-0-t-0-p-" + String.valueOf(page) + ".html";//       Thread.sleep(5);        urlList.add(url);    //添加url到url列表      }catch(Exception ex ){      }      finally {        lock.unlock();     // 解锁      }    }  }  public static void main(String[] args) {    String p_id = "2441288";    MyThreading myThreading = new MyThreading(p_id);    List <String> urlList = myThreading.getUriList();    for(String url : urlList){      System.out.println(url);    }    System.out.println(urlList.size());  }}

--结束END--

本文标题: 利用JAVA实现一个多线程爬虫

本文链接: https://www.lsjlt.com/news/226705.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 利用JAVA实现一个多线程爬虫
    利用JAVA实现一个多线程爬虫?很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。JAVA 多线程爬虫实例详解前言以前喜欢Python的爬虫是出于他的简洁,但到了后期...
    99+
    2023-05-31
    java 多线程 爬虫
  • 怎么在java中实现一个多线程爬虫
    怎么在java中实现一个多线程爬虫?很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。Java可以用来干什么Java主要应用于:1. web开发;2. Android...
    99+
    2023-06-14
  • 利用java怎么实现一个网页爬虫功能
    利用java怎么实现一个网页爬虫功能?针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。爬虫实现原理网络爬虫基本技术处理网络爬虫是数据采集的一种方法,实际项目开发中,通过爬虫做数...
    99+
    2023-05-31
    java ava
  • thinkphp5.1怎么实现多线程爬虫
    这篇文章主要介绍了thinkphp5.1怎么实现多线程爬虫,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。创建一个cli命令php think make:c...
    99+
    2023-06-25
  • Python爬虫利用多线程爬取LOL高清壁纸
    目录页面分析抓取思路数据采集程序运行总结前言: 随着移动端的普及出现了很多的移动 APP,应用软件也随之流行起来。 最近又捡起来了英雄联盟手游,感觉还行,PC 端英雄联盟可谓是爆火的...
    99+
    2024-04-02
  • Python怎么实现selenium多线程爬虫
    要在Python中实现Selenium多线程爬虫,你可以按照以下步骤进行操作: 导入必要的库: from selenium im...
    99+
    2023-10-24
    Python selenium
  • 如何使用Python中的多线程和协程实现一个高性能的爬虫
    如何使用Python中的多线程和协程实现一个高性能的爬虫导语:随着互联网的快速发展,爬虫技术在数据采集和分析中扮演着重要的角色。而Python作为一门强大的脚本语言,具备多线程和协程的功能,可以帮助我们实现高性能的爬虫。本文将介绍如何使用P...
    99+
    2023-10-22
    多线程 协程 高性能
  • 如何利用C++实现一个简单的网页爬虫程序?
    如何利用C++实现一个简单的网页爬虫程序?简介:互联网是一个信息的宝库,而通过网页爬虫程序可以轻松地从互联网上获取大量有用的数据。本文将介绍如何使用C++编写一个简单的网页爬虫程序,以及一些常用的技巧和注意事项。一、准备工作安装C++编译器...
    99+
    2023-11-04
    C++ 网页爬虫 程序实现
  • 怎么在hadoop中实现一个java爬虫
    今天就跟大家聊聊有关怎么在hadoop中实现一个java爬虫,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。需要用到Cygwin:一个在windows平台上运行的类UNIX模拟环境,直...
    99+
    2023-05-31
    java ava hadoop
  • Java中怎么实现一个网络爬虫
    Java中怎么实现一个网络爬虫,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。首先介绍每个类的功能:DownloadPage.java的功能是下载此超链接的页面源代码.Fun...
    99+
    2023-06-17
  • nodejs中怎么实现一个多页面爬虫
    这期内容当中小编将会给大家带来有关nodejs中怎么实现一个多页面爬虫,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。request 用于请求地址和快速下载图片流。 htt...
    99+
    2024-04-02
  • 在Java中使用Jsoup实现一个爬虫功能
    在Java中使用Jsoup实现一个爬虫功能?相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。 Java 爬虫工具Jsoup详解Jsoup是一款 Java 的 HTML 解...
    99+
    2023-05-31
    java 爬虫 jsoup
  • java多线程爬虫爬取百度图片的方法
    小编给大家分享一下java多线程爬虫爬取百度图片的方法,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!Java的特点有哪些Java的特点有哪些1.Java语言作为静...
    99+
    2023-06-14
  • Python3多线程处理爬虫的实战
    多线程 到底什么是多线程?说起多线程我们首先从单线程来说。例如,我在这里看书,等这件事情干完,我就再去听音乐。对于这两件事情来说都是属于单线程,是一个完成了再接着完成下一个。但是我一...
    99+
    2023-03-02
    Python3多线程爬虫 Python 多线程爬虫
  • 怎么在java中利用Runnable实现一个线程
    怎么在java中利用Runnable实现一个线程?针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。Java是什么Java是一门面向对象编程语言,可以编写桌面应用程序、Web应用...
    99+
    2023-06-14
  • 【Java】使用Java实现爬虫
    文章目录 使用Java实现爬虫一、HttpClient实现模拟HTTP访问1.1 HttpClient1.2 引入依赖1.3 创建简单的请求操作1.3.1 创建实例1.3.2 Jsoup应用 1.4 爬取过程中可能出现的问题...
    99+
    2023-08-24
    java 爬虫
  • Java中怎么实现一个多线程程序
    Java中怎么实现一个多线程程序,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。Java多线程程序设计详细解析一、理解Java多线程Java多线程是这样一种机制,它允许在程序中并...
    99+
    2023-06-17
  • java Spring Boot2.7实现一个简单的爬虫功能
    首先 我们要在 pom.xml 中注入Jsoup 这是一个简单的java爬虫框架 org.jsoup jsoup 1.14.1 然后这里我们直接用main吧 做简单一点 我们创建一...
    99+
    2023-10-03
    java spring boot 爬虫
  • 怎么在python中利用递归实现一个爬虫解析器
    怎么在python中利用递归实现一个爬虫解析器?相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。另外一种是配置文件预先告知的方式,你配置成什么类型,解析器就通过对应的解析规则去解析...
    99+
    2023-06-14
  • python3爬虫中多线程的使用示例
    这篇文章主要介绍了python3爬虫中多线程的使用示例,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。本文教程操作环境:windows7系统、Python 3.9.1,DELL...
    99+
    2023-06-14
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作