iis服务器助手广告
返回顶部
首页 > 资讯 > 精选 >JAVA超级简单的爬虫实例讲解
  • 710
分享到

JAVA超级简单的爬虫实例讲解

java爬虫ava 2023-05-30 23:05:16 710人浏览 独家记忆
摘要

爬取整个页面的数据,并进行有效的提取信息,注释都有就不废话了:public class Reptile { public static void main(String[] args) { String url1=""; //传入

爬取整个页面的数据,并进行有效的提取信息,注释都有就不废话了:

public class Reptile {  public static void main(String[] args) {   String url1="";   //传入你所要爬取的页面地址 InputStream is=null;  //创建输入流用于读取流 BufferedReader br=null; //包装流,加快读取速度 StringBuffer html=new StringBuffer(); //用来保存读取页面的数据. String temp=""; //创建临时字符串用于保存每一次读的一行数据,然后html调用append方法写入temp; try {  URL url2 = new URL(url1); //获取URL;  is = url2.openStream(); //打开流,准备开始读取数据;  br= new BufferedReader(new InputStreamReader(is)); //将流包装成字符流,调用br.readLine()可以提高读取效率,每次读取一行;  while ((temp = br.readLine()) != null) {//读取数据,调用br.readLine()方法每次读取一行数据,并赋值给temp,如果没数据则值==null,跳出循环;  html.append(temp); //将temp的值追加给html,这里注意的时String跟StringBuffere的区别前者不是可变的后者是可变的;  }  //System.out.println(html); //打印出爬取页面的全部代码;  if(is!=null)  //接下来是关闭流,防止资源的浪费;  {   is.close();   is=null;  }  Document doc=jsoup.parse(html.toString()); //通过Jsoup解析页面,生成一个document对象;  Elements elements=doc.getElementsByClass("XX");//通过class的名字得到(即XX),一个数组对象Elements里面有我们想要的数据,至于这个div的值呢你打开浏览器按下F12就知道了;  for (Element element:elements) {   System.out.println(element.text()); //打印出每一个节点的信息;你可以选择性的保留你想要的数据,一般都是获取个固定的索引;    }    } catch (MalfORMedURLException e) {  // TODO Auto-generated catch block  e.printStackTrace(); } catch (IOException e) {  // TODO Auto-generated catch block  e.printStackTrace(); }   }

--结束END--

本文标题: JAVA超级简单的爬虫实例讲解

本文链接: https://www.lsjlt.com/news/222072.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • JAVA超级简单的爬虫实例讲解
    爬取整个页面的数据,并进行有效的提取信息,注释都有就不废话了:public class Reptile { public static void main(String[] args) { String url1=""; //传入...
    99+
    2023-05-30
    java 爬虫 ava
  • java 爬虫详解及简单实例
    Java爬虫一、代码爬虫的实质就是打开网页源代码进行匹配查找,然后获取查找到的结果。打开网页:URL url = new URL(http://www.cnblogs.com/Renyi-Fan/p/6896901.html);...
    99+
    2023-05-31
    java 爬虫 ava
  • node.js实现简单爬虫示例详解
    目录node.js实现简单爬虫第一步第二步爬虫结果小结:node.js实现简单爬虫 工具:cheerio cheerio 是 nodejs 特别为服务端定制的,能够快速灵活的对 JQ...
    99+
    2023-05-17
    node.js简单爬虫 node.js爬虫
  • python爬虫入门教程(非常详细),超级简单的Python爬虫教程
    一、基础入门 1.1什么是爬虫 爬虫(spider,又网络爬虫),是指向网站/网络发起请求,获取资源后分析并提取有用数据的程序。 从技术层面来说就是 通过程序模拟浏览器请求站点的行为,把站点返回的HT...
    99+
    2023-09-01
    python 爬虫 python爬虫 爬虫入门 python零基础
  • Java 使用maven实现Jsoup简单爬虫案例详解
    一、Jsoup的简介         jsoup 是一款Java 的HTML解析器,可直接解析某个UR...
    99+
    2024-04-02
  • Python爬虫必备之Xpath简介及实例讲解
    目录前言一、Xpath简介二、Xpath语法规则语法规则标签定位属性定位索引定位取文本内容三、语法规则练习总结前言 网上已经有很多大佬发过Xpath,而且讲的都很好,我是因为刚开始学...
    99+
    2024-04-02
  • 一个PHP实现的轻量级简单爬虫
    最近需要收集资料,在浏览器上用另存为的方式实在是很麻烦,而且不利于存储和检索。所以自己写了一个小爬虫,在网上爬东西,迄今为止,已经爬了近百 万张网页。现在正在想办法着手处理这些数据。 爬虫的结构: 爬...
    99+
    2023-08-31
    php 爬虫 开发语言
  • java编程实现简单的网络爬虫示例过程
    本项目中需要用到两个第三方jar包,分别为 jsoup 和 commons-io。 jsoup的作用是为了解析网页, commons-io 是为了把数据保存到本地。 1.爬取贴吧 第...
    99+
    2024-04-02
  • java实现一个简单的网络爬虫代码示例
    目前市面上流行的爬虫以python居多,简单了解之后,觉得简单的一些页面的爬虫,主要就是去解析目标页面(html)。那么就在想,java有没有用户方便解析html页面呢?找到了一个jsoup包,一个非常方便解析html的工具呢。使用方式也非...
    99+
    2023-05-30
    网络爬虫 java jsoup
  • 基于Python的简单40例和爬虫详细讲解(文末赠书)
    目录 先来看看Python40例 学习Python容易坐牢?  介绍一下什么是爬虫 1、收集数据 来源地址:https://blog.csdn.net/m0_64122244/article/details/130165155...
    99+
    2023-08-31
    python java 开发语言
  • 怎么使用PHP实现轻量级简单爬虫
    本篇内容介绍了“怎么使用PHP实现轻量级简单爬虫”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!爬虫的结构:爬虫的原理其实很简单,就是分析下载...
    99+
    2023-07-05
  • PHP实现简单爬虫的方法
    PHP实现简单爬虫的方法,php实现爬虫 本文实例讲述了PHP实现简单爬虫的方法。分享给大家供大家参考。具体如下: ...
    99+
    2023-09-08
    php 爬虫 开发语言
  • java Spring Boot2.7实现一个简单的爬虫功能
    首先 我们要在 pom.xml 中注入Jsoup 这是一个简单的java爬虫框架 org.jsoup jsoup 1.14.1 然后这里我们直接用main吧 做简单一点 我们创建一...
    99+
    2023-10-03
    java spring boot 爬虫
  • java简单工厂模式实例及讲解
    简单工厂模式 工厂模式(Factory Pattern)是 Java 中最常用的设计模式之一。这种类型的设计模式属于创建型模式,它提供了一种创建对象的最佳方式。在工厂模式中,我们在创...
    99+
    2024-04-02
  • 分享一个简单的java爬虫框架
    反复给网站编写不同的爬虫逻辑太麻烦了,自己实现了一个小框架可以自定义的部分有:请求方式(默认为Getuser-agent为谷歌浏览器的设置),可以通过实现RequestSet接口来自定义请求方式储存方式(默认储存在f盘的html文件夹下),...
    99+
    2023-05-30
    java 爬虫框架 ava
  • node.js做一个简单的爬虫案例教程
    准备工作 首先,你需要下载 nodejs,这个应该没啥问题吧 原文要求下载 webstrom,我电脑上本来就有,但其实不用下载,完全在命令行里面操作就行 创建工程...
    99+
    2024-04-02
  • 使用Python实现简单的爬虫框架
    目录一、请求网页二、解析 HTML三、构建爬虫框架爬虫是一种自动获取网页内容的程序,它可以帮助我们从网络上快速收集大量信息。在本文中,我们将学习如何使用 Python 编写一个简单的...
    99+
    2023-05-19
    Python如何实现爬虫框架 Python爬虫框架 Python爬虫
  • Scrapy简单入门及实例讲解
    Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 A...
    99+
    2023-01-31
    实例 入门 简单
  • java爬虫jsoup解析HTML实例分析
    本篇内容介绍了“java爬虫jsoup解析HTML实例分析”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!前言使用python写爬虫的人,应该...
    99+
    2023-07-02
  • 基于spring中的aop简单实例讲解
    aop,即面向切面编程,面向切面编程的目标就是分离关注点,比如:一个骑士只需要关注守护安全,或者远征,而骑士辉煌一生的事迹由谁来记录和歌颂呢,当然不会是自己了,这个完全可以由诗人去歌颂,比如当骑士出征的时候诗人可以去欢送,当骑士英勇牺牲的时...
    99+
    2023-05-31
    spring aop 实例
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作