JAVA超级简单的爬虫实例讲解

java 爬虫 ava 2023-05-30 23:05:16 710人浏览独家记忆

摘要

爬取整个页面的数据，并进行有效的提取信息，注释都有就不废话了：public class Reptile { public static void main(String[] args) { String url1=""; //传入

爬取整个页面的数据，并进行有效的提取信息，注释都有就不废话了：

public class Reptile {  public static void main(String[] args) {   String url1="";   //传入你所要爬取的页面地址 InputStream is=null;  //创建输入流用于读取流 BufferedReader br=null; //包装流,加快读取速度 StringBuffer html=new StringBuffer(); //用来保存读取页面的数据. String temp=""; //创建临时字符串用于保存每一次读的一行数据，然后html调用append方法写入temp; try {  URL url2 = new URL(url1); //获取URL;  is = url2.openStream(); //打开流，准备开始读取数据;  br= new BufferedReader(new InputStreamReader(is)); //将流包装成字符流，调用br.readLine()可以提高读取效率，每次读取一行;  while ((temp = br.readLine()) != null) {//读取数据,调用br.readLine()方法每次读取一行数据,并赋值给temp,如果没数据则值==null,跳出循环;  html.append(temp); //将temp的值追加给html,这里注意的时String跟StringBuffere的区别前者不是可变的后者是可变的;  }  //System.out.println(html); //打印出爬取页面的全部代码;  if(is!=null)  //接下来是关闭流,防止资源的浪费;  {   is.close();   is=null;  }  Document doc=jsoup.parse(html.toString()); //通过Jsoup解析页面,生成一个document对象;  Elements elements=doc.getElementsByClass("XX");//通过class的名字得到（即XX）,一个数组对象Elements里面有我们想要的数据,至于这个div的值呢你打开浏览器按下F12就知道了;  for (Element element:elements) {   System.out.println(element.text()); //打印出每一个节点的信息;你可以选择性的保留你想要的数据,一般都是获取个固定的索引;    }    } catch (MalfORMedURLException e) {  // TODO Auto-generated catch block  e.printStackTrace(); } catch (IOException e) {  // TODO Auto-generated catch block  e.printStackTrace(); }   }

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: JAVA超级简单的爬虫实例讲解

本文链接: https://www.lsjlt.com/news/222072.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

JAVA超级简单的爬虫实例讲解

爬取整个页面的数据，并进行有效的提取信息，注释都有就不废话了：public class Reptile { public static void main(String[] args) { String url1=""; //传入...

99+

2023-05-30

java 爬虫 ava
java 爬虫详解及简单实例

Java爬虫一、代码爬虫的实质就是打开网页源代码进行匹配查找，然后获取查找到的结果。打开网页：URL url = new URL(http://www.cnblogs.com/Renyi-Fan/p/6896901.html);...

99+

2023-05-31

java 爬虫 ava
node.js实现简单爬虫示例详解

目录node.js实现简单爬虫第一步第二步爬虫结果小结：node.js实现简单爬虫工具：cheerio cheerio 是 nodejs 特别为服务端定制的，能够快速灵活的对 JQ...

99+

2023-05-17

node.js简单爬虫 node.js爬虫
python爬虫入门教程(非常详细),超级简单的Python爬虫教程

一、基础入门 1.1什么是爬虫爬虫(spider，又网络爬虫)，是指向网站/网络发起请求，获取资源后分析并提取有用数据的程序。从技术层面来说就是通过程序模拟浏览器请求站点的行为，把站点返回的HT...

99+

2023-09-01

python 爬虫 python爬虫爬虫入门 python零基础
Java 使用maven实现Jsoup简单爬虫案例详解

一、Jsoup的简介 jsoup 是一款Java 的HTML解析器，可直接解析某个UR...

99+

2024-04-02
Python爬虫必备之Xpath简介及实例讲解

目录前言一、Xpath简介二、Xpath语法规则语法规则标签定位属性定位索引定位取文本内容三、语法规则练习总结前言网上已经有很多大佬发过Xpath，而且讲的都很好，我是因为刚开始学...

99+

2024-04-02
一个PHP实现的轻量级简单爬虫

最近需要收集资料，在浏览器上用另存为的方式实在是很麻烦，而且不利于存储和检索。所以自己写了一个小爬虫，在网上爬东西，迄今为止，已经爬了近百万张网页。现在正在想办法着手处理这些数据。爬虫的结构：爬...

99+

2023-08-31

php 爬虫开发语言
java编程实现简单的网络爬虫示例过程

本项目中需要用到两个第三方jar包，分别为 jsoup 和 commons-io。 jsoup的作用是为了解析网页， commons-io 是为了把数据保存到本地。 1.爬取贴吧第...

99+

2024-04-02
java实现一个简单的网络爬虫代码示例

目前市面上流行的爬虫以python居多，简单了解之后，觉得简单的一些页面的爬虫，主要就是去解析目标页面（html）。那么就在想，java有没有用户方便解析html页面呢？找到了一个jsoup包，一个非常方便解析html的工具呢。使用方式也非...

99+

2023-05-30

网络爬虫 java jsoup
基于Python的简单40例和爬虫详细讲解（文末赠书）

目录先来看看Python40例学习Python容易坐牢？介绍一下什么是爬虫 1、收集数据来源地址：https://blog.csdn.net/m0_64122244/article/details/130165155...

99+

2023-08-31

python java 开发语言
怎么使用PHP实现轻量级简单爬虫

本篇内容介绍了“怎么使用PHP实现轻量级简单爬虫”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！爬虫的结构：爬虫的原理其实很简单，就是分析下载...

99+

2023-07-05
PHP实现简单爬虫的方法

PHP实现简单爬虫的方法，php实现爬虫本文实例讲述了PHP实现简单爬虫的方法。分享给大家供大家参考。具体如下： ...

99+

2023-09-08

php 爬虫开发语言
java Spring Boot2.7实现一个简单的爬虫功能

首先我们要在 pom.xml 中注入Jsoup 这是一个简单的java爬虫框架 org.jsoup jsoup 1.14.1 然后这里我们直接用main吧做简单一点我们创建一...

99+

2023-10-03

java spring boot 爬虫
java简单工厂模式实例及讲解

简单工厂模式工厂模式（Factory Pattern）是 Java 中最常用的设计模式之一。这种类型的设计模式属于创建型模式，它提供了一种创建对象的最佳方式。在工厂模式中，我们在创...

99+

2024-04-02
分享一个简单的java爬虫框架

反复给网站编写不同的爬虫逻辑太麻烦了,自己实现了一个小框架可以自定义的部分有:请求方式(默认为Getuser-agent为谷歌浏览器的设置),可以通过实现RequestSet接口来自定义请求方式储存方式(默认储存在f盘的html文件夹下),...

99+

2023-05-30

java 爬虫框架 ava
node.js做一个简单的爬虫案例教程

准备工作首先，你需要下载 nodejs，这个应该没啥问题吧原文要求下载 webstrom，我电脑上本来就有，但其实不用下载，完全在命令行里面操作就行创建工程...

99+

2024-04-02
使用Python实现简单的爬虫框架

目录一、请求网页二、解析 HTML三、构建爬虫框架爬虫是一种自动获取网页内容的程序，它可以帮助我们从网络上快速收集大量信息。在本文中，我们将学习如何使用 Python 编写一个简单的...

99+

2023-05-19

Python如何实现爬虫框架 Python爬虫框架 Python爬虫
Scrapy简单入门及实例讲解

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。其可以应用在数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 A...

99+

2023-01-31

实例入门简单
java爬虫jsoup解析HTML实例分析

本篇内容介绍了“java爬虫jsoup解析HTML实例分析”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！前言使用python写爬虫的人，应该...

99+

2023-07-02
基于spring中的aop简单实例讲解

aop，即面向切面编程，面向切面编程的目标就是分离关注点，比如：一个骑士只需要关注守护安全，或者远征，而骑士辉煌一生的事迹由谁来记录和歌颂呢，当然不会是自己了，这个完全可以由诗人去歌颂，比如当骑士出征的时候诗人可以去欢送，当骑士英勇牺牲的时...

99+

2023-05-31

spring aop 实例