分享一个简单的java爬虫框架

java 爬虫框架 ava 2023-05-30 22:05:19 820人浏览安东尼

摘要

反复给网站编写不同的爬虫逻辑太麻烦了,自己实现了一个小框架可以自定义的部分有:请求方式(默认为Getuser-agent为谷歌浏览器的设置),可以通过实现RequestSet接口来自定义请求方式储存方式(默认储存在f盘的html文件夹下),

反复给网站编写不同的爬虫逻辑太麻烦了,自己实现了一个小框架

可以自定义的部分有:

请求方式(默认为Getuser-agent为谷歌浏览器的设置),可以通过实现RequestSet接口来自定义请求方式

储存方式(默认储存在f盘的html文件夹下),可以通过SaveUtil接口来自定义保存方式

需要保存的资源(默认为整个html页面)

筛选方式(默认所有url都符合要求),通过实现ResourseChooser接口来自定义需要保存的url和资源页面

实现的部分有:

html页面的下载方式,通过HttpClient实现html页面的下载

html页面的解析部分,通过jsoup实现html页面的解析

HtmlDownloader类,用于根据一个url下载一个html页面

package DownloadPackage;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import org.apache.http.HttpEntity;import org.apache.http.HttpResponse;import org.apache.http.impl.client.CloseableHttpClient;import org.apache.http.impl.client.HttpClients;public class HtmlDownloader {RequestSet requestset = null;public HtmlDownloader(RequestSet requestset){this.requestset = requestset;}public String downloadhtml(String url){String html = null;//创建一个客户端//创建一个读取流从entity读取htmlBufferedReader reader = null;CloseableHttpClient httpclient = HttpClients.createDefault();HttpResponse response = null;try {response = httpclient.execute(requestset.getMethod(url));HttpEntity entity = response.getEntity();reader = new BufferedReader(new InputStreamReader(entity.getContent()));StringBuilder sb = new StringBuilder();while((html = reader.readLine()) != null){sb.append(html);}html = sb.toString();System.out.println("一个html页面获取成功");}catch (IOException e) {System.out.println(url+"连接失败");}finally{if(reader != null){try {reader.close();httpclient.close();}catch (IOException e) {// TODO Auto-generated catch blocke.printStackTrace();}}}return html;}}

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 分享一个简单的java爬虫框架

本文链接: https://www.lsjlt.com/news/221631.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

分享一个简单的java爬虫框架

反复给网站编写不同的爬虫逻辑太麻烦了,自己实现了一个小框架可以自定义的部分有:请求方式(默认为Getuser-agent为谷歌浏览器的设置),可以通过实现RequestSet接口来自定义请求方式储存方式(默认储存在f盘的html文件夹下),...

99+

2023-05-30

java 爬虫框架 ava
一个简单的python爬虫,爬取知乎

一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录，可自行实现，比图片更简单具体代码里有详细注释，请自行阅读项目源码：# -*- coding:utf-8 ...

99+

2023-06-02
使用Python实现简单的爬虫框架

目录一、请求网页二、解析 HTML三、构建爬虫框架爬虫是一种自动获取网页内容的程序，它可以帮助我们从网络上快速收集大量信息。在本文中，我们将学习如何使用 Python 编写一个简单的...

99+

2023-05-19

Python如何实现爬虫框架 Python爬虫框架 Python爬虫
java Spring Boot2.7实现一个简单的爬虫功能

首先我们要在 pom.xml 中注入Jsoup 这是一个简单的java爬虫框架 org.jsoup jsoup 1.14.1 然后这里我们直接用main吧做简单一点我们创建一...

99+

2023-10-03

java spring boot 爬虫
java实现一个简单的网络爬虫代码示例

目前市面上流行的爬虫以python居多，简单了解之后，觉得简单的一些页面的爬虫，主要就是去解析目标页面（html）。那么就在想，java有没有用户方便解析html页面呢？找到了一个jsoup包，一个非常方便解析html的工具呢。使用方式也非...

99+

2023-05-30

网络爬虫 java jsoup
一个PHP实现的轻量级简单爬虫

最近需要收集资料，在浏览器上用另存为的方式实在是很麻烦，而且不利于存储和检索。所以自己写了一个小爬虫，在网上爬东西，迄今为止，已经爬了近百万张网页。现在正在想办法着手处理这些数据。爬虫的结构：爬...

99+

2023-08-31

php 爬虫开发语言
node.js做一个简单的爬虫案例教程

准备工作首先，你需要下载 nodejs，这个应该没啥问题吧原文要求下载 webstrom，我电脑上本来就有，但其实不用下载，完全在命令行里面操作就行创建工程...

99+

2024-04-02
python爬虫框架feapder的使用简介

目录1. 前言 2. 介绍及安装 3. 实战一下 3-1 创建爬虫项目3-2 创建爬虫 AirSpider3-3 配...

99+

2024-04-02
如何在Python中实现一个简单的爬虫程序

如何在Python中实现一个简单的爬虫程序随着互联网的发展，数据已成为当今社会最宝贵的资源之一。而爬虫程序则成为了获取互联网数据的重要工具之一。本文将介绍如何在Python中实现一个简单的爬虫程序，并提供具体的代码示例。确定目标网站在开始编...

99+

2023-10-22

Python 程序爬虫
JAVA超级简单的爬虫实例讲解

爬取整个页面的数据，并进行有效的提取信息，注释都有就不废话了：public class Reptile { public static void main(String[] args) { String url1=""; //传入...

99+

2023-05-30

java 爬虫 ava
爬虫框架 Feapder 和 Scrapy 的对比分析

目录一、scrapy 分析1. 解析函数或数据入库出错，不会重试，会造成一定的数据丢失2. 运行方式，需借助命令行，不方便调试3. 入库 pipeline，不能批量入库二、scrap...

99+

2024-04-02
如何用Python写一个简单的Web框架

如何用Python写一个简单的Web框架，很多新手对此不是很清楚，为了帮助大家解决这个难题，下面小编将为大家详细讲解，有这方面需求的人可以来学习下，希望你能有所收获。一、概述在Python中，WSGI(Web Server Gateway ...

99+

2023-06-17
个人分享 | 我的常规爬虫流程

阅读文本大概需要 3.6 分钟。其实，我鼓捣的有些也算不上是爬虫。首先，爬虫不是我的本职工作，我爬虫一般是为了一些有意思的东西，获取一些信息，或者是实现一些可以自动化完成的任务，比如签到。一般我的爬虫流程是这样的：浏览器访问待爬网页，并提前...

99+

2023-06-02
python实现一个简单的web应用框架

目录引言写应用框架需要写底层服务器么uwsgi基本使用安装uwsgi配置uwsgiuwsgi常用配置uwsgi启服和停服启动一个demo写一个简单的web应用框架总结引言本篇文章所...

99+

2023-05-18

python web应用框架 python web
怎么使用Java IO流和网络制作一个简单的图片爬虫

这篇文章主要介绍“怎么使用Java IO流和网络制作一个简单的图片爬虫”的相关知识，小编通过实际案例向大家展示操作过程，操作方法简单快捷，实用性强，希望这篇“怎么使用Java IO流和网络制作一个简单的图片爬虫”文章能帮助大家解决问题。Ja...

99+

2023-07-05
分享一个简单的前端灰度系统

先介绍一个要部署的前端项目（你可以根据自己的前端项目动态调整）。本项目针对的前端项目是一个基于微服务架构的项目，下面是设计ER图：我们依此来分析：子项目表该表用于存放所有子项目的信息，新建一个微服务子项目时，会在这个表里新建一个条目，数据示...

99+

2023-05-14

前端
如何利用C++实现一个简单的网页爬虫程序？

如何利用C++实现一个简单的网页爬虫程序？简介：互联网是一个信息的宝库，而通过网页爬虫程序可以轻松地从互联网上获取大量有用的数据。本文将介绍如何使用C++编写一个简单的网页爬虫程序，以及一些常用的技巧和注意事项。一、准备工作安装C++编译器...

99+

2023-11-04

C++ 网页爬虫程序实现
使用JavaIO流和网络制作一个简单的图片爬虫

目录Java IO流和网络的简单应用Java IO 流和 URL 类Java IO流URL 类Java 爬虫ClientDataProcessUtilDownLoadUtilWind...

99+

2023-05-14

JavaIO流网络 JavaIO流爬虫图片爬虫
怎么使用nodejs实现一个简单的网页爬虫功能

这篇文章主要介绍了怎么使用nodejs实现一个简单的网页爬虫功能，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。网页源码　　使用http.get()方法获取网页源码，以hao1...

99+

2023-06-06
Go语言Http Server框架实现一个简单的httpServer

目录实现一个简单地httpServer首先我们来写一个接口基于http库实现一个结构体实现Server接口实现一个简单地httpServer 上一篇文章对http库的基本使用做了说明...

99+

2023-05-18

Go Http Server框架 Go HttpServer