Java获取任意http网页源代码的方法

java 网页源代码 2023-05-31 02:05:42 401人浏览安东尼

摘要

本文实例讲述了JAVA获取任意Http网页源代码。分享给大家供大家参考，具体如下：JAVA获取任意http网页源代码可实现如下功能：获取任意http网页的代码2. 获取任意http网页去掉html标签的代码WEBpage类：package

本文实例讲述了JAVA获取任意Http网页源代码。分享给大家供大家参考，具体如下：

JAVA获取任意http网页源代码可实现如下功能：

获取任意http网页的代码
2. 获取任意http网页去掉html标签的代码

WEBpage类：

package test;import java.io.BufferedReader;import java.io.InputStreamReader;import java.net.URL;import java.util.regex.Matcher;import java.util.regex.Pattern;public class Webpage {  private String pageUrl;//定义需要操作的网页地址  private String pageEncode="UTF8";//定义需要操作的网页的编码  public String getPageUrl() {    return pageUrl;  }  public void setPageUrl(String pageUrl) {    this.pageUrl = pageUrl;  }  public String getPageEncode() {    return pageEncode;  }  public void setPageEncode(String pageEncode) {    this.pageEncode = pageEncode;  }  //定义取源码的方法  public String getPageSource()  {    StringBuffer sb = new StringBuffer();    try {      //构建一URL对象      URL url = new URL(pageUrl);      //使用openStream得到一输入流并由此构造一个BufferedReader对象      BufferedReader in = new BufferedReader(new InputStreamReader(url.openStream(), pageEncode));      String line;      //读取www资源      while ((line = in.readLine()) != null)      {        sb.append(line);      }      in.close();    }    catch (Exception ex)    {      System.err.println(ex);    }    return sb.toString();  }  //定义一个把HTML标签删除过的源码的方法  public String getPageSourceWithoutHtml()  {    final String regEx_script = "<script[^>]*?>[\\s\\S]*?<\\/script>"; // 定义script的正则表达式    final String regEx_style = "<style[^>]*?>[\\s\\S]*?<\\/style>"; // 定义style的正则表达式    final String regEx_html = "<[^>]+>"; // 定义HTML标签的正则表达式    final String regEx_space = "\\s*|\t|\r|\n";//定义空格回车换行符    String htmlStr = getPageSource();//获取未处理过的源码    Pattern p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);    Matcher m_script = p_script.matcher(htmlStr);    htmlStr = m_script.replaceAll(""); // 过滤script标签    Pattern p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);    Matcher m_style = p_style.matcher(htmlStr);    htmlStr = m_style.replaceAll(""); // 过滤style标签    Pattern p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);    Matcher m_html = p_html.matcher(htmlStr);    htmlStr = m_html.replaceAll(""); // 过滤html标签    Pattern p_space = Pattern.compile(regEx_space, Pattern.CASE_INSENSITIVE);    Matcher m_space = p_space.matcher(htmlStr);    htmlStr = m_space.replaceAll(""); // 过滤空格回车标签    htmlStr = htmlStr.trim(); // 返回文本字符串    htmlStr = htmlStr.replaceAll("&nbsp;", "");    htmlStr = htmlStr.substring(0, htmlStr.indexOf("。")+1);    return htmlStr;  }}

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: Java获取任意http网页源代码的方法

本文链接: https://www.lsjlt.com/news/222953.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

Java获取任意http网页源代码的方法

本文实例讲述了JAVA获取任意http网页源代码。分享给大家供大家参考，具体如下：JAVA获取任意http网页源代码可实现如下功能：获取任意http网页的代码2. 获取任意http网页去掉HTML标签的代码Webpage类：package...

99+

2023-05-31

java 网页源代码
Python无法用requests获取网页源码的解决方法

最近在抓取http://skell.sketchengine.eu网页时，发现用requests无法获得网页的全部内容，所以我就用selenium先模拟浏览器打开网页，再获取网页的源...

99+

2024-04-02
JAVA获取HTTP请求头的方法示例

本文实例讲述了JAVA获取HTTP请求头的方法。分享给大家供大家参考，具体如下：在利用Java网络编程时，利用Java获取HTTP Request 和 Response头字段；可以利用Java语言根据需要添加自定义的HTTP头字段，而不必拘...

99+

2023-05-31

java http请求头 ava
Java 获取网站图片的示例代码

目录前提一、新建Maven项目，导入Jsoup环境依赖二、代码编写心得:前提最近我的的朋友浏览一些网站，看到好看的图片，问我有没有办法不用手动一张一张保存图片！我说用Jsoup...

99+

2024-04-02
Python 获取今天任意时刻的时间戳的方法

代码 # -*- coding: utf-8 -*- # Author : markadc from datetime import datetime, timedelta ...

99+

2024-04-02
快速获取爬虫代理ip资源的方法

今天小编给大家分享的是快速获取爬虫代理ip资源的方法，相信很多人都不太了解，为了让大家更加了解，所以给大家总结了以下内容，一起往下看吧。一定会有所收获的哦。第三方平台。许多平台都有一些免费的ip。比如无限制的套餐，每次基于频率可以获得免费的...

99+

2023-06-15
Python获取代码运行时间的几种方法

Python获取代码运行时间的几种方法1、方法一：#python 的标准库手册推荐在任何情况下尽量使用time.clock().#只计算了程序运行CPU的时间，返回值是浮点数import timestart =time.clock()#中...

99+

2023-01-31

几种方法代码时间
如何使用尽可能短的代码行数来获取任意月份的天数？

...

99+

2024-04-02
网站在线代理服务器获取的方法有哪些

网站在线代理服务器获取的方法有：1、通过程序扫出来的HTTP代理IP，适合应付低效率采集、刷单次访问量的业务；2、使用ADSL拨号服...

99+

2023-02-14

网站在线代理服务器代理服务器服务器
Java/Android 获取网络重定向文件的真实URL的示例代码

前言：今天在测试使用第三方提供的URL进行文件下载的时候，得到了一个被重定向的url。很不幸的是这个URL对于我来说没办法进行文件下载。这时候就需要获得重定向文件的真实URL。问题分析 :其实Java 使用HttpURLConnection...

99+

2023-05-30

android 重定向 url
.NET使用StackTrace获取方法调用信息的代码演示

目录前言介绍演示链接前言在日常工作中，偶尔需要调查一些诡异的问题，而业务代码经过长时间的演化，很可能已经变得错综复杂，流程、分支众多，如果能在关键方法的日志里添加上调用者的信息，将...

99+

2024-04-02
html网页调用后端python代码的方法实例

当我们利用html代码制作网页时，可以用以下方法进行python代码的调用： 1.简单的python代码例如输出‘hello world’时,可以选择直接在网...

99+

2023-01-17

HTML调用Python程序 html嵌入python 用html可以调用Python吗
详解Android获取系统内核版本的方法与实现代码

Android获取系统内核版本的方法这里主要实现获取And...

99+

2023-05-30

android 内核版本 roi
Mybatis-Plus中getOne方法获取最新一条数据的示例代码

目录Mybatis-Plus中getOne方法获取最新一条数据一、代码1、Controller2、Service3、效果Mybatis-Plus中getOne方法获取最新一条数据一...

99+

2023-05-19

Mybatis-Plus获取最新一条数据 Mybatis-Plus getOne
如何理解Java通过加密技术保护源代码的方法

这篇文章主要讲解了“如何理解Java通过加密技术保护源代码的方法”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“如何理解Java通过加密技术保护源代码的方法”吧！一、为什么要加密？ ...

99+

2023-06-16
微信小程序 - 最新获取用户昵称 / 头像（wx.getUserProfile 接口被废弃后的代替方案）详细教程，2022 年之后的所有微信小程序，获取用户信息最新详细教程，附带示例源代码

前言由于官方修改了 “用户头像昵称获取规则” ，导致网上几乎所有教程全部失效，本文来做最新详细教程。 2022 年往后（官方废弃了 wx.getUserProfile 接口），本文是最新微信获取用户头像和昵称的详细教程，您可以直接...

99+

2023-08-18

微信小程序wechat 获取用户头像昵称教程最新规定头像昵称填写教程小程序改了获取用户信息的接口废弃UserProfile