广告
返回顶部
首页 > 资讯 > 后端开发 > JAVA >java怎么去掉html标签
  • 721
分享到

java怎么去掉html标签

javahtml 2023-10-05 20:10:41 721人浏览 泡泡鱼
摘要

java去掉html标签的方法: 1、通过纯正则方法去掉html标签; 2、使用“javax.swing.text.html.HTMLEditorKit”去掉html标签; 3、通过使用jsoup

java去掉html标签的方法:
1、通过纯正则方法去掉html标签;
2、使用“javax.swing.text.html.HTMLEditorKit”去掉html标签;
3、通过使用jsoup框架去掉html标签等等。

一.纯正则方法

import java.util.regex.Matcher; import java.util.regex.Pattern;  public class HTMLSpirit{     public static String delHTMLTag(String htmlStr){         String regEx_script="]*?>[\\s\\S]*?<\\/script>"; //定义script的正则表达式         String regEx_style="]*?>[\\s\\S]*?<\\/style>"; //定义style的正则表达式         String regEx_html="<[^>]+>"; //定义HTML标签的正则表达式                   Pattern p_script=Pattern.compile(regEx_script,Pattern.CASE_INSENSITIVE);         Matcher m_script=p_script.matcher(htmlStr);         htmlStr=m_script.replaceAll(""); //过滤script标签                   Pattern p_style=Pattern.compile(regEx_style,Pattern.CASE_INSENSITIVE);         Matcher m_style=p_style.matcher(htmlStr);         htmlStr=m_style.replaceAll(""); //过滤style标签                   Pattern p_html=Pattern.compile(regEx_html,Pattern.CASE_INSENSITIVE);         Matcher m_html=p_html.matcher(htmlStr);         htmlStr=m_html.replaceAll(""); //过滤html标签          return htmlStr.trim(); //返回文本字符串     } }

二.使用 javax.swing.text.html.HTMLEditorKit

import java.io.IOException;import java.io.FileReader;import java.io.Reader;import java.util.List;import java.util.ArrayList; import javax.swing.text.html.parser.ParserDelegator;import javax.swing.text.html.HTMLEditorKit.ParserCallback;import javax.swing.text.html.HTML.Tag;import javax.swing.text.MutableAttributeSet; public class HTMLUtils {  private HTMLUtils() {}   public static List<String> extractText(Reader reader) throws IOException {    final ArrayList<String> list = new ArrayList<String>();     ParserDelegator parserDelegator = new ParserDelegator();    ParserCallback parserCallback = new ParserCallback() {      public void handleText(final char[] data, final int pos) {        list.add(new String(data));      }      public void handleStartTag(Tag tag, MutableAttributeSet attribute, int pos) { }      public void handleEndTag(Tag t, final int pos) {  }      public void handleSimpleTag(Tag t, MutableAttributeSet a, final int pos) { }      public void handleComment(final char[] data, final int pos) { }      public void handleError(final java.lang.String errMsg, final int pos) { }    };    parserDelegator.parse(reader, parserCallback, true);    return list;  }   public final static void main(String[] args) throws Exception{    FileReader reader = new FileReader("java-new.html");    List<String> lines = HTMLUtils.extractText(reader);    for (String line : lines) {      System.out.println(line);    }  }}

三.使用Jsoup框架

import java.io.IOException;import java.io.FileReader;import java.io.Reader;import java.io.BufferedReader;import org.jsoup.Jsoup; public class HTMLUtils {  private HTMLUtils() {}   public static String extractText(Reader reader) throws IOException {    StringBuilder sb = new StringBuilder();    BufferedReader br = new BufferedReader(reader);    String line;    while ( (line=br.readLine()) != null) {      sb.append(line);    }    String textOnly = Jsoup.parse(sb.toString()).text();    return textOnly;  }   public final static void main(String[] args) throws Exception{    FileReader reader = new FileReader          ("C:/RealHowTo/topics/java-language.html");    System.out.println(HTMLUtils.extractText(reader));  }

四.使用Apache Tika

mport java.io.FileInputStream;import java.io.InputStream; import org.apache.tika.metadata.Metadata;import org.apache.tika.parser.AutoDetectParser;import org.apache.tika.parser.ParseContext;import org.apache.tika.parser.Parser;import org.apache.tika.sax.BodyContentHandler;import org.xml.sax.ContentHandler; public class ParseHTMLWithTika {  public static void main(String args[]) throws Exception {     InputStream is = null;    try {          is = new FileInputStream("C:/Temp/java-x.html");        WriteOutContentHandler contenthandler = new WriteOutContentHandler(100000000);         Metadata metadata = new Metadata();         Parser parser = new AutoDetectParser();         parser.parse(is, contenthandler, metadata, new ParseContext());         System.out.println(contenthandler.toString());    }    catch (Exception e) {      e.printStackTrace();    }    finally {        if (is != null) is.close();    }  }}

注意这里经过本人实验有个小坑,WriteOutContentHandler参数是限制的字符数,这个如果不设置默认是1万,超过会报异常。

具体的jar包请自行到中央仓库里搜索依赖配置

https://search.Maven.org/ 和 Https://mvnrepository.com/

工具类

public class ResourceUtil {        public static String resource2String(Class currentClass, String resourcePath) throws IOException {        return IOUtils.toString(new FileReader(new File(currentClass.getResource(resourcePath).getFile())));    } }

来源地址:https://blog.csdn.net/u012417405/article/details/131453041

--结束END--

本文标题: java怎么去掉html标签

本文链接: https://www.lsjlt.com/news/423865.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • java怎么去掉html标签
    java去掉html标签的方法: 1、通过纯正则方法去掉html标签; 2、使用“javax.swing.text.html.HTMLEditorKit”去掉html标签; 3、通过使用Jsoup...
    99+
    2023-10-05
    java html
  • python怎么去掉html标签
    如果你经常处理网页内容,你可能需要抓取网页并从中提取文本内容。但是,HTML代码中的标签和样式信息可能会使文本处理变得相当困难。在这种情况下,Python编程语言提供了一些有用的函数和库来去掉HTML标签,让你更轻松地处理和使用文本。Pyt...
    99+
    2023-05-14
  • java如何去掉html标签
    这篇文章给大家分享的是有关java如何去掉html标签的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。java去掉html标签的方法:1、通过纯正则方法去掉html标签;2、使用“javax.swing.text....
    99+
    2023-06-14
  • php怎么去掉html标签样式
    这篇文章主要介绍了php怎么去掉html标签样式,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。php去掉html标签样式的方法:首先创建一个PHP示例文件;然后定义一段HTM...
    99+
    2023-06-14
  • js如何去掉html标签
    这篇文章主要介绍了js如何去掉html标签,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。js去掉html标签的方法:首先新建一个html文件;然后使用p标签创建多段文字;接着...
    99+
    2023-06-14
  • jq如何去掉html标签
    本篇内容介绍了“jq如何去掉html标签”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成! ...
    99+
    2022-10-19
  • html中li标签去掉点
    今天就跟大家聊聊有关html中li标签去掉点,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。html是什么html的全称为超文本标记语言,它是一种标记语言,包含了一系列标签.通过这些标...
    99+
    2023-06-14
  • php如何去掉html标签
    这篇文章主要介绍“php如何去掉html标签”,在日常操作中,相信很多人在php如何去掉html标签问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”php如何去掉html标签”的疑惑有所帮助!接下来,请跟着小编...
    99+
    2023-06-30
  • 怎么去掉html中a标签下划线
    这篇文章主要介绍怎么去掉html中a标签下划线,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!我们在使用超链接的时候,下划线总是伴随着出现,从视觉上来说有着下划线的a标签总是感觉很奇怪,而且在某些需求中,也不需要下划线...
    99+
    2023-06-14
  • html怎么去掉a标签的下划线
    HTML中的标签是用于创建超链接的元素,常常用于将用户导向到不同的网页或页面结构。默认情况下,标签创建的超链接通常带有下划线。如果你想要去掉这个下划线,你可以采用以下几种方法。CSS样式控制在CSS样式表中,你可以通过以下代码控制链接的样式...
    99+
    2023-05-14
  • php如何去掉html标签 nbsp
    在PHP中,如果我们要从文本中获取纯文本内容,而不想要HTML标记、实体以及其他标记的干扰,那么我们可以使用函数去掉html标签和实体,最终得到纯净的文本内容。HTML标签和实体的存在,对于我们要处理的文本内容来说,是一种干扰。它们会使得我...
    99+
    2023-05-23
  • php正则表达式怎么去掉html标签
    这篇“php正则表达式怎么去掉html标签”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“php正则表达式怎么去掉html标签...
    99+
    2023-06-30
  • Sql Server中怎么去掉内容里的Html标签
    Sql Server中怎么去掉内容里的Html标签,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。分享一个方法,去掉内容里的Html标签,测试数...
    99+
    2022-10-18
  • php怎么利用正则匹配去掉html标签
    在Web开发中,HTML是不可避免的一部分。然而,在某些情况下,我们可能需要从HTML源代码中提取文本内容,而不包括任何HTML标记。这就是PHP正则表达式的用武之地。 在本文中,我们将学习如何使用PHP正则表达式删除HTML标签,并...
    99+
    2023-05-14
    php 正则
  • php怎么去掉数组元素中的html标签
    实现步骤:1、使用foreach语句通过引用循环的方式遍历数组元素,语法“foreach ($array as &$value) { //循环体代码}”;2、在循环体中,使用strip_tags()函数去掉数组元素中的html标签即...
    99+
    2023-05-14
    php php数组
  • php去掉html标签的函数是什么
    本文将为大家详细介绍“php去掉html标签的函数是什么”,内容步骤清晰详细,细节处理妥当,而小编每天都会更新不同的知识点,希望这篇“php去掉html标签的函数是什么”能够给你意想不到的收获,请大家跟着小编的思路慢慢深入,具体内容如下,一...
    99+
    2023-06-06
  • 怎么去除html标签
    小编给大家分享一下怎么去除html标签,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!html有什么特点1、简易性:超级文本标记语言版本升级采用超集方式,从而更加灵...
    99+
    2023-06-14
  • html如何去掉a标签下划线
    这篇文章将为大家详细讲解有关html如何去掉a标签下划线,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。html是什么html的全称为超文本标记语言,它是一种标记语言,包含了一系列标签.通过这些标签可以将网...
    99+
    2023-06-14
  • 如何在html中去掉li标签的点
    如何在html中去掉li标签的点?针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。找到文件打开。首先我们找到带有ul和li的标识处。打开我们发现在网页中前有点。接下里我们回到处...
    99+
    2023-06-15
  • html如何去掉a标签的下划线
    这篇文章主要讲解了“html如何去掉a标签的下划线”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“html如何去掉a标签的下划线”吧!CSS样式控制在CSS样式表中,你可以通过以下代码控制链接...
    99+
    2023-07-05
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作