iis服务器助手广告广告
返回顶部
首页 > 资讯 > 精选 >JAVA过滤标签实现将html内容转换为文本的方法示例
  • 271
分享到

JAVA过滤标签实现将html内容转换为文本的方法示例

java过滤标签 2023-05-31 10:05:50 271人浏览 薄情痞子
摘要

本文实例讲述了JAVA过滤标签实现将html内容转换为文本的方法。分享给大家供大家参考,具体如下:public static String trimHtml2Txt(String html, String[] filterTags){

本文实例讲述了JAVA过滤标签实现将html内容转换为文本的方法。分享给大家供大家参考,具体如下:

public static String trimHtml2Txt(String html, String[] filterTags){    html = html.replaceAll("\\<head>[\\s\\S]*?</head>(?i)", "");//去掉head    html = html.replaceAll("\\<!--[\\s\\S]*?-->", "");//去掉注释    html = html.replaceAll("\\<![\\s\\S]*?>", "");    html = html.replaceAll("\\<style[^>]*>[\\s\\S]*?</style>(?i)", "");//去掉样式    html = html.replaceAll("\\<script[^>]*>[\\s\\S]*?</script>(?i)", "");//去掉js    html = html.replaceAll("\\<w:[^>]+>[\\s\\S]*?</w:[^>]+>(?i)", "");//去掉Word标签    html = html.replaceAll("\\<xml>[\\s\\S]*?</xml>(?i)", "");    html = html.replaceAll("\\<html[^>]*>|<body[^>]*>|</html>|</body>(?i)", "");    html = html.replaceAll("\\\r\n|\n|\r", " ");//去掉换行    html = html.replaceAll("\\<br[^>]*>(?i)", "\n\r");    List<String> tags = new ArrayList<String>();    List<String> s_tags = new ArrayList<String>();    List<String> halfTag = Arrays.asList(new String[]{"img","table","thead","th","tr","td"});//    if(filterTags != null && filterTags.length > 0){      for (String tag : filterTags) {        tags.add("<"+tag+(halfTag.contains(tag)?"":">"));//开始标签        if(!"img".equals(tag)) tags.add("</"+tag+">");//结束标签        s_tags.add("#REPLACETAG"+tag+(halfTag.contains(tag)?"":"REPLACETAG#"));//尽量替换为复杂一点的标记,以免与显示文本混合,如:文本中包含#td、#table等        if(!"img".equals(tag)) s_tags.add("#REPLACETAG/"+tag+"REPLACETAG#");      }    }    html = StringUtils.replaceEach(html, tags.toArray(new String[tags.size()]), s_tags.toArray(new String[s_tags.size()]));    html = html.replaceAll("\\</p>(?i)", "\n\r");    html = html.replaceAll("\\<[^>]+>", "");    html = StringUtils.replaceEach(html,s_tags.toArray(new String[s_tags.size()]),tags.toArray(new String[tags.size()]));    html = html.replaceAll("\\ ", " ");    return html.trim();}

--结束END--

本文标题: JAVA过滤标签实现将html内容转换为文本的方法示例

本文链接: https://www.lsjlt.com/news/224992.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作