广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python 敏感词过滤的实现示例
  • 695
分享到

Python 敏感词过滤的实现示例

2024-04-02 19:04:59 695人浏览 安东尼

Python 官方文档:入门教程 => 点击学习

摘要

目录 一个简单的实现使用BSF(宽度优先搜索)进行实现 使用DFA(Deterministic Finite Automaton)进行实现  一个简单的实现 主要

 一个简单的实现

主要是通过循环和replace的方式进行敏感词的替换


class NaiveFilter():

    '''Filter Messages from keyWords

    very simple filter implementation

    >>> f = NaiveFilter()
    >>> f.parse("filepath")
    >>> f.filter("hello sexy baby")
    hello **** baby
    '''

    def __init__(self):
        self.keywords = set([])

    def parse(self, path):
        for keyword in open(path):
            self.keywords.add(keyword.strip().decode('utf-8').lower())

    def filter(self, message, repl="*"):
        message = str(message).lower()
        for kw in self.keywords:
            message = message.replace(kw, repl)
        return message

使用BSF(宽度优先搜索)进行实现

对于搜索查找进行了优化,对于英语单词,直接进行了按词索引字典查找。对于其他语言模式,我们采用逐字符查找匹配的一种模式。

BFS:宽度优先搜索方式


class BSFilter:

    '''Filter Messages from keywords

    Use Back Sorted Mapping to reduce replacement times

    >>> f = BSFilter()
    >>> f.add("sexy")
    >>> f.filter("hello sexy baby")
    hello **** baby
    '''

    def __init__(self):
        self.keywords = []
        self.kwsets = set([])
        self.bsdict = defaultdict(set)
        self.pat_en = re.compile(r'^[0-9a-zA-Z]+$')  # english phrase or not

    def add(self, keyword):
        if not isinstance(keyword, str):
            keyword = keyword.decode('utf-8')
        keyword = keyword.lower()
        if keyword not in self.kwsets:
            self.keywords.append(keyword)
            self.kwsets.add(keyword)
            index = len(self.keywords) - 1
            for word in keyword.split():
                if self.pat_en.search(word):
                    self.bsdict[word].add(index)
                else:
                    for char in word:
                        self.bsdict[char].add(index)

    def parse(self, path):
        with open(path, "r") as f:
            for keyword in f:
                self.add(keyword.strip())

    def filter(self, message, repl="*"):
        if not isinstance(message, str):
            message = message.decode('utf-8')
        message = message.lower()
        for word in message.split():
            if self.pat_en.search(word):
                for index in self.bsdict[word]:
                    message = message.replace(self.keywords[index], repl)
            else:
                for char in word:
                    for index in self.bsdict[char]:
                        message = message.replace(self.keywords[index], repl)
        return message

使用DFA(Deterministic Finite Automaton)进行实现

DFA即Deterministic Finite Automaton,也就是确定有穷自动机。
使用了嵌套的字典来实现。


class DFAFilter():

    '''Filter Messages from keywords

    Use DFA to keep alGorithm perfORM constantly

    >>> f = DFAFilter()
    >>> f.add("sexy")
    >>> f.filter("hello sexy baby")
    hello **** baby
    '''

    def __init__(self):
        self.keyword_chains = {}
        self.delimit = '\x00'

    def add(self, keyword):
        if not isinstance(keyword, str):
            keyword = keyword.decode('utf-8')
        keyword = keyword.lower()
        chars = keyword.strip()
        if not chars:
            return
        level = self.keyword_chains
        for i in range(len(chars)):
            if chars[i] in level:
                level = level[chars[i]]
            else:
                if not isinstance(level, dict):
                    break
                for j in range(i, len(chars)):
                    level[chars[j]] = {}
                    last_level, last_char = level, chars[j]
                    level = level[chars[j]]
                last_level[last_char] = {self.delimit: 0}
                break
        if i == len(chars) - 1:
            level[self.delimit] = 0

    def parse(self, path):
        with open(path,encoding='UTF-8') as f:
            for keyword in f:
                self.add(keyword.strip())

    def filter(self, message, repl="*"):
        if not isinstance(message, str):
            message = message.decode('utf-8')
        message = message.lower()
        ret = []
        start = 0
        while start < len(message):
            level = self.keyword_chains
            step_ins = 0
            for char in message[start:]:
                if char in level:
                    step_ins += 1
                    if self.delimit not in level[char]:
                        level = level[char]
                    else:
                        ret.append(repl * step_ins)
                        start += step_ins - 1
                        break
                else:
                    ret.append(message[start])
                    break
            else:
                ret.append(message[start])
            start += 1

        return ''.join(ret)

到此这篇关于python 敏感词过滤的实现示例的文章就介绍到这了,更多相关Python 敏感词过滤内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: Python 敏感词过滤的实现示例

本文链接: https://www.lsjlt.com/news/134146.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Python 敏感词过滤的实现示例
    目录 一个简单的实现使用BSF(宽度优先搜索)进行实现 使用DFA(Deterministic Finite Automaton)进行实现  一个简单的实现 主要...
    99+
    2022-11-12
  • python实现过滤敏感词
    简述: 关于敏感词过滤可以看成是一种文本反垃圾算法,例如  题目:敏感词文本文件 filtered_words.txt,当用户输入敏感词语,则用 星号 * 替换,例如当用户输入「北京是个好城市」,则变成「...
    99+
    2022-06-02
    python 敏感词 python 过滤敏感词
  • SpringBoot实现过滤敏感词的示例代码
    过滤敏感词 1. 创建一个储存要过滤的敏感词的文本文件 首先创建一个文本文件储存要过滤的敏感词 在下面的工具类中我们会读取这个文本文件,这里提前给出 @PostConstruct...
    99+
    2022-11-13
    SpringBoot过滤敏感词 SpringBoot 敏感词
  • golang敏感词过滤的实现
     用golang写了敏感词过滤的工具,主要用来检测用户昵称中是否存在敏感词,同时提供剔除转移字符的功能。 可以先将敏感词库存放在一个map中,敏感词可以参考这里:https...
    99+
    2023-01-03
    golang敏感词过滤 golang敏感词
  • Java使用DFA算法实现敏感词过滤的示例代码
    目录1 前言2 代码实现2.1 敏感词库初始化2.2 编写测试类1 前言 敏感词过滤就是你在项目中输入某些字(比如输入xxoo相关的文字时)时要能检测出来,很多项目中都会有一个敏感词...
    99+
    2023-03-24
    Java DFA敏感词过滤 Java 敏感词过滤
  • SpringBoot使用SensitiveWord实现敏感词过滤
    目录导入依赖方法默认示例自定义替换策略示例自定义自定义SensitiveWordBs自定义敏感词白名单自定义敏感词黑名单示例重置词库总结包含默认敏感词过滤和自定义敏感词过滤。 导入依...
    99+
    2023-01-14
    SpringBoot SensitiveWord敏感词过滤 SpringBoot 敏感词过滤 SpringBoot SensitiveWord
  • Java实战之敏感词过滤器
    目录一、导包二、敏感词文件三、前缀树的实现四、敏感词过滤器的实现一、导包 本文的敏感词过滤器用在SpringBoot项目中,因此,首先需要在pom.xml文件中导入如下依赖 &l...
    99+
    2022-11-12
  • Python基于DFA算法实现内容敏感词过滤
    DFA 算法是通过提前构造出一个 树状查找结构,之后根据输入在该树状结构中就可以进行非常高效的查找。 设我们有一个敏感词库,词酷中的词汇为: 我爱你我爱他我爱她我爱你呀我爱他呀我爱她...
    99+
    2022-11-10
  • SpringBoot使用前缀树过滤敏感词的方法实例
    目录一、前缀树二、敏感词过滤器总结一、前缀树 一般设计网站的时候,会有问题发布或者是内容发布的功能,这些功能的有一个很重要的点在于如何实现敏感词过滤,要不然可能会有不良信息的发布,或...
    99+
    2022-11-12
  • Python基于DFA算法怎么实现内容敏感词过滤
    这篇文章主要讲解了“Python基于DFA算法怎么实现内容敏感词过滤”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Python基于DFA算法怎么实现内容敏感词过滤”吧!DFA 算法是通过提前...
    99+
    2023-06-30
  • Java怎么使用DFA算法实现敏感词过滤
    本篇内容主要讲解“Java怎么使用DFA算法实现敏感词过滤”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Java怎么使用DFA算法实现敏感词过滤”吧!1 前言敏感词过滤就是你在项目中输入某些字(...
    99+
    2023-07-05
  • JAVA使用前缀树(Tire树)实现敏感词过滤、词典搜索
    目录简介Trie树code结论简介 有时候需要对用户输入的内容进行敏感词过滤,或者实现查找文本中出现的词典中的词,用遍历的方式进行替换或者查找效率非常低,这里提供一个基于Trie树的...
    99+
    2023-01-03
    JAVA前缀树敏感词过滤 JAVA前缀树
  • Spring Boot 实现敏感词及特殊字符过滤处理
    背景: 技术采用的是 Spring Boot ,请求方法主要为 POST, 请求使用较多的注解为 @RequestBody 交付测试人员进行测试,测试人员在对模糊搜索模块进行了各种特...
    99+
    2022-11-12
  • vue实现检测敏感词过滤组件的多种思路
    目录写在前面需求分析v1思路一:使用截流方法监听输入框的input事件思路二:使用输入框的失焦和保存按钮的点击事件思路三:使用mixins抽取敏感词检测方法思路四:使用promise...
    99+
    2022-11-12
  • servlet实现简单的权限管理和敏感词过滤功能
    目录前言一、如何实现权限管理1.思路2.代码实现二、敏感词过滤1.思路2.代码实现三、效果展示1.未登录访问其他资源前言 JavaEE课要求用servlet和过滤器实现权限管理和敏感...
    99+
    2022-11-12
  • python轻松过滤处理脏话与特殊敏感词汇
    目录1、默认脏话库/敏感词库处理2、自定义过滤信息处理3、contains_profanity函数4、load_censor_words_from_file函数python的其中一个...
    99+
    2022-11-11
  • Spring Boot如何实现敏感词及特殊字符过滤处理
    这篇文章主要介绍“Spring Boot如何实现敏感词及特殊字符过滤处理”,在日常操作中,相信很多人在Spring Boot如何实现敏感词及特殊字符过滤处理问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Spr...
    99+
    2023-06-20
  • servlet如果实现简单的权限管理和敏感词过滤功能
    这篇文章主要介绍了servlet如果实现简单的权限管理和敏感词过滤功能,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。一、如何实现权限管理1.思路当用户访问某个资源时,我们必须...
    99+
    2023-06-15
  • SpringBoot使用前缀树过滤敏感词的方法是什么
    这篇文章跟大家分析一下“SpringBoot使用前缀树过滤敏感词的方法是什么”。内容详细易懂,对“SpringBoot使用前缀树过滤敏感词的方法是什么”感兴趣的朋友可以跟着小编的思路慢慢深入来阅读一下,希望阅读后能够对大家有所帮助。下面跟着...
    99+
    2023-06-26
  • python 特殊词汇过滤功能的实现
    python的其中一个强大之处就是它可以方便的集成很多的非标准库,今天在GitHub上溜达又发现了一个脏话处理神器,导入better_profanity库后,只需要几行代码就能搞定了...
    99+
    2022-11-11
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作