iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python+fuzzywuzzy计算两个字符串之间的相似度
  • 906
分享到

Python+fuzzywuzzy计算两个字符串之间的相似度

2024-04-02 19:04:59 906人浏览 薄情痞子

Python 官方文档:入门教程 => 点击学习

摘要

fuzzywuzzy 可以计算两个字符串之间的相似度,它依据 Levenshtein Distance 算法来进行计算。该算法又叫 Edit Distance 算

fuzzywuzzy 可以计算两个字符串之间的相似度,它依据 Levenshtein Distance 算法来进行计算。该算法又叫 Edit Distance 算法,是指两个字符串之间,由一个转成另一个所需要的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越高。

我们来看一下该模块的用法,非常简单:

from fuzzywuzzy import fuzz

# 调用 fuzz.ratio 即可计算两个字符串的相似度
print(
    fuzz.ratio("古明地觉", "古明地恋")
)  # 75

# 我们看到 ratio 是完全匹配的
# 它把字符串的长度也考虑在内了
print(
    fuzz.ratio("古明地觉", "古明地觉aa")
)  # 80

# partial_ratio是非完全匹配
# 如果一方结束了,那么剩下的就不考虑了
print(
    fuzz.partial_ratio("古明地觉", "古明地觉,小五萝莉")
)  # 100

# token_sort_ratio表示忽略顺序匹配
# 但前提是多个词,以空格进行分隔
print(
    fuzz.ratio("古 明 地 觉", "古 明 地 觉"[:: -1])
)  # 25
print(
    fuzz.token_sort_ratio("古 明 地 觉", "古 明 地 觉"[:: -1])
)  # 100

# token_set_ratio表示去重匹配
# 同样:前提是多个词,以空格进行分隔
print(fuzz.ratio("a a a he", "a he"))  # 67
print(
    fuzz.token_set_ratio("a a a he", "a he")
)  # 100

当我们使用 git 的时候,如果命令输错了,那么会告诉你此命令不是一个 git 命令,这是理所应当的。然后重点来了,git 还会提示一些与你输错的命令长得非常相似的一些命令。

所以这里面也用到了字符串的相似度原理,找出 git 命令中和你输错的命令最相似的几个,然后进行提示。

如果我们也写了一个类似的程序,需要用户通过命令行参数的方式,那么当用户输入了一个不存在的命令时,我们也可以这么做。而实现方法也很简单,就是将所有的命令和用户输错的命令都计算一个相似度,然后返回相似度最高的 n 个即可。

使用上面的 fuzz 完全可以实现,当然 fuzzywuzzy 模块还提供了一个 extract 函数,可以让我们更加轻松地做到这一点。

from fuzzywuzzy import process

Words = ["hello python", "hello java", 
         "hello golang", "hello PHP"]
# 会自动和 words 里面的每一个元素进行比较
# 然后按照相似度从高到低排列
print(process.extract("hello thon", words))
"""
[('hello Python', 91), ('hello php', 74), 
 ('hello Golang', 73), ('hello java', 64)]
"""

# 还可以传入一个 limit 参数
# 表示只返回前 limit 个,默认为5
print(
    process.extract("hello thon", words, limit=2)
) 
"""
[('hello python', 91), 
 ('hello php', 74)]
"""

# 返回分数最高的,此时返回一个元组
print(
    process.extractOne("hello thon", words)
)  
"""
('hello python', 91)
"""

这个模块使用起来还是比较简单的,当然核心是字符串相似度的计算原理,这才是重点,有兴趣可以去了解一下。

另外使用 fuzzywuzzy 这个模块的时候,会弹出一个警告:

UserWarning: Using slow pure-python SequenceMatcher. Install python-Levenshtein to remove this warning

提示我们可以通过安装 python-Levenshtein 得到解决,这是一个用于加速字符串匹配的库,可提供 4 到 10 倍的加速。当然即使没有这个库也是可以的,没有的话 fuzzywuzzy 底层会使用标准库 difflib 进行匹配,只是会弹出警告罢了。

到此这篇关于Python+fuzzywuzzy计算两个字符串之间的相似度的文章就介绍到这了,更多相关Python fuzzywuzzy内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: Python+fuzzywuzzy计算两个字符串之间的相似度

本文链接: https://www.lsjlt.com/news/120578.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Python+fuzzywuzzy计算两个字符串之间的相似度
    fuzzywuzzy 可以计算两个字符串之间的相似度,它依据 Levenshtein Distance 算法来进行计算。该算法又叫 Edit Distance 算...
    99+
    2024-04-02
  • PHP如何计算两个字符串之间的相似性
    这篇文章将为大家详细讲解有关PHP如何计算两个字符串之间的相似性,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。计算两个字符串之间的相似性 简介 计算两个字符串之间的相似性对于各种自然语言处理 (NLP) ...
    99+
    2024-04-02
  • Java 计算两个字符的相似度
    在Java中,要计算两个字符的相似度,可以借助一些字符串相似度算法。以下是几种常见的字符串相似度算法: Levenshtein距离:也称为编辑距离,用于计算两个字符串之间的最小编辑操作次数(插入、删除...
    99+
    2023-10-07
    java 开发语言
  • java算法之余弦相似度计算字符串相似率
    目录概述一、理论知识1、说重点2、案例理论知识二、实际开发案例1、pom.xml2、main方法3、Tokenizer(分词工具类)4、Word(封装分词结果)5、CosineSim...
    99+
    2024-04-02
  • MySQL中如何检查两个字符串之间的相似度?
    可以借助“strcmp()”函数检查两个字符串之间的相似性。条件如下。如果两个字符串相等,则返回 0。如果第一个字符串相等,则返回 0。字符串小于第二个字符串,则返回-1。如果第一个字符串大于第二个字符串,则返回1。这是一个示例。情况 1 ...
    99+
    2023-10-22
  • java算法之余弦相似度计算字符串相似率的示例分析
    小编给大家分享一下java算法之余弦相似度计算字符串相似率的示例分析,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!Java有哪些集合类Java中的集合主要分为四类...
    99+
    2023-06-15
  • Python中的字符串相似度
    目录Python字符串相似度Python相似度评估1. 在计算图片的相似度时,我自己用到过余弦距离2.欧式距离3. 曼哈顿距离4.切比雪夫距离5.闵可夫斯基距离6.标准化欧氏距离7....
    99+
    2024-04-02
  • PHP如何计算两个字符串之间的编辑距离
    这篇文章将为大家详细讲解有关PHP如何计算两个字符串之间的编辑距离,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。PHP 计算字符串编辑距离 引言 字符串编辑距离是衡量两个字符串相似程度的指标。它计算将一个...
    99+
    2024-04-02
  • Python中的字符串相似度实例分析
    本文小编为大家详细介绍“Python中的字符串相似度实例分析”,内容详细,步骤清晰,细节处理妥当,希望这篇“Python中的字符串相似度实例分析”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。Python字符串相似...
    99+
    2023-06-30
  • PHP如何计算两个字符串的匹配度
    这篇文章主要讲解了“PHP如何计算两个字符串的匹配度”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“PHP如何计算两个字符串的匹配度”吧!计算两个字符串匹配度(相似度),也就是计算两个字符串的...
    99+
    2023-06-20
  • 字符串相似度算法-莱文斯坦距离算法
    莱文斯坦(Levenshtein)距离 莱文斯坦距离可以解决字符串相似度的问题。在莱文斯坦距离中,对每一个字符都有三种操作:删除、添加、替换例如有s1和s2两个字符串,a和b是与之对应的保存s1和s2全部字符的数组,i/j是数组下标。莱文...
    99+
    2023-01-31
    算法 字符串 文斯
  • Python计算字符串长度的函数
    文章目录 Python三种计算字符串长度的函数1、使用内置函数len2、使用for循环3、使用while循环和切片 代码代码展示代码运行结果 Python三种计算字符串长...
    99+
    2023-09-04
    python 开发语言 pycharm
  • python OpenCV计算图片相似度的5种算法
    目录5种算法参考文章:原始两张图片: 代码运行结果如下。 5种算法 值哈希算法、差值哈希算法和感知哈希算法都是值越小,相似度越高,取值为0-64,即汉明距离中,64位的hash值...
    99+
    2024-04-02
  • python面试题之如何计算一个字符串的
    在我们想计算长度的字符串上调用函数len()即可   >>> len('hhhhhhhhjg') 10   所属网站分类: 面试经典 > python 作者:外星人入侵 链接:http://ww...
    99+
    2023-01-31
    字符串 面试题 python
  • Python字符串比较:如何判断两个字符串是否相等?
    Python字符串比较:如何判断两个字符串是否相等? 在Python编程中,字符串是最常用的数据类型之一。当我们需要比较两个字符串时,通常需要判断它们是否相等。这篇文章将详细介绍Python中比较两个字符串的方法。 使用“==”运算符比较...
    99+
    2023-08-22
    python 开发语言 java Python
  • 统计一个字符串中相同字符的个数
    作为测试小白,苦练代码基本功,啥时候都不嫌晚。 今天在测试群里,看到小伙伴在面试中有个题目,用一段代码对一个字符串进行统计,分别输出字符与数量!!! 于是用业余时间写了下: #!/usr/bin/env python # -*- co...
    99+
    2023-01-30
    字符串 字符 个数
  • PHP如何截取两个字符串之间的内容
    PHP有多种方法可以截取两个字符串之间的内容。以下是其中一种常用的方法:使用strpos()函数找到第一个字符串在原字符串中的位置,...
    99+
    2023-08-16
    PHP
  • 如何匹配两次出现的相同但随机的字符串之间的字符
    php小编子墨在这里为大家介绍一种解决方案,即如何匹配两次出现的相同但随机的字符串之间的字符。当遇到这种情况时,我们可以利用正则表达式和回溯引用来实现。首先,我们使用正则表达式捕获第一...
    99+
    2024-02-09
  • python字符串之间如何实现运算
    这篇文章给大家分享的是有关python字符串之间如何实现运算的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。说明当Python中的两个字符串可以大于(等于)或小于(等于)时,比较的是与字符串相对应的Unicode编...
    99+
    2023-06-20
  • php如何计算字符串的长度
    在php中使用strlen()函数计算字符串的长度,具体方法如下:strlen()函数作用:php中strlen()函数的作用是用于返回字符串的长度。strlen()函数语法:strlen(string)参数:string:需要计算长度的字...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作