如何利用python实现Simhash算法

2024-04-02 19:04:59 165人浏览八月长安

Python 官方文档：入门教程 => 点击学习

摘要

目录1. 为什么需要Simhash?2. 文章关键词特征提取算法TD-IDF3. Simhash原理4. Simhash的不足5. Simhash算法实现1. 为什么需要Simhas

1. 为什么需要Simhash?

传统相似度算法：文本相似度的计算，一般使用向量空间模型(VSM)，先对文本分词，提取特征，根据特征建立文本向量，把文本之间相似度的计算转化为特征向量距离的计算，如欧式距离、余弦夹角等。

缺点：大数据情况下复杂度会很高。

Simhash应用场景：计算大规模文本相似度，实现海量文本信息去重。

Simhash算法原理：通过hash值比较相似度，通过两个字符串计算出的hash值，进行异或操作，然后得到相差的个数，数字越大则差异越大。

2. 文章关键词特征提取算法TD-IDF

词频（TF）：一个词语在整篇文章中出现的次数与词语总个数之比；

逆向词频（IDF)：一个词语，在所有文章中出现的频率都非常高，这个词语不具有代表性，就可以降低其作用，也就是赋予其较小的权值。

分子代表文章总数，分母表示该词语在这些文章出现的篇数。一般会采取分母加一的方法，防止分母为0的情况出现，在这个比值之后取对数，就是IDF了。

最终用tf*idf得到一个词语的权重，进而计算一篇文章的关键词。然后根据每篇文章对比其关键词的方法来对文章进行去重。simhash算法对效率和性能进行平衡，既可以很少的对比（关键词不能取太多），又能有好的代表性（关键词不能过少）。

3. Simhash原理

Simhash是一种局部敏感hash。即假定A、B具有一定的相似性，在hash之后，仍然能保持这种相似性，就称之为局部敏感hash。

得到一篇文章关键词集合，通过hash的方法把关键词集合hash成一串二进制，直接对比二进制数，其相似性就是两篇文档的相似性，在查看相似性时采用海明距离，即在对比二进制的时候，看其有多少位不同，就称海明距离为多少。

将文章simhash得到一串64位的二进制，根据经验一般取海明距离为3作为阈值，即在64位二进制中，只要有三位以内不同，就可以认为两个文档是相似的，这里的阈值也可以根据自己的需求来设置。也就是把一个文档hash之后得到一串二进制数的算法，称这个hash为simhash。

simhash具体实现步骤如下：

1. 将文档分词，取一个文章的TF-IDF权重最高的前20个词（feature）和权重（weight）。即一篇文档得到一个长度为20的（feature：weight）的集合。
2. 对其中的词（feature），进行普通的哈希之后得到一个64为的二进制，得到长度为20的（hash : weight）的集合。
3. 根据（2）中得到一串二进制数（hash）中相应位置是1是0，对相应位置取正值weight和负值weight。例如一个词进过（2）得到（010111：5）进过步骤（3）之后可以得到列表[-5,5,-5,5,5,5]。由此可以得到20个长度为64的列表[weight，-weight...weight]代表一个文档。
4. 对（3）中20个列表进行列向累加得到一个列表。如[-5,5,-5,5,5,5]、[-3,-3,-3,3,-3,3]、[1,-1,-1,1,1,1]进行列向累加得到[-7，1，-9，9，3，9]，这样，我们对一个文档得到，一个长度为64的列表。
5. 对（4）中得到的列表中每个值进行判断，当为负值的时候去0，正值取1。例如，[-7，1，-9，9，3，9]得到010111，这样就得到一个文档的simhash值了。
6. 计算相似性。两个simhash取异或，看其中1的个数是否超过3。超过3则判定为不相似，小于等于3则判定为相似。

Simhash整体流程图如下：

4. Simhash的不足

完全无关的文本正好对应成了相同的simhash，精确度并不是很高，而且simhash更适用于较长的文本，但是在大规模语料进行去重时，simhash的计算速度优势还是很不错的。

5. Simhash算法实现

# !/usr/bin/python
# coding=utf-8
class Simhash:
    def __init__(self, tokens='', hashbits=128):
        self.hashbits = hashbits
        self.hash = self.simhash(tokens)
    def __str__(self):
        return str(self.hash)
    # 生成simhash值
    def simhash(self, tokens):
        v = [0] * self.hashbits
        for t in [self._string_hash(x) for x in tokens]:  # t为token的普通hash值
            for i in range(self.hashbits):
                bitmask = 1 << i
                if t & bitmask:
                    v[i] += 1  # 查看当前bit位是否为1,是的话将该位+1
                else:
                    v[i] -= 1  # 否则的话,该位-1
        fingerprint = 0
        for i in range(self.hashbits):
            if v[i] >= 0:
                fingerprint += 1 << i
        return fingerprint  # 整个文档的fingerprint为最终各个位>=0的和
    # 求海明距离
    def hamming_distance(self, other):
        x = (self.hash ^ other.hash) & ((1 << self.hashbits) - 1)
        tot = 0
        while x:
            tot += 1
            x &= x - 1
        return tot
    # 求相似度
    def similarity(self, other):
        a = float(self.hash)
        b = float(other.hash)
        if a > b:
            return b / a
        else:
            return a / b
    # 针对source生成hash值
    def _string_hash(self, source):
        if source == "":
            return 0
        else:
            x = ord(source[0]) << 7
            m = 1000003
            mask = 2 ** self.hashbits - 1
            for c in source:
                x = ((x * m) ^ ord(c)) & mask
            x ^= len(source)
            if x == -1:
                x = -2
            return x

测试：

if __name__ == '__main__':
    s = 'This is a test string for testing'
    hash1 = Simhash(s.split())
    s = 'This is a string testing 11'
    hash2 = Simhash(s.split())
    print(hash1.hamming_distance(hash2), "   ", hash1.similarity(hash2))

到此这篇关于如何利用Python实现Simhash算法的文章就介绍到这了,更多相关pythonSimhash算法内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: 如何利用python实现Simhash算法

本文链接: https://www.lsjlt.com/news/118925.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

如何利用python实现Simhash算法

目录1. 为什么需要Simhash2. 文章关键词特征提取算法TD-IDF3. Simhash原理4. Simhash的不足5. Simhash算法实现1. 为什么需要Simhash...

99+

2022-11-11
怎么利用python实现Simhash算法

本文小编为大家详细介绍“怎么利用python实现Simhash算法”，内容详细，步骤清晰，细节处理妥当，希望这篇“怎么利用python实现Simhash算法”文章能帮助大家解决疑惑，下面跟着小编的思路慢慢深入，一起来学习新知识吧。1. 为什...

99+

2023-07-02
python如何实现Simhash算法

这篇文章主要介绍python如何实现Simhash算法，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！1、simhash步骤simhash包含分词、hash、加权、合并、降维五大步骤simhash代码如下：import...

99+

2023-06-29
python实现Simhash算法

1、simhash步骤 simhash包含分词、hash、加权、合并、降维五大步骤 simhash代码如下： import jieba import jieba.analyse im...

99+

2022-11-13
利用Python如何实现K-means聚类算法

目录前言算法原理目标函数算法流程 Python实现总结前言 K-Means 是一种非常简单的聚类算法(聚类算法都属于无监督学习)。给定固定数量的聚类和输入数据集，...

99+

2022-11-12
如何利用python的KMeans和PCA包实现聚类算法

如何利用python的KMeans和PCA包实现聚类算法，很多新手对此不是很清楚，为了帮助大家解决这个难题，下面小编将为大家详细讲解，有这方面需求的人可以来学习下，希望你能有所收获。题目：通过给出的驾驶员行为数据（trip.csv），对驾...

99+

2023-06-02
利用Redis如何实现令牌桶算法

小编给大家分享一下利用Redis如何实现令牌桶算法，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！在限流算法中有一种令牌桶算法，该...

99+

2022-10-19
利用Java如何实现一个树算法

本篇文章为大家展示了利用Java如何实现一个树算法，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。为什么使用树：树结合了两种数据结构的有点：一种是有序数组，树在查找数据项的速...

99+

2023-05-31

java ava
如何在Python编程中利用算法实现复杂任务？

Python是一种高级编程语言，可以通过它实现各种复杂的任务。利用算法是Python编程中的一种重要方法，可以使得我们更高效地完成任务。在本文中，我们将介绍Python编程中利用算法实现复杂任务的方法，并提供一些示例代码。一、利用算法解...

99+

2023-06-22

编程算法 ide load
Python利用FlashText算法实现替换字符串

目录前言1.准备2.基本使用提取关键词替换关键词关键词大小写敏感标记关键词位置获取目前所有的关键词批量添加关键词单一或批量删除关键词3.高级使用支持额外信息支持特殊单词边界4.结尾前...

99+

2022-11-13
Python如何实现KPM算法

这篇文章主要介绍Python如何实现KPM算法，文中介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们一定要看完！知识点说明：先说前缀，和后缀吧比如有一个串：abab则在下标为3处的（前缀和后缀都要比下标出的长度小1，此处下标为3出的长度...

99+

2023-06-21
如何利用Python编程算法实现高效的同步存储？

在当今数字化时代，数据的存储和管理变得越来越重要。而对于大型数据集，同步存储是一种非常有效的方式，它可以确保数据的安全和完整性。在本文中，我们将介绍如何使用Python编程算法实现高效的同步存储。 1.使用Python的文件操作 Pyth...

99+

2023-10-05

编程算法同步存储
如何利用JavaScript实现排序算法浅析

目录冒泡排序选择排序插入排序总结冒泡排序冒泡排序就是重复从序列右边开始比较相邻两个数字的大小，再根据结果交换两个数字的位置。 JavaScript代码实现: 代码简介：声明一个数组...

99+

2022-11-12
C++ opencv如何利用grabCut算法实现抠图

今天小编给大家分享一下C++ opencv如何利用grabCut算法实现抠图的相关知识点，内容详细，逻辑清晰，相信大部分人都还太了解这方面的知识，所以分享这篇文章给大家参考一下，希望大家阅读完这篇文章后有所收获，下面我们一起来了解...

99+

2023-06-30
Python利用SVM算法实现识别手写数字

目录前言使用 SVM 进行手写数字识别参数 C 和 γ 对识别手写数字精确度的影响完整代码前言支持向量机 (Support Vector Machine, SVM) 是一种监督学习...

99+

2022-11-12
利用PyTorch实现爬山算法

目录0. 前言1. 使用 PyTorch 实现爬山算法1.1 爬山算法简介1.2 使用爬山算法进行 CartPole 游戏2. 改进爬山算法0. 前言在随机搜索策略中，每个回合都是...

99+

2022-11-11
如何使用Python实现遗传算法

本篇内容介绍了“如何使用Python实现遗传算法”的有关知识，在实际案例的操作过程中，不少人都会遇到这样的困境，接下来就让小编带领大家学习一下如何处理这些情况吧！希望大家仔细阅读，能够学有所成！遗传算法是模仿自然界生物进化机制发展起来的随机...

99+

2023-07-05
利用Python 实现分布式计算

目录前言什么是 Ray安装 Ray使用 Ray使用 Ray 集群1. 下载 ubuntu 镜像2. 启动 ubuntu 容器，安装依赖3. 启动 head 节点和 worker 节点...

99+

2022-11-11
如何利用Go编程实现高效的算法？

当今互联网时代，算法已经成为了程序员最基本的技能之一。而Go作为一门强大的编程语言，也拥有着优秀的并发性能和高效的代码执行速度，因此在算法实现上也有着不错的表现。本文将介绍如何利用Go编程实现高效的算法，并给出一些实际的演示代码。一、Go...

99+

2023-08-08

编程算法数据类型开发技术
Python如何实现蚁群算法

这篇文章将为大家详细讲解有关Python如何实现蚁群算法，小编觉得挺实用的，因此分享给大家做个参考，希望大家阅读完这篇文章后可以有所收获。1、引言在自然界中各种生物群体显现出来的智能近几十年来得到了学者们的广泛关注，学者们通过对简单生物体的...

99+

2023-06-29