iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >python实现余弦相似度文本比较的示例
  • 181
分享到

python实现余弦相似度文本比较的示例

2024-04-02 19:04:59 181人浏览 安东尼

Python 官方文档:入门教程 => 点击学习

摘要

目录向量空间模型VSM:VSM的介绍:VSM的例子:TF-IDF权重计算:TF的由来:IDF的出现:TF-IDF的计算:余弦相似度的计算:文本比较实例:对文本进行去停用词和分词:余弦

向量空间模型VSM:

VSM的介绍:

  一个文档可以由文档中的一系列关键词组成,而VSM则是用这些关键词的向量组成一篇文档,其中的每个分量代表词项在文档中的相对重要性。

VSM的例子:

  比如说,一个文档有分词和去停用词之后,有N个关键词(或许去重后就有M个关键词),文档关键词相应的表示为(d1,d2,d3,...,dn),而每个关键词都有一个对应的权重(w1,w1,...,wn)。对于一篇文档来说,或许所含的关键词项比较少,文档向量化后的向量维度可能不是很大。而对于多个文档(2篇文档或两篇文档以上),则需要合并所有文档的关键词(关键词不能重复),形成一个不重复的关键词集合,这个关键词集合的个数就是每个文档向量化后的向量的维度。打个比方说,总共有2篇文档A和B,其中A有5个不重复的关键词(a1,a2,a3,a4,a5),B有6个关键词(b1,b2,b3,b4,b5,b6),而且假设b1和a3重复,则可以形成一个简单的关键词集(a1,a2,a3,a4,a5,,b2,b3,b4,b5,b6),则A文档的向量可以表示为(ta1,ta2,ta3,ta4,ta5,0,0,0,0,0),B文档可以表示为(0,0,tb1,0,0,tb2,tb3,tb4,tb5,tb6),其中的tb表示的对应的词汇的权重。

最后,关键词的权重一般都是有TF-IDF来表示,这样的表示更加科学,更能反映出关键词在文档中的重要性,而如果仅仅是为数不大的文档进行比较并且关键词集也不是特别大,则可以采用词项的词频来表示其权重(这种表示方法其实不怎么科学)。

TF-IDF权重计算:

TF的由来:

  以前在文档搜索的时候,我们只考虑词项在不在文档中,在就是1,不在就是0。其实这并不科学,因为那些出现了很多次的词项和只出现了一次的词项会处于等同的地位,就是大家都是1.按照常理来说,文档中词项出现的频率越高,那么就意味着这个词项在文档中的地位就越高,相应的权重就越大。而这个权重就是词项出现的次数,这样的权重计算结果被称为词频(term frequency),用TF来表示。

IDF的出现:

  在用TF来表示权重的时候,会出现一个严重的问题:就是所有 的词项都被认为是一样重要的。但在实际中,某些词项对文本相关性的计算来说毫无意义,举个例子,所有的文档都含有汽车这个词汇,那么这个词汇就没有区分能力。解决这个问题的直接办法就是让那些在文档集合中出现频率较高的词项获得一个比较低的权重,而那些文档出现频率较低的词项应该获得一个较高的权重。

  为了获得出现词项T的所有的文档的数目,我们需要引进一个文档频率df。由于df一般都比较大,为了便于计算,需要把它映射成一个较小的范围。我们假设一个文档集里的所有的文档的数目是N,而词项的逆文档频率(IDF)。计算的表达式如下所示:

  通过这个idf,我们就可以实现罕见词的idf比较高,高频词的idf比较低。

TF-IDF的计算:

  TF-IDF = TF * IDF

  有了这个公式,我们就可以对文档向量化后的每个词给予一个权重,若不含这个词,则权重为0。

余弦相似度的计算:

  有了上面的基础知识,我们可以将每个分好词和去停用词的文档进行文档向量化,并计算出每一个词项的权重,而且每个文档的向量的维度都是一样的,我们比较两篇文档的相似性就可以通过计算这两个向量之间的cos夹角来得出。下面给出cos的计算公式:

  分母是每篇文档向量的模的乘积,分子是两个向量的乘积,cos值越趋向于1,则说明两篇文档越相似,反之越不相似。

文本比较实例:

对文本进行去停用词和分词:

文本未分词前,如下图所示:

  

文本分词和去停用词后,如下图所示:

词频统计和文档向量化

对经过上一步处理过的文档,我们可以统计每个文档中的词项的词频,并且将其向量化,下面我直接给出文档向量化之后的结果。注意:在这里由于只是比较两篇文档的相似性,所以我只用了tf来作为词项的权重,并未使用tf-idf:

向量化后的结果是:

        [1,1,1,1,1,1,1,1,1,1,1,1,1,1]

  • 两篇文档进行相似度的计算,我会给出两篇文档的原文和最终计算的相似度:

    文档原文如下所示:

    文档A的内容

    文档B的内容

    余弦相似度代码实现:

    
    import  math
    # 两篇待比较的文档的路径
    sourcefile = '1.txt'
    s2 = '2.txt'
    
    # 关键词统计和词频统计,以列表形式返回
    def Count(resfile):
            t = {}
            infile = open(resfile, 'r', encoding='utf-8')
            f = infile.readlines()
            count = len(f)
            # print(count)
            infile.close()
    
            s = open(resfile, 'r', encoding='utf-8')
        i = 0
            while i < count:
                line = s.readline()
            # 去换行符
                line = line.rstrip('\n')
                # print(line)
                Words = line.split(" ")
                #   print(words)
    
                for word in words:
                        if word != "" and t.__contains__(word):
                            num = t[word]
                        t[word] = num + 1
                        elif word != "":
                        t[word] = 1
                i = i + 1
    
            # 字典按键值降序
            dic = sorted(t.items(), key=lambda t: t[1], reverse=True)
            # print(dic)
            # print()
            s.close()
            return (dic)
    
    
    
    def MergeWord(T1,T2):
            MergeWord = []
            duplicateWord = 0
            for ch in range(len(T1)):
                MergeWord.append(T1[ch][0])
            for ch in range(len(T2)):
                if T2[ch][0] in MergeWord:
                        duplicateWord = duplicateWord + 1
                else:
                        MergeWord.append(T2[ch][0])
    
            # print('重复次数 = ' + str(duplicateWord))
            # 打印合并关键词
            # print(MergeWord)
            return MergeWord
    
    # 得出文档向量
    def CalVector(T1,MergeWord):
            TF1 = [0] * len(MergeWord)
    
        for ch in range(len(T1)):
                TermFrequence = T1[ch][1]
                word = T1[ch][0]
                i = 0
                while i < len(MergeWord):
                        if word == MergeWord[i]:
                        TF1[i] = TermFrequence
                        break
                        else:
                        i = i + 1
            # print(TF1)
            return TF1
    
    def CalConDis(v1,v2,lengthVector):
    
            # 计算出两个向量的乘积
            B = 0
            i = 0
            while i < lengthVector:
                B = v1[i] * v2[i] + B
                i = i + 1
            # print('乘积 = ' + str(B))
    
            # 计算两个向量的模的乘积
            A = 0
            A1 = 0
            A2 = 0
            i = 0
            while i < lengthVector:
                A1 = A1 + v1[i] * v1[i]
                i = i + 1
            # print('A1 = ' + str(A1))
    
            i = 0
            while i < lengthVector:
                A2 = A2 + v2[i] * v2[i]
                i = i + 1
               # print('A2 = ' + str(A2))
    
            A = math.sqrt(A1) * math.sqrt(A2)
            print('两篇文章的相似度 = ' + fORMat(float(B) / A,".3f"))
    
    
    
    T1 = Count(sourcefile)
    print("文档1的词频统计如下:")
    print(T1)
    print()
    T2 = Count(s2)
    print("文档2的词频统计如下:")
    print(T2)
    print()
    # 合并两篇文档的关键词
    mergeword = MergeWord(T1,T2)
    #  print(mergeword)
    # print(len(mergeword))
    # 得出文档向量
    v1 = CalVector(T1,mergeword)
    print("文档1向量化得到的向量如下:")
    print(v1)
    print()
    v2 = CalVector(T2,mergeword)
    print("文档2向量化得到的向量如下:")
    print(v2)
    print()
    # 计算余弦距离
    CalConDis(v1,v2,len(v1))

到此这篇关于python实现余弦相似度文本比较的文章就介绍到这了,更多相关Python余弦相似度内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

--结束END--

本文标题: python实现余弦相似度文本比较的示例

本文链接: https://www.lsjlt.com/news/125249.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • python实现余弦相似度文本比较的示例
    目录向量空间模型VSM:VSM的介绍:VSM的例子:TF-IDF权重计算:TF的由来:IDF的出现:TF-IDF的计算:余弦相似度的计算:文本比较实例:对文本进行去停用词和分词:余弦...
    99+
    2024-04-02
  • python怎么实现余弦相似度文本比较
    这篇文章将为大家详细讲解有关python怎么实现余弦相似度文本比较,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。python的五大特点是什么python的五大特点:1.简单易学,开发程序时,专注的是解决问...
    99+
    2023-06-14
  • java算法之余弦相似度计算字符串相似率的示例分析
    小编给大家分享一下java算法之余弦相似度计算字符串相似率的示例分析,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!Java有哪些集合类Java中的集合主要分为四类...
    99+
    2023-06-15
  • JavaScript实现文本相似度对比
    目录一、发现问题二、解决问题1、编辑距离的概念2、测试文本3、代码实现4、相似度对比结果一、发现问题 在开发过程中,难免会使用到2个(多个)文本内容处理,一是便于宏观知道文本的重合度...
    99+
    2024-04-02
  • JavaScript如何实现文本相似度对比
    本篇内容介绍了“JavaScript如何实现文本相似度对比”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!一、发现问题在开发过程中,难免会使用...
    99+
    2023-06-30
  • 基于Java实现图片相似度对比的示例代码
    目录前言依赖基本算法相关代码前言 很多时候我们需要将两个图片进行对比,确定两个图片的相似度。一般常用的就是openCv库,这里就是使用openCv进行图片相似度对比。 依赖 <...
    99+
    2024-04-02
  • 如何在Java项目中利用余弦方法实现一个相似度计算算法
    本篇文章给大家分享的是有关如何在Java项目中利用余弦方法实现一个相似度计算算法,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。(1)余弦相似性通过测量两个向量之间的角的余弦值来...
    99+
    2023-05-31
    java 余弦 ava
  • Python利用模糊哈希实现对比文件相似度
    对比两个文件相似度,python中可通过difflib.SequenceMatcher/ssdeep/python_mmdt/tlsh实现,在大量需要对比,且文件较大时,需要更高的效...
    99+
    2023-01-28
    Python对比文件相似度 Python对比相似度 Python 相似度
  • 用Python进行简单的文本相似度分析
    学习目标: 利用gensim包分析文档相似度 使用jieba进行中文分词 了解TF-IDF模型 环境: Python 3.6.0 |Anaconda 4.3.1 (64-bit) 工具: jupyter notebook 注:...
    99+
    2023-01-31
    文本 简单 Python
  • Python中的字符串相似度实例分析
    本文小编为大家详细介绍“Python中的字符串相似度实例分析”,内容详细,步骤清晰,细节处理妥当,希望这篇“Python中的字符串相似度实例分析”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。Python字符串相似...
    99+
    2023-06-30
  • C++实现LeetCode之版本比较的示例分析
    小编给大家分享一下C++实现LeetCode之版本比较的示例分析,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧![LeetCode] 165.Compare Ver...
    99+
    2023-06-20
  • Go字符串比较的实现示例
    目录Compare 和 EqualFold 区别忽略大小写比较字符串比较, 可以直接使用 == 进行比较, 也可用用 strings.Compare 比较 go 中字符串比较有三种方...
    99+
    2024-04-02
  • Python 自然语言处理中的文本相似性度量:探索文本之间的共性
    文本相似性度量是一种自然语言处理技术,用于评估两个文本段落之间的相似程度。它在各种应用程序中至关重要,例如信息检索、文本分类和机器翻译。 度量方法 存在多种文本相似性度量方法,每种方法都针对不同的文本特征进行评估。主要方法包括: 编辑距...
    99+
    2024-04-02
  • python 百度aip实现文字识别的实现示例
    目录介绍模块使用介绍 百度aip模块是用于实现百度云与用户接口,简单来说就是使用百度云所拥有的人工智能模块。 模块使用 pip install baidu-aip#下载百度云模块...
    99+
    2024-04-02
  • C++实现比较日期大小的示例代码
    目录一、目的二、代码三、补充一、目的 用来比较两个日期。日期格式:2023-03-31 09:16:56。 二、代码 //std::wstring strA = L"2023-03-...
    99+
    2023-05-14
    C++比较日期大小 C++比较日期 C++ 日期
  • python 基于空间相似度的K-means轨迹聚类的实现
    这里分享一些轨迹聚类的基本方法,涉及轨迹距离的定义、kmeans聚类应用。 需要使用的python库如下 import pandas as pd import numpy as ...
    99+
    2024-04-02
  • 【Android App】人脸识别中使用Opencv比较两张人脸相似程度实战(附源码和演示 超详细)
    需要全部代码请点赞关注收藏后评论区留言私信~~~ 一、比较两张人脸的相似程度 直方图由一排纵向的竖条或者竖线组成,横轴代表数据类型,纵轴代表数据多少。 图像直方图经常应用于特征提取、图像匹配等方面。  假设有两幅图像,它们的直方图很...
    99+
    2023-08-31
    opencv 人工智能 计算机视觉 android studio java
  • 比较Ajax三种实现及JSON解析的示例分析
    这篇文章给大家分享的是有关比较Ajax三种实现及JSON解析的示例分析的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。准备:1、  prototype.js2、 ...
    99+
    2024-04-02
  • Python实现arctan换算角度的示例
    目录笛卡尔坐标系取值范围笛卡尔坐标系 对于平面坐标系,任一射线OP与x轴夹角θ的范围,可以取[0,2π)或者(-π,π],如无特殊说明, 我们统一使用后...
    99+
    2023-03-13
    Python arctan换算角度 Python 换算角度
  • jmeter执行python脚本的实现示例
    目录概要一、环境准备1. 测试工具2. 测试资源二、实现过程1. 在jmeter中设置参数2. 通过jmeter修改py模板3. 通过jmeter执行py脚本4. 使用获得的输出信息...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作