iis服务器助手广告广告
返回顶部
首页 > 资讯 > 后端开发 > Python >用python实现新词发现程序——基于凝
  • 446
分享到

用python实现新词发现程序——基于凝

新词发现程序 2023-01-30 22:01:28 446人浏览 八月长安

Python 官方文档:入门教程 => 点击学习

摘要

互联网时代,信息产生的数量和传递的速度非常快,语言文字也不断变化更新,新词层出不穷。一个好的新词发现程序对做NLP(自然预言处理)来说是非常重要的。 N-Gram加词频 最原始的新词算法莫过于n-gram加词频了。简单来说就是,从大量语料

互联网时代,信息产生的数量和传递的速度非常快,语言文字也不断变化更新,新词层出不穷。一个好的新词发现程序对做NLP(自然预言处理)来说是非常重要的。

N-Gram加词频

最原始的新词算法莫过于n-gram加词频了。简单来说就是,从大量语料中抽取连续的字的组合片段,这些字组合片段最多包含n个字,同时统计每个字组合的频率,按照词频并设置一个阈值来判断一个字组合片段是否为词汇。

该方法简单处理速度快,它的缺点也很明显,就是会把一些不是词汇但出现频率很高的字组合也当成词了。

凝固度和自由度

这个算法在文章《互联网时代的社会语言学:基于SNS的文本数据挖掘》 里有详细的阐述。

凝固度就是一个字组合片段里面字与字之间的紧密程度。比如“琉璃”、“榴莲”这样的词的凝固度就非常高,而“华为”、“组合”这样的词的凝固度就比较低。

自由度就是一个字组合片段能独立自由运用的程度。比如“巧克力”里面的“巧克”的凝固度就很高,和“巧克力”一样高,但是它自由运用的程度几乎为零,所以“巧克”不能单独成词。

根据以上阐述,算法实现的步骤如下:

1. n-gram统计字组合的频率

如果文本量很小,可以直接用python的dict来统计n-gram及其频率。一段文本n-gram出来的字组合的大小大约是原始文本的(1+n)*n/2倍,字组合的数量也非常惊人。比如,“中华人民共和国”的首字n-gram是(n=5):


中华
中华人
中华人民
中华人民共

n-gram统计字组合频率的同时还要统计字组合的左右邻居,这个用来计算自由度。

如果文本量再大一些,Python的dict经常会碰到最好使用trie tree这样的数据结构。双数组Trie Tree有很多非常好的开源实现,比如,cedar、darts等等。Trie Tree使用的好处是,它天然包含了字组合的右邻居信息,因为这个数据结构一般是前缀树。要统计左邻居信息时,只需要把字组合倒序放入另外一个Trie Tree即可。
使用cedar Trie Tree的时候,5-gram统计30M的文本大约使用6GB左右的内存。

如果文本量更大,这就要借助硬盘了,可以使用leveldb这样的key-value数据库来实现。实验下来,trie tree统计30M的文本用几十秒,而同样的用leveldb统计却要6个多小时!!!应该还有比leveldb更合适的数据库来做这件事情,有时间再说。
当然,为了发现新词,几十MB的文本文本足够了。

2. 计算字组合的凝固度;

有了上述的统计结果,计算每个字组合的凝固度就比较简单了。
首先,把字组合切分成不同的组合对,比如’abcd’可以拆成(‘a’, ‘bcd’), (‘ab’, ‘cd’), (‘abc’, ‘d’),
然后,计算每个组合对的凝固度:D(s1, s2) = P(s1s2) / (P(s1) * P(s2))
最后,取这些组合对凝固度中最小的那个为整个字组合的凝固度。

3. 计算字组合的自由度;

分别计算它的左邻居信息熵和右邻居信息熵,取其中较小的为该组合的自由度。

4. 阈值的选择

整个过程涉及到三个阈值的选择:

  • 组合的词频:频率很低的组合成词的可能性很小
  • 组合的凝固度:凝固度越大成词的可能性越大
  • 组合的自由度:自由度越大成词的可能性越大

经验值:30M文本,词频>200, 凝固度>10**(n-1), 自由度>1.5

小窍门:词频>30, 凝固度>20**(n-1)也能发现很多低频的词汇。

 

 

文章首发于我的个人博客:猿人学

如果觉得不错也可以关注我的公众号,每周定期更新

 

--结束END--

本文标题: 用python实现新词发现程序——基于凝

本文链接: https://www.lsjlt.com/news/179210.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 用python实现新词发现程序——基于凝
    互联网时代,信息产生的数量和传递的速度非常快,语言文字也不断变化更新,新词层出不穷。一个好的新词发现程序对做NLP(自然预言处理)来说是非常重要的。 N-Gram加词频 最原始的新词算法莫过于n-gram加词频了。简单来说就是,从大量语料...
    99+
    2023-01-30
    新词 发现 程序
  • Python基于词频排序实现快速挖掘关键词
    目录一、所有的代码二、实现的效果三、代码解读一、所有的代码 这是所有的代码 from collections import defaultdict import jieba.poss...
    99+
    2023-03-06
    Python 词频排序实现挖掘关键词 Python挖掘关键词 Python 关键词
  • Python基于词频排序如何实现快速挖掘关键词
    这篇文章主要介绍“Python基于词频排序如何实现快速挖掘关键词”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“Python基于词频排序如何实现快速挖掘关键词”文章能帮助大家解决问题。一、所有的代码这...
    99+
    2023-07-05
  • 基于Python实现抢注大词的提词工具
    假设通过爬虫获得了一个自媒体.txt 想要从这些关键词中提取流量最大的关键词 可以通过如下算法实现: from smoothnlp.algorithm.phrase import ...
    99+
    2023-02-28
    Python实现提词工具 Python提词工具 Python提词
  • 基于Python实现英语单词小游戏
    目录导语一、敲代码之前的小tips二、运行环境三、素材(图片等)四、代码展示1)主程序(英文打字小游戏主入口模块)2)游戏配置信息模块3)游戏视图模块4)PyGame游戏精灵模块五、...
    99+
    2022-11-16
    Python英语单词游戏 Python 单词游戏 Python 游戏
  • 基于Python如何实现抢注大词的提词工具
    本篇内容主要讲解“基于Python如何实现抢注大词的提词工具”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“基于Python如何实现抢注大词的提词工具”吧!假设通过爬虫获得了一个自媒体.txt想要...
    99+
    2023-07-05
  • Python基于jieba分词实现snownlp情感分析
    情感分析(sentiment analysis)是2018年公布的计算机科学技术名词。 它可以根据文本内容判断出所代表的含义是积极的还是负面的,也可以用来分析文本中的意思是褒义还是贬...
    99+
    2023-01-30
    Python snownlp情感分析 Python 情感分析 Python snownlp
  • 基于Python实现自动抠图小程序
    目录导语正文1.前期准备1.1 首先1.2 网站小介绍2.正式抠图2.1 环境安装2.2 素材(可自选)2.3 主程序代码3.效果图3.1 界面展示​3.2 图片展示总结导语 大家好...
    99+
    2024-04-02
  • 基于Python实现微博抓取GUI程序
    目录前言微博功能布局创建微博 Widget创建微博查询词云制作结果展示前言 在前面的分享中,我们制作了一个天眼查 GUI 程序,今天我们在这个的基础上,继续开发新的功能,微博抓取工具...
    99+
    2024-04-02
  • 基于Python实现人像雪景小程序
    目录导语​正文1)素材环境(仅部分)2)运行环境3)代码演示4)效果展示导语 哈喽~大家早上好鸭! 冷空气来袭,不少地方一夜入冬,南方地区除了冷就是雨,而北方除了冷还有雪。 就说下雪...
    99+
    2024-04-02
  • 基于Python实现新年倒计时
    不知不觉已经在家两个月了,眼看马上春节就要来临了。满怀期待的写了一个新年倒计时的小工具! 设置新年时间后都能够使用,打开软件后可以自动计算到新年的倒计时情况。 UI界面及布局这块一...
    99+
    2023-01-09
    Python新年倒计时 Python 倒计时
  • Java基于IDEA实现qq邮件发送小程序
    目录一. 框架搭建二. qq邮箱端口设置三. 发送邮件我这一生都是坚定的唯物主义者,唯有你,我希望有来生 大家好,这里是新一,请多关照。在本篇博客中,新一将会为大家介绍JAVA实现简...
    99+
    2024-04-02
  • python基于并发与socket实现远
    FTP程序 Client: * bin/start.py 程序入口 * conf/配置文件存放 * core/ * auth.py 登陆,注册以及上传下载查看当前文件夹下文件以及删除功能存放 * cline.py 与服务端...
    99+
    2023-01-30
    python socket
  • 基于python实现rpc远程过程调用
    目录基于python实现RPC的demo前言一、主要内容二、实现步骤1. 进程间的通信2. 异步回调实现思路总结基于python实现RPC的demo 这是一个远程过程调用(RPC)的...
    99+
    2024-04-02
  • 基于Python如何实现自动抠图小程序
    本篇文章为大家展示了基于Python如何实现自动抠图小程序,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。Python主要用来做什么Python主要应用于:1、Web开发;2、数据科学研究;3、网络爬...
    99+
    2023-06-26
  • 怎么用Python基于udp协议实现聊天小程序
    这篇文章主要介绍“怎么用Python基于udp协议实现聊天小程序”,在日常操作中,相信很多人在怎么用Python基于udp协议实现聊天小程序问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”怎么用Python基于...
    99+
    2023-06-02
  • 如何基于Python实现人像雪景小程序
    这篇文章主要介绍了如何基于Python实现人像雪景小程序,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。正文开始制作雪景图:1)素材环境(仅部分)2)运行环境本文涉及的环境:P...
    99+
    2023-06-22
  • 基于Python实现图片九宫格切图程序
    目录1、python代码实现图片分割成九宫格2、C++代码实现图片分割成九宫格(附Opencv配置教程)1、python代码实现图片分割成九宫格 需要包含的库,没有下载安装的,需要自...
    99+
    2023-05-15
    Python实现图片九宫格切图 Python图片九宫格切图 Python图片九宫格 Python 九宫格
  • Python基于DFA算法实现内容敏感词过滤
    DFA 算法是通过提前构造出一个 树状查找结构,之后根据输入在该树状结构中就可以进行非常高效的查找。 设我们有一个敏感词库,词酷中的词汇为: 我爱你我爱他我爱她我爱你呀我爱他呀我爱她...
    99+
    2024-04-02
  • 基于Python和TFIDF实现提取文本中的关键词
    目录前言词频逆文档频率(TFIDF)Term FrequencyInverse Document FrequencyTFIDFPython 中的 TFIDFPython 库准备准备数...
    99+
    2024-04-02
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作