广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python NLP 入门教程
  • 491
分享到

Python NLP 入门教程

入门教程PythonNLP 2023-01-31 06:01:11 491人浏览 薄情痞子

Python 官方文档:入门教程 => 点击学习

摘要

本文简要介绍python自然语言处理(NLP),使用Python的NLTK库。NLTK是Python的自然语言处理工具包,在NLP领域中,最常使用的一个Python库。什么是NLP?简单来说,自然语言处理(NLP)就是开发能够理解人类语言的

本文简要介绍python自然语言处理(NLP),使用Python的NLTK库。NLTK是Python的自然语言处理工具包,在NLP领域中,最常使用的一个Python库。

什么是NLP?


简单来说,自然语言处理(NLP)就是开发能够理解人类语言的应用程序或服务。

这里讨论一些自然语言处理(NLP)的实际应用例子,如语音识别、语音翻译、理解完整的句子、理解匹配词的同义词,以及生成语法正确完整句子和段落。

这并不是NLP能做的所有事情。

NLP实现


索引擎: 比如谷歌,Yahoo等。谷歌搜索引擎知道你是一个技术人员,所以它显示与技术相关的结果;

社交网站推送:比如Facebook News Feed。如果News Feed算法知道你的兴趣是自然语言处理,就会显示相关的广告和帖子。

语音引擎:比如Apple的Siri。

垃圾邮件过滤:如谷歌垃圾邮件过滤器。和普通垃圾邮件过滤不同,它通过了解邮件内容里面的的深层意义,来判断是不是垃圾邮件。

NLP 库


下面是一些开源的自然语言处理库(NLP):

  • Natural language toolkit (NLTK);

  • Apache OpenNLP;

  • Stanford NLP suite;

  • Gate NLP library

其中自然语言工具包(NLTK)是最受欢迎的自然语言处理库(NLP),它是用Python编写的,而且背后有非常强大的社区支持。

NLTK也很容易上手,实际上,它是最简单的自然语言处理(NLP)库。

在这个NLP教程中,我们将使用Python NLTK库。

安装 NLTK


如果您使用的是windows/linux/Mac,您可以使用pip安装NLTK:

d3hfZm10PXBuZw==

打开python终端导入NLTK检查NLTK是否正确安装:

aHR0cHM6Ly9tbWJpei5xbG9nby5jbi9tbWJpel9w

如果一切顺利,这意味着您已经成功地安装了NLTK库。首次安装了NLTK,需要通过运行以下代码来安装NLTK扩展包:

d3hfZm10PXBuZw==

这将弹出NLTK 下载窗口来选择需要安装哪些包: 

d3hfZm10PXBuZw==

您可以安装所有的包,因为它们的大小都很小,所以没有什么问题。

使用Python Tokenize文本


首先,我们将抓取一个WEB页面内容,然后分析文本了解页面的内容。

我们将使用urllib模块来抓取web页面:

aHR0cHM6Ly9tbWJpei5xbG9nby5jbi9tbWJpel9w

从打印结果中可以看到,结果包含许多需要清理的html标签。 然后BeautifulSoup模块来清洗这样的文字:

aHR0cHM6Ly9tbWJpei5xbG9nby5jbi9tbWJpel9w

现在我们从抓取的网页中得到了一个干净的文本。 下一步,将文本转换为tokens,像这样:

aHR0cHM6Ly9tbWJpei5xbG9nby5jbi9tbWJpel9w

统计词频


text已经处理完毕了,现在使用Python NLTK统计token的频率分布。

可以通过调用NLTK中的FreqDist()方法实现:

aHR0cHM6Ly9tbWJpei5xbG9nby5jbi9tbWJpel9w

如果搜索输出结果,可以发现最常见的token是PHP。 您可以调用plot函数做出频率分布图:

aHR0cHM6Ly9tbWJpei5xbG9nby5jbi9tbWJpel9w

aHR0cHM6Ly9tbWJpei5xbG9nby5jbi9tbWJpel9w

这上面这些单词。比如of,a,an等等,这些词都属于停用词。

一般来说,停用词应该删除,防止它们影响分析结果。

处理停用词


NLTK自带了许多种语言的停用词列表,如果你获取英文停用词:

aHR0cHM6Ly9tbWJpei5xbG9nby5jbi9tbWJpel9w

现在,修改下代码,在绘图之前清除一些无效的token:

aHR0cHM6Ly9tbWJpei5xbG9nby5jbi9tbWJpel9w

最终的代码应该是这样的:

aHR0cHM6Ly9tbWJpei5xbG9nby5jbi9tbWJpel9w

现在再做一次词频统计图,效果会比之前好些,因为剔除了停用词:

aHR0cHM6Ly9tbWJpei5xbG9nby5jbi9tbWJpel9w

aHR0cHM6Ly9tbWJpei5xbG9nby5jbi9tbWJpel9w

使用NLTK Tokenize文本


在之前我们用split方法将文本分割成tokens,现在我们使用NLTK来Tokenize文本。

文本没有Tokenize之前是无法处理的,所以对文本进行Tokenize非常重要的。token化过程意味着将大的部件分割为小部件。

你可以将段落tokenize成句子,将句子tokenize成单个词,NLTK分别提供了句子tokenizer和单词tokenizer。

假如有这样这段文本:

aHR0cHM6Ly9tbWJpei5xbG9nby5jbi9tbWJpel9w

使用句子tokenizer将文本tokenize成句子:

aHR0cHM6Ly9tbWJpei5xbG9nby5jbi9tbWJpel9w

输出如下:

d3hfZm10PXBuZw==

这是你可能会想,这也太简单了,不需要使用NLTK的tokenizer都可以,直接使用正则表达式来拆分句子就行,因为每个句子都有标点和空格。

那么再来看下面的文本:

aHR0cHM6Ly9tbWJpei5xbG9nby5jbi9tbWJpel9w

这样如果使用标点符号拆分,Hello Mr将会被认为是一个句子,如果使用NLTK:

d3hfZm10PXBuZw==

输出如下:

aHR0cHM6Ly9tbWJpei5xbG9nby5jbi9tbWJpel9w

这才是正确的拆分。

接下来试试单词tokenizer:

aHR0cHM6Ly9tbWJpei5xbG9nby5jbi9tbWJpel9w

输出如下:

d3hfZm10PXBuZw==

Mr.这个词也没有被分开。NLTK使用的是punkt模块的PunktSentenceTokenizer,它是NLTK.tokenize的一部分。而且这个tokenizer经过训练,可以适用于多种语言。

非英文 Tokenize


Tokenize时可以指定语言:

aHR0cHM6Ly9tbWJpei5xbG9nby5jbi9tbWJpel9w

输出结果如下:

aHR0cHM6Ly9tbWJpei5xbG9nby5jbi9tbWJpel9w

同义词处理


使用nltk.download()安装界面,其中一个包是WordNet。

WordNet是一个为自然语言处理而建立的数据库。它包括一些同义词组和一些简短的定义。

您可以这样获取某个给定单词的定义和示例:

d3hfZm10PXBuZw==

输出结果是:

aHR0cHM6Ly9tbWJpei5xbG9nby5jbi9tbWJpel9w

WordNet包含了很多定义:

d3hfZm10PXBuZw==

结果如下:

d3hfZm10PXBuZw==

可以像这样使用WordNet来获取同义词:

aHR0cHM6Ly9tbWJpei5xbG9nby5jbi9tbWJpel9w

输出:

aHR0cHM6Ly9tbWJpei5xbG9nby5jbi9tbWJpel9w

反义词处理


也可以用同样的方法得到反义词:

d3hfZm10PXBuZw==

输出:

aHR0cHM6Ly9tbWJpei5xbG9nby5jbi9tbWJpel9w

词干提取


语言形态学和信息检索里,词干提取是去除词缀得到词根的过程,例如working的词干为work。

搜索引擎在索引页面时就会使用这种技术,所以很多人为相同的单词写出不同的版本。

有很多种算法可以避免这种情况,最常见的是波特词干算法。NLTK有一个名为PorterStemmer的类,就是这个算法的实现:

aHR0cHM6Ly9tbWJpei5xbG9nby5jbi9tbWJpel9w

输出结果是:

aHR0cHM6Ly9tbWJpei5xbG9nby5jbi9tbWJpel9w

还有其他的一些词干提取算法,比如 Lancaster词干算法。

非英文词干提取


除了英文之外,SnowballStemmer还支持13种语言。

支持的语言:

aHR0cHM6Ly9tbWJpei5xbG9nby5jbi9tbWJpel9w

aHR0cHM6Ly9tbWJpei5xbG9nby5jbi9tbWJpel9w

你可以使用SnowballStemmer类的stem函数来提取像这样的非英文单词:

aHR0cHM6Ly9tbWJpei5xbG9nby5jbi9tbWJpel9w

单词变体还原


单词变体还原类似于词干,但不同的是,变体还原的结果是一个真实的单词。不同于词干,当你试图提取某些词时,它会产生类似的词:

aHR0cHM6Ly9tbWJpei5xbG9nby5jbi9tbWJpel9w

结果:

aHR0cDovL21tc25zLnFwaWMuY24vbW1zbnMvZGt3

结果可能会是一个同义词或同一个意思的不同单词。

有时候将一个单词做变体还原时,总是得到相同的词。

这是因为语言的默认部分是名词。要得到动词,可以这样指定:

aHR0cHM6Ly9tbWJpei5xbG9nby5jbi9tbWJpel9w

结果:

aHR0cHM6Ly9tbWJpei5xbG9nby5jbi9tbWJpel9w

实际上,这也是一种很好的文本压缩方式,最终得到文本只有原先的50%到60%。

结果还可以是动词(v)、名词(n)、形容词(a)或副词(r):

d3hfZm10PXBuZw==

输出:

aHR0cHM6Ly9tbWJpei5xbG9nby5jbi9tbWJpel9w

词干和变体的区别


通过下面例子来观察:

d3hfZm10PXBuZw==

输出:

d3hfZm10PXBuZw==

词干提取不会考虑语境,这也是为什么词干提取比变体还原快且准确度低的原因。

个人认为,变体还原比词干提取更好。单词变体还原返回一个真实的单词,即使它不是同一个单词,也是同义词,但至少它是一个真实存在的单词。

如果你只关心速度,不在意准确度,这时你可以选用词干提取。

在此NLP教程中讨论的所有步骤都只是文本预处理。在以后的文章中,将会使用Python NLTK来实现文本分析。

我已经尽量使文章通俗易懂。希望能对你有所帮助。

来自:j_hao104的博客

链接:www.spiderpy.cn/blog/detail/30


--结束END--

本文标题: Python NLP 入门教程

本文链接: https://www.lsjlt.com/news/189858.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Python NLP 入门教程
    本文简要介绍Python自然语言处理(NLP),使用Python的NLTK库。NLTK是Python的自然语言处理工具包,在NLP领域中,最常使用的一个Python库。什么是NLP?简单来说,自然语言处理(NLP)就是开发能够理解人类语言的...
    99+
    2023-01-31
    入门教程 Python NLP
  • Python入门教程(二)
      今天讲编程思维。  可能这对初次接触编程的人有用——我不是不想切入正题,我只是想强调根本没什么正题,我可能在其他文章里提过这一点。“编程语言就是语法糖”,可能你不知道什么是语法糖,但是知道的人也未必认同我。我不保证你们能听懂……pyth...
    99+
    2023-01-31
    入门教程 Python
  • python入门教程(零)
    (本文针对Windows)   Python是什么?是一种编程语言。编程语言是什么?就是和机器说话的方式。编译器和解释器好比翻译,把你的话翻成机器听得懂的。但是这些翻译不怎么智能(虽然也有高下),你必须说一套很机械的官腔,他们才帮你翻译——...
    99+
    2023-01-31
    入门教程 python
  • python pygame入门教程
    目录一、安装二、第一个代码实例三、绘制一个矩形框四、绘制矩形框的进阶版本五、绘制一条直线六、绘制一条弧线一、安装 在 cmd 命令中输入: pip install pygame 即可安装成功了 二、第一个代码实例 代...
    99+
    2022-06-02
    python pygame pygame入门教程
  • python jupyter入门教程
    目录1.jupyter2.jupyter基础操作2.1windows更新pip库2.2jupyter安装2.3初次启动jupyter2.4设置密码进入jupyter3.创建一个jupyter文本4.jupyter文本...
    99+
    2022-06-02
    python jupyter入门 python jupyter
  • python入门教程(一)
      我们依然不讲代码,而是先说命令行。   为什么命令行如此重要?之前说到,命令行是你和电脑对话的地方。你可以用句子的方式把信息发给电脑,电脑再以句子的方式给你回应。在编程领域,有些消息只能用命令行告诉电脑——或许是编程人员早就习惯了,或许...
    99+
    2023-01-31
    入门教程 python
  • Python Qt5 入门教程
    Python Qt5 入门教程 Python Qt5是一个强大的GUI工具包,可以用来设计各种桌面应用程序,包括图形用户界面、数据库应用程序等。本教程将带你入门Python Qt5,从安装开始到图形界面的设计以及常见的控件和事件。 安装...
    99+
    2023-08-31
    python ubuntu linux Qt5
  • python入门基础教程
    Python是一门简单易学、功能强大的编程语言,适合初学者入门。下面是一个简要的Python入门基础教程,帮助您快速上手Python编程。1. 安装Python:首先,您需要在计算机上安装Python解释器。您可以从Python官方网站(h...
    99+
    2023-10-25
    python 入门 基础教程
  • python之selenium入门教程
    selenium,一个第三方库,可以通过给driver发送命令来操作浏览器,以达到模拟人操作浏览器,实现网页自动化、测试等,减少了重复性工作。 selenium的工作的基本架构如下: 安装 本文是在...
    99+
    2023-09-11
    python selenium
  • Python API教程:API入门
    什么是API? 一个API,或被称为应用程序接口,是一个服务器为你提供一个接收或发送数据的代码。API通常用来接收数据。 本文就集中焦点在此话题中。 当我们想从一个API中接收数据,我们需要开始请求。...
    99+
    2023-09-07
    python 开发语言
  • Python基础教程,Python入门教程(超详细)
    目录为什么使用PythonPython应用场合Hello world国际化支持便易用的计算器字符串,ASCII和UNICODE使用List条件和循环语句如何定义函数文件I/O异常处理...
    99+
    2022-11-12
  • Python pygame入门基础教程
    本篇文章给大家带来了关于Python的相关知识,大家都知道pygame是跨平台Python模块,专为电子游戏设计,包含图像、声音,下面介绍了关于Python pygame新手入门基础教程的相关资料,希望对大家有帮助。【相关推荐:Python...
    99+
    2022-08-08
    python
  • Python OpenCV快速入门教程
    目录OpenCV先决条件我们会在本文中涵盖7个主题读,写和显示图像imread():imshow():imwrite():读取视频并与网络摄像头集成句法调整大小和裁剪图像句法裁剪图像...
    99+
    2022-11-12
  • Python入门教程(三十九)Python的NumPy安装与入门
    目录安装 NumPy导入 NumPyNumPy as np检查 NumPy 版本安装 NumPy 如果你已经在系统上安装了 Python 和 PIP,那么安装 NumPy 非常容易。...
    99+
    2023-05-12
    Python NumPy安装 Python NumPy入门
  • Python入门教程(三十)Python的PIP
    目录什么是 PIP?什么是包(Package)?检查是否已安装 PIP安装 PIP下载包使用包查找包删除包什么是 PIP? PIP 是 Python 包或模块的包管理器。 注释:如果...
    99+
    2023-05-18
    Python 入门 Python PIP
  • Python入门教程(十三)Python元组
    元组(Tuple) 元组是有序且不可更改的集合。在 Python 中,元组是用圆括号编写的。 实例 创建元组: thistuple = ("apple", "banana", "ch...
    99+
    2023-05-16
    Python Python元组
  • Python入门教程(十二)Python列表
    目录Python 集合(数组)列表访问项目负的索引索引范围负索引的范围更改项目值遍历列表检查项目是否存在列表长度添加项目删除项目复制列表合并两个列表列表方法Python 集合(数组)...
    99+
    2023-05-16
    Python Python列表
  • python扩展库numpy入门教程
    目录一、numpy是什么?二、numpy数组2.1 数组使用2.2 创建数组1. 使用empty创建空数组2. 使用arange函数创建3. 使用zeros函数生成数组4. ones...
    99+
    2022-11-12
  • Python爬虫入门教程 29-100
    1. 手机APP数据----写在前面 继续练习pyspider的使用,最近搜索了一些这个框架的一些使用技巧,发现文档竟然挺难理解的,不过使用起来暂时没有障碍,估摸着,要在写个5篇左右关于这个框架的教程。今天教程中增加了图片的处理,你可以重...
    99+
    2023-01-30
    爬虫 入门教程 Python
  • Python爬虫入门教程 44-100
    1. 第二款抓包工具Charles安装与使用 Charles和Fiddler一样,也是一款抓包工具,比Fiddler界面更加清晰,支持多平台 1.1 官方网址 https://www.charlesproxy.com/ 1.2 下载地址...
    99+
    2023-01-30
    爬虫 入门教程 Python
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作