iis服务器助手广告广告
返回顶部
首页 > 资讯 > 精选 >nlp中文数据预处理方法是什么
  • 950
分享到

nlp中文数据预处理方法是什么

2023-06-02 02:06:12 950人浏览 独家记忆
摘要

这篇文章主要介绍“NLP中文数据预处理方法是什么”,在日常操作中,相信很多人在nlp中文数据预处理方法是什么问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”nlp中文数据预处理方法是什么”的疑惑有所帮助!接下来

这篇文章主要介绍“NLP中文数据预处理方法是什么”,在日常操作中,相信很多人在nlp中文数据预处理方法是什么问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”nlp中文数据预处理方法是什么”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!

  数据加载(默认csv格式)

  import pandas as pd

  datas = pd.read_csv("./test.csv", header=0, index_col=0) # DataFrame

  n_datas = data.to_numpy() # ndarray 转成numpy更好处理(个人喜好)

  去除空行

  def delete_blank_lines(sentences):

  return [s for s in sentences if s.split()]

  no_line_datas = delete_blank_lines(n_datas)

  去除数字

  DIgit_RE = re.compile(r'\d+')

  no_digit_datas = DIGIT_RE.sub('', no_line_datas)

  def delete_digit(sentences):

  return [DIGIT_RE.sub('', s) for s in sentences]

  判断句子形式(简单句或者复杂句)

  STOPS = ['。', '.', '?', '?', '!', '!'] # 中英文句末字符

  def is_sample_sentence(sentence):

  count = 0

  for Word in sentence:

  if word in STOPS:

  count += 1

  if count > 1:

  return False

  return True

  去除中英文标点

  from string import punctuation

  import re

  punc = punctuation + u'

  def delete_punc(sentences):

  return [re.sub(r"[{}]+".fORMat(punc), '', s) for s in a]

  去除英文(仅留汉字)

  ENGLISH_RE = re.compile(r'[a-zA-Z]+')

  def delete_e_word(sentences):

  return [ENGLISH_RE.sub('', s) for s in sentences]

  去除乱码和特殊符号

  使用正则表达式去除相关无用符号和乱码

  # 该操作可以去掉所有的符号,标点和英文,由于前期可能需要标点进一步判断句子是否为简单句,所以该操作可以放到最后使用。郑州做妇科检查价格 Http://www.zzkdfk.com/

  SPECIAL_SYMBOL_RE = re.compile(r'[^\w\s\u4e00-\u9fa5]+')

  def delete_special_symbol(sentences):

  return [SPECIAL_SYMBOL_RE.sub('', s) for s in sentences]

  中文分词

  # 使用jieba

  def seg_sentences(sentences):

  cut_words = map(lambda s: list(jieba.cut(s)), sentences)

  return list(cut_words)

  # 使用pyltp分词

  def seg_sentences(sentences):

  segmentor = Segmentor()

  segmentor.load('./cws.model') # 加载分词模型参数

  seg_sents = [list(segmentor.segment(sent)) for sent in sentences]

  segmentor.release()

  return seg_sents

  去除停用词

  # 停用词列表需要自行下载

  stopwords = []

  def delete_stop_word(sentences):

  return [[word for word in s if word not in stopwords] for s in sentences]

到此,关于“nlp中文数据预处理方法是什么”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注编程网网站,小编会继续努力为大家带来更多实用的文章!

--结束END--

本文标题: nlp中文数据预处理方法是什么

本文链接: https://www.lsjlt.com/news/228427.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • nlp中文数据预处理方法是什么
    这篇文章主要介绍“nlp中文数据预处理方法是什么”,在日常操作中,相信很多人在nlp中文数据预处理方法是什么问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”nlp中文数据预处理方法是什么”的疑惑有所帮助!接下来...
    99+
    2023-06-02
  • nlp预处理的方法是什么
    NLP(自然语言处理)预处理的方法有以下几种:1. 分词(Tokenization):将文本分割成词(单词)或者子词的序列。可以使用...
    99+
    2023-09-21
    nlp
  • python优化数据预处理方法是什么
    本篇内容主要讲解“python优化数据预处理方法是什么”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“python优化数据预处理方法是什么”吧!我们知道现实中的数据通常是杂乱无章的,需要大量的预处...
    99+
    2023-06-25
  • Java数据预统计处理的方法是什么
    Java中可以使用一些方法对数据进行预统计处理,其中常用的方法包括:1. 循环遍历:使用循环结构(如for循环、while循环)遍历...
    99+
    2023-08-24
    Java
  • Python文本预处理的方法是什么
    本篇内容介绍了“Python文本预处理的方法是什么”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!将文本中出现的字母转化为小写示例1:将字母转...
    99+
    2023-06-16
  • nlp中怎么处理文本中的数字
    在自然语言处理中,处理文本中的数字通常可以采取以下几种方式:1. 去除数字:可以使用正则表达式或其他方法将文本中的数字直接去除,例如...
    99+
    2023-09-21
    nlp
  • 数据预处理方法整理(数学建模)
    这篇文章主要是整理了一些作者在各种建模比赛中遇到的数据预处理问题以及方法,主要针对excel或csv格式的数据,为后续进行机器学习或深度学习做前期准备 数据清洗 导入库和文件,这里使用的是绝对路径,可改为相对路径 import pandas...
    99+
    2023-09-10
    python 数据分析 机器学习 深度学习 cnn
  • 有哪些数据预处理的方法
    今天就跟大家聊聊有关有哪些数据预处理的方法,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。数据预处理的方法有:1、数据清理,通过填写缺失的值、光滑噪声数据、识别或删除离群点并解决不一致...
    99+
    2023-06-14
  • Teradata处理大数据的方法是什么
    Teradata处理大数据的方法包括以下几个核心技术和方法: 并行处理:Teradata采用共享架构,通过并行处理和分布式计算来...
    99+
    2024-03-08
    Teradata
  • 在JavaScript中Node.js处理数据IO的方法是什么
    本篇内容主要讲解“在JavaScript中Node.js处理数据IO的方法是什么”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“在JavaScript中Node....
    99+
    2024-04-02
  • java并发处理数据的方法是什么
    Java中处理并发数据的方法有以下几种:1. 使用synchronized关键字:synchronized关键字可以用于方法或代码块...
    99+
    2023-10-11
    java
  • python空间数据处理的方法是什么
    一种常见的方法是使用Python的空间数据处理库,如GeoPandas、Shapely、Fiona和Pyproj等。这些库可以帮助用...
    99+
    2024-04-09
    python
  • redis处理热点数据的方法是什么
    Redis处理热点数据的方法有多种,下面是一些常用的方法: 使用缓存:将热点数据存储在Redis缓存中,以提高访问速度。当查询热...
    99+
    2024-04-09
    redis
  • spark实时数据处理的方法是什么
    Spark实时数据处理的方法包括使用Spark Streaming、Structured Streaming和Spark SQL。S...
    99+
    2024-04-02
  • matlab处理大量数据的方法是什么
    在处理大量数据时,MATLAB提供了许多方法和工具,包括以下几种:1. 预分配内存:在处理大量数据时,预分配内存是一种有效的方法,可...
    99+
    2023-09-15
    matlab
  • python数据预处理的方法有哪些
    Python数据预处理的方法有:1. 数据清洗:处理缺失值、异常值、重复值等问题。2. 数据整合:将不同来源的数据整合到一起,如合并...
    99+
    2023-08-09
    python
  • python气象数据处理的方法是什么
    在Python中,可以使用一些常用的库和方法来处理气象数据,其中包括:1. NumPy:用于处理数值计算和数组操作,可以用来处理气象...
    99+
    2023-10-12
    python
  • python数据降噪的处理方法是什么
    在Python中,常用的数据降噪处理方法有以下几种:1. 平滑滤波(Smoothing Filter):平滑滤波是一种常见的降噪方法...
    99+
    2023-08-23
    python
  • flink处理离线数据的方法是什么
    Flink处理离线数据的方法通常是通过批处理模式来实现。Flink提供了DataSet API来支持批处理模式,可以对离线数据进行批...
    99+
    2024-04-02
  • python图像数据处理的方法是什么
    Python图像数据处理的方法有很多,包括但不限于以下几种:1. 使用PIL(Python Imaging Library)库:PI...
    99+
    2023-09-20
    python
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作