python数据处理详情

2024-04-02 19:04:59 527人浏览八月长安

Python 官方文档：入门教程 => 点击学习

摘要

目录一，前言二，python模块2.1，增加停用词表2.2，顺序读取2.3，lambda函数三，运行3.1，存入文件一，前言我们现在拿到了一个十分庞大的数据集。是JSON文件，里面

一，前言

我们现在拿到了一个十分庞大的数据集。是JSON文件，里面存储了将近十万个数据，现在要对其中的数据进行清洗处理。

二，Python模块

import json
import jieba

我们需要用json模块来处理json文件，和使用jieba库来分析词性，这样可以实现我们的需求。

2.1，增加停用词表

停用词表.txt，把停用词表存入stopWords，原因是：我们的目标分析json里有一些标点符号。

stopwords = [line.strip() for line in open("停用词表.txt",encoding="utf-8").readlines()]

基本如图所示：

a+str(b)+c这是文件名称，a+b+c=./json/poet.song.0.json b递增，实现动态取值

with open(a+str(b)+c,'r',encoding='utf8')as fp:

因为有将近500个json文件。每个文件里有好几千组数据，我现在尽力的优化代码，现在提取一次，把需要的数据存入文件里面差不多需要五分钟。

2.2，顺序读取

定义一个空的字符串，将json对象转换为python对象。定义一个空的list存放诗句。
循环json_data i为里面的每一个元素。
新的追加到list_paragraphs列表
循环 j为里面的每一句。

代码如图所示：

使用jieba库，分析str内容的词性【注意是名称，动词。。。。】排行输出都是俩个字是巧合，没有字数限制

words = jieba.lcut(str_s)

现在words为分析完毕的词性列表，遍历。

排除特殊符号

for word in words:
            if word not in stopwords:
                if len(word) == 1:
                    continue
                else:
                    counts[word] = counts.get(word,0) + 1

出现频率加一。

2.3，lambda函数

使用lambda函数，sort快速排序，遍历输出频率前50的词性。

items.sort(key=lambda x:x[1], reverse=True)

之后赋值word, count。

word, count = items[i]
    print ("{:<10}{:>7}".fORMat(word, count))

三，运行

3.1，存入文件

f=open('towa.txt',"a",encoding='gb18030')
            f.writelines("题目:"+textxxx)
            f.writelines(word_ping)

到此这篇关于python数据处理详情的文章就介绍到这了,更多相关python数据处理内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

您可能感兴趣的文档:

点击免费下载>>软考高级考试备考技巧/历年真题/备考精华资料

--结束END--

本文标题: python数据处理详情

本文链接: https://www.lsjlt.com/news/117261.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑，方便收藏和打印～

下载Word文档

去做题

猜你喜欢

python数据处理详情

目录一，前言二，python模块2.1，增加停用词表2.2，顺序读取2.3，lambda函数三，运行3.1，存入文件一，前言我们现在拿到了一个十分庞大的数据集。是json文件，里面...

99+

2022-11-10
Oracle数据库失效对象处理详情

近期对数据库进行巡检，发现数据库业务用户（非 SYS/Public）下存在失效对象。对失效对象进行分析，主要包括失效的视图、物化视图、函数、包、触发器等。思考：基于以下原因，建议...

99+

2022-11-12
Python 图像处理 Pillow 库详情

前言：图像处理是常用的技术，python 拥有丰富的第三方扩展库，Pillow 是 Python3 最常用的图像处理库，目前最高版本5.2.0。Python2 使用Pil库，两者是...

99+

2022-11-12
Python读取postgresql数据库详情

目录一、读取PostgreSQL数据库二、查询数据一、读取postgresql数据库（1）首先，我们需要安装 psycopg 驱动。通过 pip 安装最新的 psycopg pip install psycopg2 -...

99+

2022-09-28
python 操作 mongodb 数据库详情

目录一、安装二、连接数据库三、创建数据库四、所有数据库五、创建集合六、插入数据七、查询数据八、高级查询九、count统计十、修改数据十一、删除数据十二、数据排序一、安装 pip in...

99+

2022-11-10
Python 操作SQLite数据库详情

目录一、简单操作SQLite数据库1、简单的插入语句的使用2、简单的查询语句的使用二、更新数据与删除三、实现用户名密码验证四、SQLite检索时间记录五、SQLite提取数据并绘图 ...

99+

2022-11-12
Python使用openpyxl处理Excel文件详情

目录前言1. Excel窗口2. 读取Excel文件3. 写入Excel文件4. 复制Excel文件5. 创建工作表6. 设置单元格字体及颜色7. 数学公式的使用8. 设置单元格宽高...

99+

2022-11-11
利用python做数据拟合详情

目录1、例子：拟合一种函数Func，此处为一个指数函数。2. 例子：拟合一个Gaussian函数3. 用一个lmfit的包来实现2中的Gaussian函数拟合1、例子：拟合一种函数F...

99+

2022-11-12
python与json数据的交互详情

目录一什么是json二 json语法格式三 python与json的交互1. json.loads()2. json.load()3. json.dumps()4. json.du...

99+

2022-11-11
Python数据分析之 Matplotlib 3D图详情

最初我们介绍到 Matplotlib 可以绘制2D图形，并且介绍了一些常见图形的绘制方法，其实不仅可以绘制2D图形，现在较新版本的 Matplotlib 加入了3D绘图的工具包，已经...

99+

2022-11-11
Python调用C++传递numpy数据详情

目录1.C++ 代码2.Python 代码1.C++ 代码 Demo.h #pragma once void GeneratorGaussKernel(int ksize, floa...

99+

2022-11-13
Python如何处理JSON数据详解

目录什么是JSON？JSON作用为什么使用JSONJSON的使用最后什么是JSON？ JSON是一种轻量级的数据交互格式，采用完全独立于编程语言的文本格式来存储和表示数据。和xml相...

99+

2022-11-11
利用Python多处理库处理3D数据详解

今天我们将介绍处理大量数据时非常方便的工具。我不会只告诉您可能在手册中找到的一般信息，而是分享一些我发现的小技巧，例如tqdm与 multiprocessingimap一起使用...

99+

2022-11-12
Python匿名函数详情

目录1、匿名函数2、内置函数使用1、匿名函数在python中，除了一般使用def定义的函数外，还有一种使用lambda定义的匿名函数。这种函数可以用在任何普通函数可以使用的地方，但...

99+

2022-11-12
python中apply函数详情

函数原型： DataFrame.apply(func, axis=0, broadcast=False, raw=False, reduce=None, args=(), **kwd...

99+

2022-11-12
python数据操作之lambda表达式详情

目录1 前言2 lambda 的特性3 lambda 的一些用法3.1 map 函数3.2 reduce 函数3.3 sorted 函数3.4 filter 函数4 总结1 前言在...

99+

2022-11-10
Python中的变量和数据类型详情

python是一门弱数据类型的语言，变量不需要声明即可使用，向变量赋值即定义变量，赋予的值的类型就是变量的类型，但变量也是有数据类型的，字符串'1'如果想参与数据计算...

99+

2022-11-13
MySQL 数据类型详情

目录1、数值类型1.1、数值类型分类1.1.1、浮点数1.1.2、位类型1.1.3、时间日期类型1.1.4、字符串类型1.1.5、ENUM 类型1.1.6、SET类型1、数值类型 1...

99+

2022-11-12
Python文件处理与垃圾回收机制详情

目录01、文件操作1.1、文件操作流程1.2、文件的操作模式1.3、操作文件的方法1.4、主动移动文件内指针移动1.5文件的修改1.6垃圾回收机制01、文件操作文件是操作系统提供给...

99+

2022-11-11
python数据处理—None/NULL/NaN的理解及实际应用情况

文章目录一、python中None、null和NaN1、None2、NaN 二、实际应用1、使用read_sql读取null数据显示NaN2、使用read_csv读取null数据显示为字...

99+

2023-09-26

python pandas 开发语言