广告
返回顶部
首页 > 资讯 > 后端开发 > Python >2019-01-28 [日常]Beyon
  • 638
分享到

2019-01-28 [日常]Beyon

日常Beyon 2023-01-30 23:01:37 638人浏览 独家记忆

Python 官方文档:入门教程 => 点击学习

摘要

看了一个Beyond的纪录片, 提到这个. 觉得心有不甘, 于是搜集了24首歌词, 用python做了简单分词和词频统计. 源码(包括歌词)在: program-in-chinese/study 统计了总出现次数(词频列表)和词出现在歌曲

看了一个Beyond的纪录片, 提到这个. 觉得心有不甘, 于是搜集了24首歌词, 用python做了简单分词和词频统计.

源码(包括歌词)在: program-in-chinese/study

统计了总出现次数(词频列表)和词出现在歌曲的数目(词所在文件数列表). 前者算进了所有重复歌词, 后者是算某个词出现在了几首歌中.

源码:

import jieba
import os

所有词 = []
词频表 = {}
词所在文件 = {}
词所在文件数 = {}
路径 = "数据"
for 文件名 in os.listdir(路径):
    print(文件名)
    with open(os.path.join(路径, 文件名)) as 文件:
        内容 = 文件.read()
        分词结果 = jieba.cut(内容)
        for 词 in 分词结果:
            if 词 != " " and len(词) != 1:
                所有词.append(词)
                if 词 in 词频表:
                    词频表[词] += 1
                    词所在文件[词].add(文件名)
                else:
                    词频表[词] = 1
                    词所在文件[词] = set([文件名])

for 词 in 词所在文件:
    词所在文件数[词] = len(词所在文件[词])

# 词频列表 = sorted(词频表.items(), key=lambda d: d[1], reverse=True)
词所在文件数列表 = sorted(词所在文件数.items(), key=lambda d: d[1], reverse=True)
print(词所在文件数列表)

前者的最高频几个中文词(完整的在"所有词频输出.txt"):

('多少', 22), ('一生', 21), ('多么', 20), ('理想', 19), ('没有', 19), ('一天', 19), ('Woo', 18), ('今天', 18), ('心中', 16), ('一起', 16), ('OH', 16), ('唏嘘', 15), ('彼此', 14)

后者的前几位(完整的在"所在文件数.txt"):

('多少', 9), ('心中', 8), ('没有', 8), ('一切', 8), ('理想', 7), ('Woo', 7), ('一生', 7), ('今天', 7), ('唏嘘', 6), ('拥有', 6), ('可否', 5), ('多么', 5), ('风雨', 5), ('感觉', 5), ('天空', 5), ('心里', 5), ('岁月', 5)

至少这几首经典里, "理想"比"唏嘘"更多.


觉得如果有个IDE插件能把一些常用的Python操作集合起来, 如果组织得好, 会挺有用. 因为写这个例子里, 包括取目录下的文件, 读取文本文件, 字典排序等等, 自己的第一反应还是到处找现成代码黏贴.

--结束END--

本文标题: 2019-01-28 [日常]Beyon

本文链接: https://www.lsjlt.com/news/181383.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • 2019-01-28 [日常]Beyon
    看了一个Beyond的纪录片, 提到这个. 觉得心有不甘, 于是搜集了24首歌词, 用Python做了简单分词和词频统计. 源码(包括歌词)在: program-in-chinese/study 统计了总出现次数(词频列表)和词出现在歌曲...
    99+
    2023-01-30
    日常 Beyon
  • MongoDB日常运维-01常用命令汇总
    MongoDB常用命令汇总(一) ---增,删,改,查 一:增(insert) 二:删(delete) 三:改(update) 四:查(select)  ---连接数...
    99+
    2022-10-18
  • Java日常练习题,每天进步一点点(28)
    目录1、为AB类的一个无形式参数无返回值的方法method书写方法头,可以用AB.method()方式调用,该方法头的形式为( )。2、以下类定义中的错误是什么?()3、请问以下代码...
    99+
    2022-11-12
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作