广告
返回顶部
首页 > 资讯 > 后端开发 > Python >Python文本去重
  • 864
分享到

Python文本去重

文本Python 2023-01-31 07:01:01 864人浏览 独家记忆

Python 官方文档:入门教程 => 点击学习

摘要

用法:命令行python unique.py -f file.txt 输出:去除重复字符后的output.txt # -*- coding:utf-8 -*- #auther_cclarence_2016_4_6 #open f

用法:命令行python unique.py -f file.txt
输出:去除重复字符后的output.txt

# -*- coding:utf-8 -*-
#auther_cclarence_2016_4_6
#open file and read out the characters
from optparse import OptionParser
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
def readfile(filename):
    try:
        f = open(filename)
    except Exception, e:
        print "No such file"
        exit(0)
    text = f.readlines()
    f.close()
    for i in range(0,len(text)-1):
        text[i] = text[i][:-1]
    return text
#deduplication
def unique(arr):
    arr1 = list(set(arr))
    arr1.sort(key = arr.index)
    return arr1
def main():
    parser = OptionParser()
    parser.add_option("-f", "--file", dest="filename",help="write report to FILE", metavar="FILE")
    (options, args) = parser.parse_args()
    filename = options.filename
    text = readfile(filename)
    text_dealed = unique(text)
    for i in range(0,len(text_dealed)-1):
        text_dealed[i] = text_dealed[i] +'\n'
    f = open("output.txt","w")
    f.writelines(text_dealed)
    f.close()
    deduplication_num = len(text) - len(text_dealed) 
    print "success"
    print "The num of data from the source file        :" + str(len(text))
    print "The num of data from the preprocessed file: :" + str(len(text_dealed))
    print "The num of data removed                     :" + str(deduplication_num)
if __name__ == '__main__':
    main()

--结束END--

本文标题: Python文本去重

本文链接: https://www.lsjlt.com/news/190766.html(转载时请注明来源链接)

有问题或投稿请发送至: 邮箱/279061341@qq.com    QQ/279061341

本篇文章演示代码以及资料文档资料下载

下载Word文档到电脑,方便收藏和打印~

下载Word文档
猜你喜欢
  • Python文本去重
    用法:命令行python unique.py -f file.txt 输出:去除重复字符后的output.txt # -*- coding:utf-8 -*- #auther_cclarence_2016_4_6 #open f...
    99+
    2023-01-31
    文本 Python
  • python实现文本去重且不打乱原本顺序
    代码也是在网上找的,效率挺不错的,特别适合字典文件的去重 #coding=utf-8 import sys def open_txt(): #打开TXT文本写入数组 try: xxx = file(sy...
    99+
    2022-06-04
    顺序 文本 python
  • Python做文本按行去重的实现方法
    文本: 每行在promotion后面包含一些数字,如果这些数字是相同的,则认为是相同的行,对于相同的行,只保留一行。 思路: 根据字典和字符串切割。 建立一个空字典。 读入文本,并对每行切割前半部分,在读入...
    99+
    2022-06-04
    行去 文本 方法
  • 如何实现Python文件去重
    这篇文章将为大家详细讲解有关如何实现Python文件去重,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。代码ing导出的文件都是保存在同一文件夹下的,格式也相同。然后,上网查了下 filecmp.cmp()...
    99+
    2023-06-20
  • Shell中怎么实现文本去重操作
    这期内容当中小编将会给大家带来有关Shell中怎么实现文本去重操作,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。代码如下:ccccaaaabbbbddddbbbbccccaaaa现在需要对它进行去重处理,...
    99+
    2023-06-09
  • php如何去除文本中的重复值
    这篇文章主要讲解了“php如何去除文本中的重复值”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“php如何去除文本中的重复值”吧!一、PHP中去除数组中的重复值在PHP中,可以使用array_...
    99+
    2023-07-05
  • JAVA 如何实现大文本去除重复行
    这期内容当中小编将会给大家带来有关JAVA 如何实现大文本去除重复行,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。去重复行,用SQL写很简单,就一句SELECT DISTINCT … FROM。但...
    99+
    2023-06-03
  • Python怎么实现文件自动去重
    这篇文章主要介绍Python怎么实现文件自动去重,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!Python 文件自动去重平日里一来无聊,二来手巧,果然下载了好多无(luan)比(qi)珍(ba)贵(zao)的资料,搞...
    99+
    2023-06-15
  • 8行代码实现Python文件去重
    目录需求描述撸代码ing需求描述 上周突然接到一个任务,要通过XX网站导出XX年-XX年之间的数据,导出后的文件名就是对应日期,导出后发现,竟然有的文件大小是一样,但文件名又没有重复...
    99+
    2022-11-12
  • Python 如何实现文件自动去重
    Python 文件自动去重 平日里一来无聊,二来手巧,果然下载了好多无(luan)比(qi)珍(ba)贵(zao)的资料,搞得我小小的硬盘(已经扩到6T了)捉襟见肘, 有次无意间,发...
    99+
    2022-11-12
  • Python入门:文件内容去重操作
    +++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++   学习是一种态度,只要你有态度,学习将...
    99+
    2023-01-31
    入门 操作 文件
  • Shell实现文本去重并操持原有顺序
    简单来说,这个技巧对应的是如下一种场景 假设有文本如下 cccc aaaa bbbb dddd bbbb cccc aaaa 现在需要对它进行去重处理,这个很简单,sort -u就可以搞定,...
    99+
    2022-06-04
    顺序 文本 Shell
  • python如何实现MD5进行文件去重
    本篇内容主要讲解“python如何实现MD5进行文件去重”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“python如何实现MD5进行文件去重”吧!目录前言工作原理代码前言工作中偶尔会遇到文件去重...
    99+
    2023-06-20
  • python 去除重复行
    from pandas import read_csv; df = read_csv('D://PA//4.3//data.csv') newDF = df.drop_duplicates(); ...
    99+
    2023-01-31
    python
  • 大数据中文本怎么按行去除重复值
    这篇文章跟大家分析一下“大数据中文本怎么按行去除重复值”。内容详细易懂,对“大数据中文本怎么按行去除重复值”感兴趣的朋友可以跟着小编的思路慢慢深入来阅读一下,希望阅读后能够对大家有所帮助。下面跟着小编一起深入学习“大数据中文本怎么按行去除重...
    99+
    2023-06-03
  • 用python删除文件夹中的重复图片(图片去重)
    目录第一部分:判断两张图片是否相同第二部分:判断文件夹内是否有重复图片第三部分:程序运行结果第四部分:注意第一部分:判断两张图片是否相同 要查找重复的图片,必然绕不开判断两张图片是否相同。判断两张图片简单呀!图片可以...
    99+
    2022-06-02
    python 删除重复 python 删除图片 python 图片去重
  • python的list去除重复
    我直接上脚本:方法1:#!/usr/bin/env python n = [1,2,3,3,4,3,1,2,3,2,1,4,5,5,5,5,6,6,4,3,2,1,2,6,8,2] m = [] for x in n:     if x ...
    99+
    2023-01-31
    python list
  • Python 列表简单去重
    列表最简单的去重方式list1 = [10, 5, 1, 1, 3, 3, 3, 6, 6, 6] print(set(list1)) print(list((set(list1)))) #不排序 print(sorted(set(lis...
    99+
    2023-01-31
    简单 列表 Python
  • 基于Python制作一个文件去重小工具
    目录前言实现步骤补充前言 常常在下载网络素材时有很多的重复文件乱七八糟的,于是想实现一个去重的操作。 主要实现思路就是遍历出某个文件夹包括其子文件夹下面的所有文件,最后,将所有文件...
    99+
    2022-11-13
  • Python算法题----列表去重
    有这样一个列表[1, 1, 1, 2, 3, 3, 2, 4, 3, 4, 5, 5, 5, 6, 7, 8, 9, 9, 9, 9, 10, 10], 写一个函数,将其重复元素去除。这道题,方法很多的有没有。下面就演示一下茴香豆的四种写法...
    99+
    2023-01-31
    算法 列表 Python
软考高级职称资格查询
编程网,编程工程师的家园,是目前国内优秀的开源技术社区之一,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作