急求：如何用python删除文本中的重复行？

读取一个txt文本，文本每行一个词组（通常词组至少两个单词），删除文本中的重复行，输出。文本

如图所示。

举报该文章

相关建议推荐于2017-06-13

1.如果你的txt 文件不大的话可以直接
tmp = open('**.txt').readlines() #把内容一次性全部读取出来是一个列表
set(tmp) #这个就是把列表去重复
然后你可以把这个去重后的tmp 写入到新的文件
2.txt很大，那么只能一行一行的读取去重了
#!/usr/bin/env python
# coding=utf-8
# python 2.7
outfile = open('result-readline.txt', 'w') #新的文件
list_1=[]
for line in open('test.txt'):  #老文件
    tmp = line.strip()
    if tmp not in list_1:
        list_1.append(tmp)
        outfile.write(line)
outfile.close()

温馨提示：内容为网友见解，仅供参考

当前网址：https://aolonic.com/aa/agdga51543ag1k43135.html

其他看法

第1个回答 2015-01-26

发这种问题竟然是截图...没调试过，将就着看吧，主要意思就是通过set方法去除重复项

f = open(file, 'r')
ListOfLine = f.read().splitline()
ListOfLine = list(set(ListOfLine))
f.close()
f = open(file, 'w')
f.writelines(ListOfLine)
f.close()

追问

显示不正确

追答

那应该是因为读出来的是一个字符串，你用readline读入数组，然后set一下就行了

第2个回答 2015-01-26

你好：
一般是：
一边读文本文件，一边将行存入数组；
然后对读取的下一行数据，与数组中的数据做对比，
如果重复，就舍弃；；
最后就爱那个数组中的数据写入文件；本回答被网友采纳

急求:如何用python删除文本中的重复行?
1.如果你的txt 文件不大的话可以直接 tmp = open('**.txt').readlines() #把内容一次性全部读取出来是一个列表set(tmp) #这个就是把列表去重复然后你可以把这个去重后的tmp 写入到新的文件2.txt很大，那么只能一行一行的读取去重了#!\/usr\/bin\/env python# coding=utf-8# python 2....

如何快速去除重复值
使用Pandas的drop_duplicates方法去除重复值如果你处理的是复杂的数据结构，例如表格数据，则Pandas库提供了非常方便的函数`drop_duplicates`来去除重复行。这个函数可以保留或者删除重复的行，取决于你设置的参数。使用这个函数，你可以基于一个或多个列来识别重复的行，并且可以选择是否保留重复行中的第一个...

python删除data中完全重复的行
在Python中，我们可以使用DataFrame的drop_duplicates方法来删除完全重复的行。在Python的pandas库中，有一个非常实用的方法叫做drop_duplicates，它能够帮助我们删除DataFrame中完全重复的行。这个方法会返回一个删除了重复行的新DataFrame，不会更改原来的DataFrame。默认情况下，它会考虑所有列，但也可以选择只...

删除data中完全重复的行
如果使用Excel，我们可以选择数据区域，然后在“数据”菜单中选择“删除重复项”，即可删除完全重复的行。如果使用Python pandas，我们可以读取数据集到DataFrame对象，然后调用drop_duplicates()函数来删除完全重复的行。最终，我们会得到一个不包含完全重复行的新数据集：| 列1 | 列2 | 列3 | | --- ...

python如何批量对每一个excel文件进行去重?
01 去重我们使用Pandas库的drop_duplicates(subset=None, keep=‘first’, inplace=False)功能来对Excel文件中的重复项进行删除。其中，subset参数代表指定列标记，默认当每一条行记录完全相同时，才会认定为重复行；keep=‘’有‘first’、‘last’和‘False’，意思是删除重复行时，保留first还是last...

删除data中完全重复的行,直接在原数据上删除
'A': [1, 2, 2, 3, 4, 4, 4],'B': [5, 6, 6, 7, 8, 8, 9]} df = pd.DataFrame(data)使用drop_duplicates()函数删除重复的行：python df.drop_duplicates(inplace=True)这样，df中重复的行就会被删除。需要注意的是，inplace=True表示直接在原数据上进行修改。如果想要保留原始...

python如何合并多个txt文件删除所有重复行并生成新文件
打开cmd, 进入到这个放了多个txt的文件夹, 运行命令copy *.txt all.txt 在该文件夹下创建一个python脚本 1.py, 将下列代码复制进去 coding=utf-8# using python27file_path = 'all.txt'with open(file_path, 'r') as f: card_informations = map(lambda x: x.strip().split('\\t')...

基于simhash的文本去重原理
1. **分词**：将文本分割成关键词特征向量。分词方法多样，可选择TF-IDF值作为权重，剔除停用词和噪声词，形成关键词序列。2. **哈希和权重化**：对每个关键词进行哈希运算，获取二值化哈希结果。乘以权重后累加，进行二值化处理，得到特征字。3. **汉明距离**：计算两个特征字的汉明距离，当距离...

Python--pandas删除操作
Python的pandas库在数据清洗过程中扮演着重要角色，本文主要探讨其DataFrame中的一系列删除操作，包括行删除、列删除、处理缺失值和重复值。在这些操作中，inplace参数是一个关键，其默认为False，表示处理后的结果返回新数据框，若设置为True，将直接替换原有数据，返回None。首先，pandas的drop方法用于删除...

python数据清洗---简单处理(重复值,异常值,缺失值,合并单元格)_百度...
在Python数据清洗过程中，需要关注列名操作、重复值处理、异常值管理、缺失值处理以及合并单元格等问题。首先，对于列名操作，若发现列名中有空格、换行符等不规范字符，需要替换相应数据（使用replace方法）。接着，处理重复值。使用DataFrame的drop_duplicates方法检查并移除重复数据。注意，仅在需要去重某列时...

相似回答

大家正在搜