python 模仿excel中的‘删除重复项’功能,根据某行删除二维数组的重复项
数据处理时,有时需要删除重复的数据。 excel有个功能叫“删除重复项”。步骤如下:①点击“数据”;②点击“数据工具栏”里的“删除重复值”;③选择要删除重复值的列;④点击“确定”。 python 是否也可以实现根据某列的重复值,来删除重复行的功能,且不想先把数组转化成Frame格式,然后使用‘panda’库里的‘drop_duplicates’函数来操作。 答案是:可以滴! 方法如下: eg:删除第二列的重复值所在的行 ①实现导入数据
data = [['a',1,2,3],['b',5,5,6],['b',4,5,6],['c',4,7,8]]
print(data)
out:
['a', 1, 2, 3]
['b', 5, 5, 6]
['b', 4, 5, 6]
['c', 4, 5, 6]
②使用for语句实现逐行检测,使用if not in 排除重复值所在行,并把新的数组赋值给一个新变量。 其中:row 为查找第几列重复值,data1为排查重复值数据,data_new剔除重复值后的新数组
row = 1
data1 = []
data_new = []
for i in range(len(data)):
if data[i][1] not in data1:
data1.append(data[i][1])
data_new.append(data[i][:])
输出结果:
print(data_new)
['a', 1, 2, 3]
['b', 5, 5, 6]
['b', 4, 5, 6]
实现了删除第二列的重复值所在行的功能
|