最近做机器学习的项目,汇总一下用得比较多的数据清洗方法,主要有:重新命名列名、去除空值、去除0值(或负值) 1.重新命名列名 平时读数据的时候,原始数据总是有各种乱七八糟的命名,可以通过命名便于理解 第一种方法:直接按顺序修改,替换掉原始的columns
df=pd.read_csv(r'E:\00learning\01Python\机器学习\04SVR\train_data.csv')
df.columns=['I','F']
第二种方法: 使用.rename()函数
df.rename(columns={'我是原始名字':'我是新名字'})
2.去除空值 数据集中,一般情况下,一个样本的特征值都是一 一对应的,那么删掉含有空值的数据,直接就要删掉整行了,也就是删掉了这个样本的数据。 使用.dropna()函数: axis=0代表删除含有空值的行 axis=1代表删除含有空值的列 how='any’代表只要有空值就删掉 上代码:
df.dropna(axis=0,how='any')
3.去除0值 这里直接使用判断语句,其实可以直接去掉负值、0值,或者自选一个范围都可以 上代码:
df=df[df['I']>5]
df=df[df['F']>5]
|