在进行数据分析时,经常需要按照一定条件创建新的数据列,然后进行进一步分析。
这里介绍四种方法:
- ?直接赋值
- ?df.apply方法
- ?df.assign方法
- ?按条件选择分组分别赋值
直接赋值的方法
#首先创建一个DataFrame
import numpy as np
import pandas as pd
s1 = np.arange(1,10).reshape(3,3)
df1 = pd.DataFrame(s1)
获得如下dataframe
直接赋值新增列的方法(使用.loc):
df1.loc[:,'new_col'] = df1[0] + df1[1]
#df1[0]返回的是一个Series,这个加法返回的结果也是一个Series,然后赋给新列'new_col'
#加法是根据两个Series对应的index的值相加的
df.apply方法
Apply a function along an axis of the DataFrame.
Objects passed to the function are Series objects whose index is either the DataFrame's index
(axis = 0) or the?DataFrame's columns(axis = 1).
实例:添加一列新数据
- df1[0]为1,则生成A;为4,则生成B;为7,则生成C
#首先定义一个判断函数,再传入df.apply内(这里也可以使用lambda)
def mp(df):
if df[0] == 1:
return 'A'
if df[0] == 4:
return 'B'
if df[0] == 7:
return 'C'
#这里注意需要设置axis = 1
df1.loc[:,'new_col_2'] = df1.apply(mp,axis = 1)
得到如下结果:
这里介绍一个小知识点,查看各种类型的计数,看是否新列添加成功
df1['new_col_2'].value_counts()
?df.assign方法
Assign new columns to a DataFrame.
Return a new object with all original columns in addition to new ones.
该方法可以同时添加多个新的列,但它不会修改源对象,会生成一个新的对象
df1.assign(
'new_col_3' = lambda x : x[0] + x[1],
'new_col_4' = lambda x : x[0] - x[1])
按条件选择分组分别赋值
#首先创建一个新列,值为空
df1['new'] = ''
#这里运用了Pandas的广播机制,df1['new']是一个Series,但是让它等于单个值,pandas就会把这个值复制到每一行
#然后进行条件赋值
df1.loc[df1[0] - df1[1] > 0,'new'] = '正数'
df1.loc[df1[0] - df1[1] < 0,'new'] = '负数'
|