读取数据
CSV
data_frame=pd.read_csv('test.csv',header=None,names=["",""])
参数:
- flie path:不带路径可用‘’,带路径注意对/进行转换,使用"",或r’’
- header:列名,默认是第一行,None表示不使用第一行
- names:自定义列名
合并两个dataframe
dataframe_combined=pd.concat([df1,df2,df3],axis=0)
缺失值
print(df.isna())
print(df.loc[df["any_column_name"].isna(),:])
df.dropna(axis=0,how='any',inplace=True)
变量因子化(as.factor in R)
df["grade"] = df["raw_grade"].astype("category")
df["grade"].cat.categories
df["grade"].cat.categories=["a","b","c"]
分组处理
dataframe_grouped=dataframe.groupby("group_factor")
dataframe_grouped.get_group("group_name")
for name,group in dataframe_grouped:
print(name)
print(group)
dataframe.drop(data_frame_grouped.get_group(name).index)
|