CSV 文件处理
创建数据
import os
os.makedirs(os.path.join(".","data"),exist_ok=True)
data_file = os.path.join(".","data","house_tiny.csv")
with open(data_file,"w") as f:
f.write("NumRoos,Alley,Proces\n")
f.write("NA,Pave,12700\n")
f.write("2,NA,10789\n")
f.write("4,NA,187654\n")
f.write("NA,NA,140000\n")
读取数据:
import pandas as pd
data = pd.read_csv(data_file)
print(data)
输出:
NumRoos Alley Proces
0 NaN Pave 12700
1 2.0 NaN 10789
2 4.0 NaN 187654
3 NaN NaN 140000
为了处理缺失的数据,典型的方法包括插值法和删除法, 其中插值法用一个替代值弥补缺失值,而删除法则直接忽略缺失值。 在这里,我们将考虑插值法。 通过位置索引 iloc ,我们将 data 分成 inputs 和 outputs , 其中前者
|