具体可参考pandas官方文档
1.使用pandas库载入表格数据 首先数据路径存在两种情况,一种是相对路径(ps:就是相对当前代码文件的路径位置);一种是绝对路径(ps:即在整个盘下的位置,绝对路径可以通过os.getcwd()方法来获取) 路径中使用单/或者双\
相对路径 绝对路径
C:/Users/Administrator/Documents/kaggle_data/test.csv
而pandas读取文本的方法有两种:pd.read_cv(),pd.read_table() 两者存在的区别就是前者一次是读取文本中的每一个数据,其中读取数据的依据是分隔符,默认逗号,而后者读取的是表格中的每一行数据,即“\t”
参考 Pandas读取文件(read_csv与read_table 的区别)
如果要使得两者输出相同的形式,就将两者的分割符都设置成逗号,或者都换成换行符号
import os
path = os.getcwd()
file_test = pd.read_csv('C:/Users/Administrator/Documents/kaggle_data/test.csv')
file_test1 = pd.read_table('../Documents/kaggle_data/test.csv')
print(path)
print(file_test)
print(file_test1)
file_test1.head(3)
参考 pd.read.table()读取数据文件 Pandas csv读写文件
tsv文件指的是以“\t”进行分隔数据,而csv’文件则是逗号分隔数据,前者的加载可以使用pd.read_csv()方法 TSV文件与CSV文件的不同
2.逐块读取数据
chunker = pd.read_csv(".\\kaggle_data\\train.csv",chunksize=100)
for piece in chunker:
print(type(piece))
print(piece)
这里的chunker指的是步长,其中piece的数据类型为DataFrame,而逐块读取就是将数据进行划分,每次处理chunker大小的数据量,可以防止内存太小,没办法完全将整个文本中的存储下去
参考pandas逐块读取文件
3.查看数据的基本类型
file.info()
file.dtypes
file_train.describe()
具体可参考 pandas 查看数据的基本信息 DataFrame 篇
4.判断数据是否为空,为空的地方返回True,其余地方返回False
file_train.isnull().head()
如果判断为空,返回False,则使用
file_train.notnull().head()
将修改数据进行保存
file_tr.to_csv('.\\kaggle_data\\train_chinese.csv',encoding='utf-8')
|