1、读取数据
'''
常用的读取数据函数
'''
import pandas as pd
'''
./ 代表当前目录,当前目录也可以什么都不写,直接寻找当前目录的文件
比如:./data/ 和 data/ 都代表当前目录下的data文件夹下的文件
../ 代表上一级目录
/ 代表根目录
Linux系统里面会用到根目录
~ 代表当前用户目录
比如Windows用户Dongze代表的就是'C:\\Users\\Dongz'
'''
data = pd.read_csv("数据目录/xxx.csv")
pd.read_csv("http://localhost/xxx.csv")
data = pd.read_excel("数据目录/xxx.xlsx")
如果数据过多,编译器会省略中间部分数据,如下图所示: 我们可以设置dataframe显示中间忽略的数据
'''
设置dataframe显示数据
'''
pd.set_option('display.max_rows',None)
pd.set_option('display.max_columns',None)
pd.set_option('max_colwidth',200)
pd.set_option('expand_frame_repr', False)
这样就会显示出所有数据 **
2、官网提供的读取文件和写入文件的API
官网提供的read_csv函数参数详解 https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html
pandas.read_csv(
filepath_or_buffer,
sep=NoDefault.no_default,
delimiter=None,
header='infer',
names=NoDefault.no_default,
index_col=None,
usecols=None,
squeeze=False,
prefix=NoDefault.no_default,
mangle_dupe_cols=True,
dtype=None,
engine=None,
converters=None,
true_values=None,
false_values=None,
skipinitialspace=False,
skiprows=None,
skipfooter=0,
nrows=None,
na_values=None,
keep_default_na=True,
na_filter=True,
verbose=False,
skip_blank_lines=True,
parse_dates=False,
infer_datetime_format=False,
keep_date_col=False,
date_parser=None,
dayfirst=False,
cache_dates=True,
iterator=False,
chunksize=None,
compression='infer',
thousands=None,
decimal='.',
lineterminator=None,
quotechar='"',
quoting=0,
doublequote=True,
escapechar=None,
comment=None,
encoding=None,
encoding_errors='strict',
dialect=None,
error_bad_lines=None,
warn_bad_lines=None,
on_bad_lines=None,
delim_whitespace=False,
low_memory=True,
memory_map=False,
float_precision=None,
storage_options=None)
**
read_pickle(filepath_or_buffer[, ...])
DataFrame.to_pickle(path[, compression, ...])
read_table(filepath_or_buffer[, sep, ...])
read_csv(filepath_or_buffer[, sep, ...])
DataFrame.to_csv([path_or_buf, sep, na_rep, ...])
read_fwf(filepath_or_buffer[, colspecs, ...])
read_clipboard([sep])
DataFrame.to_clipboard([excel, sep])
read_excel(io[, sheet_name, header, names, ...])
DataFrame.to_excel(excel_writer[, ...])
ExcelFile.parse([sheet_name, header, names, ...])
Styler.to_excel(excel_writer[, sheet_name, ...])
ExcelWriter(path[, engine, date_format, ...])
read_json([path_or_buf, orient, typ, dtype, ...])
to_json(path_or_buf, obj[, orient, ...])
build_table_schema(data[, index, ...])
read_html(io[, match, flavor, header, ...])
DataFrame.to_html([buf, columns, col_space, ...])
Styler.to_html([buf, table_uuid, ...])
read_xml(path_or_buffer[, xpath, ...])
DataFrame.to_xml([path_or_buffer, index, ...])
DataFrame.to_latex([buf, columns, ...])
Styler.to_latex([buf, column_format, ...])
HDFStore: PyTables (HDF5)
read_hdf(path_or_buf[, key, mode, errors, ...])
HDFStore.put(key, value[, format, index, ...])
HDFStore.append(key, value[, format, axes, ...])
HDFStore.get(key)
HDFStore.select(key[, where, start, stop, ...])
HDFStore.info()
HDFStore.keys([include])
HDFStore.groups()
HDFStore.walk([where])
|