IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> pandas使用笔记(一)导入查看读取数据 -> 正文阅读

[人工智能]pandas使用笔记(一)导入查看读取数据

pandas 预设

# 安装
pip install pandas pytables

# 导入
import pandas as pd

# 常用预设
# 下面两行命令均可显示数据的全部行
pd.set_option('display.max_rows', None)
# pd.options.display.max_rows = None

# 下面两行命令均可显示数据的全部列
pd.set_option('expand_frame_repr', False)
# pd.options.display.max_columns = None

# 显示数据的精度(保留小数点后第几位), 不会影响数据实际存储的值
pd.set_option('precision', 2)

pandas 导入和查看数据(DataFrame)

导入数据

这里以Excel数据为例, CSV,HDF等格式可以类似得到(具体请参考官方文档)

# 下列命令表示读取'test.xlsx'工作簿中的'Sheet 1'工作表
# 跳过第一行进行读取, 将列名设为第一行, 索引(行名)设为第一列(也可以使用列名, 如['date'])
# 设定编码为UTF-8(一般不乱码的话不需要设置), 设置将字符串转换为日期格式
df = pd.read_excel('test.xlsx', 
                   sheet_name="sheet 1", 
                   header=0, 
                   skiprows=1, 
                   index_col=0,
                   encoding='utf8', 
                   parse_dates=['date'],
                   )

查看

# 查看dataframe前5行
df.head(5)
# 查看后5行
df.tail(5)
# 查看3个样本(随机抽样), 固定比例则需要使用`frac=0.5`参数,表示抽取50%的数据
df.sample(3)
# 数据描述, 包含:行数,均值,标准差,最值,25,50,75分位数
df.describe()

DataFrame数据选取

生成测试数据

import numpy as np
arr = np.array([
  ["jack",78,10],
  ["lili",86,0],
  ["amy",97,20],
  ["tom",100,30]
])

df = pd.DataFrame(arr,index=["1","2","3","4"],columns=["a","b",'c'])

print(df)
"""
a	b	c
1	jack	78	10
2	lili	86	0
3	amy	97	20
4	tom	100	30
"""

按列名选取


# 此时选出的数据仍为DataFrame类型, 可以同时选出多个列
df[['a']]
# 此时选出的数据为Series类型
df['a']

# .loc()方法进行选取(通过列名进行数据选取)
df.loc[:, 'a']
"""
1    jack
2    lili
3     amy
4     tom
Name: a, dtype: object
"""

# 选取第a,c列
df.loc[:, ['a','c']]
"""
	a	c
1	jack	10
2	lili	0
3	amy	20
4	tom	30
"""

# 范围选取
df.loc[:, 'a':'c']
"""
	a	b	c
1	jack	78	10
2	lili	86	0
3	amy	97	20
4	tom	100	30
"""

按行名选取


df.loc['1'] # 选取第一行, 为Series类型数据
"""
a    jack
b      78
c      10
Name: 1, dtype: object
"""

df.loc[['1','3']] # 选取第1,3行
'''
a	b	c
1	jack	78	10
3	amy	97	20
'''

df.loc['1': '3'] # 选取1到3行(范围选取)
"""
	a	b	c
1	jack	78	10
2	lili	86	0
3	amy	97	20
"""

按行号列号进行读取

# 使用.iloc()操作
df.iloc[0] # 第1行
df.iloc[:, 1] # 第2列
df.iloc[0:2, 0:2] # 第1,2行, 第1,2列
df.iat[1,2] # 第2行第3列元素

任意读取

# 读取所有行和列
df.loc[:]
# 等价于 df[:]

"""
a	b	c
1	jack	78	10
2	lili	86	0
3	amy	97	20
4	tom	100	30
"""

# 读取指定某个元素, .at()方法效率更高
df.at['1','a']
# 等价于df.loc['1','a']
""" 
'jack'
"""
  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-09-22 14:41:05  更:2021-09-22 14:42:28 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 12:52:02-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码