IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> Python知识库 -> 动手学习数据分析打卡第一天 -> 正文阅读

[Python知识库]动手学习数据分析打卡第一天

目录

Pycharm的安装即环境配置

数据分析学习

保存数据


Pycharm的安装即环境配置

首先到官网下载pycharm,http://www.jetbrains.com/pycharm/download/#section=windows

?选择Community(社区版),下载

双击.exe文件后,选择目录时建议改为D盘、E盘等

在查阅一番资料后了解到,这里安装时不建议选择.py,因为后续会出现关联,打开.java文件时会用pycharm默认打开。

?接下来点击Install,出现安装界面。

如果之前没有下载有Python解释器的话,需要下载python解释器,不然pycharm只是一个虚壳。进入python官方网站: https://www.python.org/.

选择需要的python版本号,点击Download,我选择的是python3.8.6-executable可执行版。

注释:64代表64位,executable表示可执行版,下载得到exe文件进行程序安装

?剩余具体安装步骤请参考网上其他博客学习,这里不做多与赘述

本次组队学习需要用到的是python中的两个库numpy和pandas进行后续的数据分析学习,pycharm安装好后由于一系列因素在pycharm中我的numpy和panadas无法进行import操作,于是下载安装了另外一款操作简单的软件anaconda

anaconda安装链接:https://www.anaconda.com/

安装好的界面如下,可以选择安装自己需要的库

安装好以后打开JupyterLab

数据分析学习

1.pd.read_csv()和pd.read_table()的不同

通过上图我们可以看出,用pd.read_table()加载数据时,数据的间隔变得紧凑,查阅资料后得知,这是因为它们的默认切割符号不一样,read_table默认是'\t'(也就是tab)切割数据集的;而read_csv默认是','(也就是逗号)切割数据集的;

2.使pd.read_table()达到和pd.read_csv()同样的效果

?给出sep=‘,’即可

3. .tsv和.csv格式文件的区别及Python处理

TSV:tab separated values;即“制表符分隔值”,如:

name age
张三 15
李四 16

?CSV: comma separated values;即“逗号分隔值”,如:

name,age
张三,15
李四,16

说白了,TSV文件和CSV的文件的区别是:前者使用\t作为分隔符,后者使用,作为分隔符。

4.每1000行为一个数据模块,逐块读取

chunker = pd.read_csv('train.csv', chunksize=1000)
for chunker in df:
 print(chunker)

执行结果如下

理解:逐块读取用于数据量大时,可以较为整体地了解数据的情况,暂时忽略其内部的具体构成,可以对数据有一个大体的判断。

5.将表头改成中文,索引改为乘客ID [对于某些英文资料,我们可以通过翻译来更直观的熟悉我们的数据]

df = pd.read_csv('train.csv', names=['乘客ID','是否幸存','仓位等级','姓名','性别','年龄','兄弟姐妹个数','父母子女个数','船票信息','票价','客舱','登船港口'],index_col='乘客ID',header=0)
df.head()

?6.观察数据

  • 查看数据的基本信息,有多少行多少列等
  • df.info
  • 观察前15行数据和后10行数据
  • df.head(15)
    df.tail(10)
    
  • 查看数据的基本信息
    df.head(n) 查看DataFrame对象的前n行
    df.tail(n) 查看DataFrame对象的最后n行
    df.info() 查看索引、数据类型和内存信息
    df.unique() 快速查看数据列有哪些分类内容,
    df.sum() 返回所有列的求和值
    df.mean() 返回所有列的均值
    df.corr() 返回列与列之间的相关系数
    df.count() 返回每一列中的非空值的个数
    df.max() 返回每一列的最大值
    df.min 返回每一列的最小值
    df.median() 返回每一列的中位数
    df.std() 返回每一列的标准差
  • 判断数据是否为空,为空的地方返回True,其余地方返回False
  • df.isnull().head()

    保存数据

  • df.to_csv('train_chinese.csv')
  Python知识库 最新文章
Python中String模块
【Python】 14-CVS文件操作
python的panda库读写文件
使用Nordic的nrf52840实现蓝牙DFU过程
【Python学习记录】numpy数组用法整理
Python学习笔记
python字符串和列表
python如何从txt文件中解析出有效的数据
Python编程从入门到实践自学/3.1-3.2
python变量
上一篇文章      下一篇文章      查看所有文章
加:2021-08-18 12:39:58  更:2021-08-18 12:41:38 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 -2024/12/26 11:35:05-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码
数据统计