IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> Python数据分析期中测试--百货商场案例 -> 正文阅读

[人工智能]Python数据分析期中测试--百货商场案例

作者:recommend-item-box type_blog clearfix

Python数据分析期中测试–百货商场案例, 使用pandas

1 背景介绍

帮同学写了这个作业,花了2个多小时吧,熟悉的人做应该不到半个个小时就好了吧。主要不熟练pandas库,很多东西都要自己查一下API,也是第一次用Jupyter,这个东西真的恶心人,用Pycharm或者Spyder不好吗?调试也不方便。 反正笔者是没有搞懂Jupyter的好处,估计是对非科班的人吧,看一行run一行, 方便找到结果。写本篇博客的目的是回顾一下pandas的基本用法和数据分析思路,以后遇到同类问题找资料比较方便一点,也算是一个查找字典吧。
在这里插入图片描述

2 开始实战

2.1 数据分析期中测试–百货商场案例

import numpy as np
import matplotlib
import matplotlib.pyplot as plt
import pandas as pd
import warnings

%matplotlib inline
plt.rcParams['font.sans-serif'] = 'SimHei'
plt.rcParams['axes.unicode_minus'] = False
matplotlib.rcParams.update({'font.size' : 16})
plt.style.use('ggplot')
warnings.filterwarnings('ignore')

2.2 读取数据

df_cum = pd.read_excel('./cumcm2018c1.xlsx')

2.3 查看数据前10行

df_cum.head()

在这里插入图片描述

2.4 数据探索与预处理

df_cum.shape # 查看行数和列数

df_cum.dtypes # 查看行数和列数

2.5 数据信息概况

df_cum.describe #  统计描述信息

2.6 空值判断

dataFrame = df_cum
dataFrame[pd.isnull(dataFrame["会员卡号"])]  #判断该列是否空值的,并显示
dataFrame[pd.isnull(dataFrame["出生日期"])] # 34188 行为null
dataFrame[pd.isnull(dataFrame["性别"])]     #9435 行为null
dataFrame[pd.isnull(dataFrame["登记时间"])] #12684 为null

2.7 选取空值最多的变量进行空值处理

# "出生日期"列有34188 行为null ,故选择该列

print("处理前",dataFrame.shape)
newDataFrame = dataFrame.dropna(subset = ["出生日期"],how = "any") #直接删除空值
print("处理后",newDataFrame.shape)

在这里插入图片描述

2.8 重复值判断

#return1 = dataFrame["会员卡号"].duplicated()
return1 = dataFrame["会员卡号"].value_counts().count() # 计算非重复值个数。 194754
print(194760-return1) #重复值个数 6
return2 = dataFrame["出生日期"].value_counts().count() # 计算非重复值个数。 194754
print(194760-return2) #重复值个数 176736
return3 = dataFrame["性别"].value_counts().count() # 计算非重复值个数。 194754
print(194760-return3) #重复值个数 194758
return4 = dataFrame["登记时间"].value_counts().count() # 计算非重复值个数。 194754
print(194760-return4) #重复值个数 164391

2.9 选取重复值值最多的变量进行重复值处理

# "性别" 列重复数据最多
print(dataFrame.drop_duplicates(["性别"],keep="last")) #去除某一列的重复数据

3统计性分析

3.1 将性别列进行转换,0表示女,1表示男

# 先删除异常值
dataFrame = df_cum
dataFrame["性别"].dropna()
sexDataFrame = dataFrame["性别"].replace([0,1],["女","男"])

3.2 分析男女比例

sexList = list(sexDataFrame)
print("总人数:",len(sexList))
不可见,付费内容....

在这里插入图片描述

3.3 将年龄划分为老年(1920-1950)、中年(1960-1990)、青年(1990-2010),绘制一个饼图

付费内容
这里代码就不直接给出了,
资料百度网盘分享:有需要联系qq:2256479514                
ps(非诚勿扰):9.9RMB

在这里插入图片描述

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-04-07 22:41:41  更:2022-04-07 22:45:54 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 11:26:31-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码