IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 刷B站学数分|如何做数据分析项目 -> 正文阅读

[人工智能]刷B站学数分|如何做数据分析项目

开个系列《刷B站学数分》,总结整理B站上优质的数据分析资源~


0 参考资料


1 数据分析项目流程

1.1 明确项目背景和需求

  • 常见误区:一拿到项目就想着怎么建模,而未明确实际需求是什么,这样容易“做着做着不知道自己在做什么”
  • 明确实际需求,后续环节都按照主线走

1.2 数据集摸底(EDA)

  • 常用python可视化工具
  • 数据集多大、多少变量,结合项目背景看变量含义
  • 数据分布,eg 分类型变量 有多少取值、占多少比例;eg 时间变量 是否有趋势
  • 明确预测标的,eg 是离散 or 连续变量,决定后续模型选择分类 or 回归

1.3 数据清洗

(1)挑选搭建模型会使用到的有效变量,组建新的数据集

  • 只是初步筛选,后续建模时候还会剔除变量,或进行特征工程构造新变量
  • 这步主要基于已有知识判断,eg 贷款预测 挑选购房信息,而微信步数可能就是无关变量

(2)缺失值处理

  • 本身数据量大:可用dropna函数把所有缺失值清理掉
  • 本身数据量不大:用fillna函数进行填充
    • eg 平均数、众数、中位数
    • 推荐中位数、众数进行填充,因为不太受异常值影响

(3)异常值处理

  • 如何定义异常值?
    • IQR定义:异常值通常被定义为小于QL-1.5IQR或大于QU+1.5IQR的值
      • 实际工作中,1/4和3/4以外的数据都可以归为异常值,之间这一段都属于正常数值
    • z分数:一般低于-3或高于3异常

1.4 模型搭建

  • 常用工具:python sklearn 包

(1)数据集划分

  • 划分训练集、测试集
  • 划分比例:训练集vs测试集 = 8:2 或7:3
  • 常用函数:sklearn中 train_test_split()

(2)模型选择

  • 根据目的选择合适的模型,eg 分类 or 回归
  • 不用太纠结模型方法,都可以尝试使用,最终决定模型精度的更在于变量的选择、参数的调整

(3)模型拟合

  • 把训练集数据带入模型,训练模型,得到模型框架

(4)模型预测

  • 把测试集数据放到模型中,进行预测

(5)模型评估

  • 分类型预测
    • 常用混淆矩阵confusion matrix,判断precision、recall、f1-score
    • 回归
      常用平均绝对误差 MAE(mean absolute error)

(6)超参数调整

  • 调参,进一步提高模型准确性
  • 根据具体的算法,调参
    • eg 随机森林:选择多少决策树、每个决策树节点数量、每棵树的最大深度……

1.5 回到项目进行发散

  • 数据分析画龙点睛之笔,发散后的结论才是面试官感兴趣的结论
  • 技巧:一直反问自己“然后呢?”,直到问不出问题
    通过不断反问,输出基于预测结果,而对实际场景产生帮助的有价值的结论
  • 把观点放到简历上,就能体现出是有价值的项目
  • eg 贷款申请数据分析项目
    • 我最后预测出了每个user id所对应的违约概率是多少,预测模型的精度达到85%,auc值达到0.87。
    • 然后呢?
    • 然后我发现,违约概率比较高的人,学历普遍低;他们在月收入水平上有一定分布,可以按照月收入水平进行一定程度的分类
    • 然后呢?
    • 然后我还发现,贷款违约率比较高的人,他们的app安装列表中比较多出现像和“借”、“贷”、“融”、“花”等金融类有关的app;他们的出行app也比贷款违约率低的那一批用户更多

2 脑图总结

请添加图片描述
PS 红色字体为个人重难点

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-09-22 14:41:05  更:2021-09-22 14:41:50 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 12:48:29-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码