IT数码购物网址头条软件日历阅读图书馆

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

图片批量下载器
↓批量下载图片,美女图库↓

图片自动播放器
↓图片自动播放器↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 刷B站学数分｜如何做数据分析项目 -> 正文阅读

[人工智能]刷B站学数分｜如何做数据分析项目

开个系列《刷B站学数分》，总结整理B站上优质的数据分析资源～

目录

0 参考资料
1 数据分析项目流程
2 脑图总结

0 参考资料

1 数据分析项目流程

1.1 明确项目背景和需求

常见误区：一拿到项目就想着怎么建模，而未明确实际需求是什么，这样容易“做着做着不知道自己在做什么”
明确实际需求，后续环节都按照主线走

1.2 数据集摸底（EDA）

常用python可视化工具
数据集多大、多少变量，结合项目背景看变量含义
数据分布，eg 分类型变量有多少取值、占多少比例；eg 时间变量是否有趋势
明确预测标的，eg 是离散 or 连续变量，决定后续模型选择分类 or 回归

1.3 数据清洗

（1）挑选搭建模型会使用到的有效变量，组建新的数据集

只是初步筛选，后续建模时候还会剔除变量，或进行特征工程构造新变量
这步主要基于已有知识判断，eg 贷款预测挑选购房信息，而微信步数可能就是无关变量

（2）缺失值处理

本身数据量大：可用dropna函数把所有缺失值清理掉
本身数据量不大：用fillna函数进行填充
- eg 平均数、众数、中位数
- 推荐中位数、众数进行填充，因为不太受异常值影响

（3）异常值处理

如何定义异常值？
- IQR定义：异常值通常被定义为小于QL-1.5IQR或大于QU+1.5IQR的值
- - 实际工作中，1/4和3/4以外的数据都可以归为异常值，之间这一段都属于正常数值
- z分数：一般低于-3或高于3异常

1.4 模型搭建

常用工具：python sklearn 包

（1）数据集划分

划分训练集、测试集
划分比例：训练集vs测试集 = 8:2 或7:3
常用函数：sklearn中 train_test_split()

（2）模型选择

根据目的选择合适的模型，eg 分类 or 回归
不用太纠结模型方法，都可以尝试使用，最终决定模型精度的更在于变量的选择、参数的调整

（3）模型拟合

把训练集数据带入模型，训练模型，得到模型框架

（4）模型预测

把测试集数据放到模型中，进行预测

（5）模型评估

分类型预测
- 常用混淆矩阵confusion matrix，判断precision、recall、f1-score
- 回归
  常用平均绝对误差 MAE（mean absolute error）

（6）超参数调整

调参，进一步提高模型准确性
根据具体的算法，调参
- eg 随机森林：选择多少决策树、每个决策树节点数量、每棵树的最大深度……

1.5 回到项目进行发散

数据分析画龙点睛之笔，发散后的结论才是面试官感兴趣的结论
技巧：一直反问自己“然后呢？”，直到问不出问题
通过不断反问，输出基于预测结果，而对实际场景产生帮助的有价值的结论
把观点放到简历上，就能体现出是有价值的项目
eg 贷款申请数据分析项目
- 我最后预测出了每个user id所对应的违约概率是多少，预测模型的精度达到85%，auc值达到0.87。
- 然后呢？
- 然后我发现，违约概率比较高的人，学历普遍低；他们在月收入水平上有一定分布，可以按照月收入水平进行一定程度的分类
- 然后呢？
- 然后我还发现，贷款违约率比较高的人，他们的app安装列表中比较多出现像和“借”、“贷”、“融”、“花”等金融类有关的app；他们的出行app也比贷款违约率低的那一批用户更多

2 脑图总结

请添加图片描述
PS 红色字体为个人重难点

人工智能最新文章

2022吴恩达机器学习课程——第二课（神经网

第十五章规则学习

FixMatch: Simplifying Semi-Supervised Le

数据挖掘Java——Kmeans算法的实现

大脑皮层的分割方法

【翻译】GPT-3是如何工作的

论文笔记:TEACHTEXT: CrossModal Generaliz

python从零学（六）

详解Python 3.x 导入(import)

【答读者问27】backtrader不支持最新版本的

上一篇文章下一篇文章查看所有文章

加:2021-09-22 14:41:05 更:2021-09-22 14:41:50

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

360图书馆购物三丰科技阅读网日历万年历 2025年8日历

-2025/8/26 1:16:19-

图片自动播放器
↓图片自动播放器↓

TxT小说阅读器
↓语音阅读,小说下载,古典文学↓

一键清除垃圾
↓轻轻一点,清除系统垃圾↓

图片批量下载器
↓批量下载图片,美女图库↓

网站联系: qq:121756557 email:121756557@qq.com IT数码