1.大数据框架
- 大数据的离线数据处理
- Hadoop大数据平台(Hadoop1和Hadoop2、Hadoop3)
- HDFS分布式文件系统
- MapReduce分布式计算框架
- Yarn资源管理平台
- Hive数据仓库
- Sqoop关系型数据库和非关系型数据库的导入和导出
- Flume数据采集
- 大数据的实时数据处理
- Storm-----天猫双11,实时统计销售总额
- Spark-----一站式数据分析平台
- Spark-Core
- SparkSql----Hive
- SparkStreaming----Storm
- SparkMllib----机器学习
- SparkGraphX----图计算
- Kafka消息队列
- 大数据新兴技术
- Flink-一站式数据分析
- Keylin数据分析-数据立方体
- 机器学习阶段
- 机器学习和大数据区别和联系
- 大数据框架做的是基础的数据的存储和统计计算,但是如果需要从大量的是数据中发现或挖掘规律,需要使用机器学习方法,通过机器学习算法结合大量数据,构建机器学习模型,通过模型对现实事件作出预测和判断。
- 如果要构建模型,需要大量的数据,一定需要大数据框架做基础统计和分析
- 大数据4V特征
- 数据量大:TB-PB-ZB HDFS存储
- 数据种类多:
- 结构化数据:Mysql或oracle存储
- 非结构化数据:视频、音频等 -HDFS存储
- 半结构化数据:html、xml等 -HDFS存储
- 速度快
- 数据的增长的速度快:TB-PB-ZB
- 数据的处理速度快:大数据 框架解决
- 价值密度低-价值高
2.大数据时代究竟改变了什么?
- 大数据时代改变更多的是思维方式
- 数据重要性:
- 方法论:
- 基于知识的理论完美主义-----基于数据的历史经验主义
- 翻译:你好吗?
- 基于知识:
- 你 好 吗+ 语言学知识
- 你 you your
- 好 well good
- 吗 do does is
- 你好吗?Are you well?Are you good?How are you? (选择)
- 基于数据:
- Are you well?
- Are you good?
- How are you? (选择)
- 数据分析:
- 统计学-----数据科学(大数据)
- 抽样理论
- 数据科学家(拥有大数据技术+机器学习算法技术+强大的业务能力、数据分析能力)
- 计算智能:
- 业务层面:
- 决策方式
- 产业竞合
3.以大数据项目为例展开
- 项目名称:电信日志分析系统
- 项目描述:该项目对电信用户上网所产生的日志进行分析和处理,对产生的日志数据进行入库、处理、实时分析、上报监管部门等,整个项目利用Hadoop大数据平台,完成日志的入库、处理、分析和查询等,达到异常ip的检测、关键词的过滤、违规违法用户的检测等。
- 项目架构:
- 数据采集:ftp和socket方式
- 数据存储:HDFS
- 数据分析:Hive等
- 数据展现:WEB
- 数据量:1T-20T数据量不等
- 集群搭建:在全国20个省份部署集群,集群数据在10-100台不等
4.以推荐系统为例展开
5.人工智能
6.人工智能、机器学习、深度学习区别和联系
- 机器学习是人工智能的一个分支,深度学习是机器学习的一种方法或技术
7.数据、数据分析、数据挖掘、机器学习
数据:1.7 1.8 1.9
数据分析
信息:矮 正好 高 深度学习—>机器学习(方法)—>数据挖掘(事情)、模式识别(事件) 有价值信息:长相好 丑 好
8.机器学习概念
- 机器学习是致力于研究如何通过CPU和GPU(图形图像处理器)的计算,利用经验或数据来改善计算机系统自身的性能。
- 机器学习是人工智能具有智能的必备技术手段,人工智能的核心
- 总结:机器学习模型Model=数据+算法
- 如果有新的数据,只需要代入到Model中就可以输出预测值
- 什么不是机器学习?
- 比如对于计算问题、已经知道结果的(确定性问题)等不是机器学习问题
- 机器学习问题需要有一个预测的过程
9.基于规则的学习
- 基于专家发现的规则,制定规则,只需要新数据代入规则进行判断即可
10.基于模型的学习
- X(邮件一些特征数据)---------f(函数-模型)--------->Y(结果数据)
- 基于模型就可以直接进行预测分析
11.机器学习各种概念
12.机器学习概念补充
天气:晴天、阴天、雨天 label encoder:标签编码
晴天、阴天、雨天
0 1 2
one-hot encoder:独热编码 晴天、阴天、雨天 0 0 1 0 1 0 1 0 0 结果:通常使用labelencoder 是享受运动 0 不是 1
- 概念学习
- X---------------f(模型)--------------------->Y
- 回归和分类问题
- 如果预测值是连续值对应的问题是回归问题
- 如果预测值是离散值对应的问题是分类问题
13.机器学习分类
-
根据是否有类别标签—监督学习和非监督学习 -
监督学习:
- 分类:预测值是否为连续值,不是连续值的预测的话,是分类
- 回归:是连续值的预测的话,是回归
-
非监督学习:
- 聚类:通过相似性度量,组内的相似性是极高的,组间的相异性极高的,进行分类
- 降维-通过算法进行降维的话,Z1和Z2的物理含义是不明确的
- 特征选择:
- 从原有的特征中选择比较重要的特征-----X1X2X3====>X1X2
? -
半监督学习
-
强化学习(系统)
-
迁移学习
14.机器学习三要素
- 机器学习=算法+数据+策略(损失函数)
- 机器学习=模型+算法+策略(损失函数)
- 模型:决策函数、条件概率分布
- 策略:损失函数/目标函数/误差函数
- 01损失—分类问题
- 平方损失—回归问题
- 绝对值损失—分类或回归问题
- 算法:
15.模型选择
- 模型的泛化性能
- 模型对于新数据的适应能力
- 欠拟合:模型对于训练集和测试集效果都很差
- 产生的原因:模型太过于简单
- 产生的时期:训练模型的初期
- 解决办法:
- 增加多项式的特征项,使得模型变得复杂
- 增加多项式的特征项的次数,使得模型复杂
- 减少正则罚项
- 过拟合:模型对于训练集效果很好,对于测试集效果较差
- 产生的原因:模型过于复杂、训练数据量太少、数据不纯
- 产生的时期:训练模型的中后期
- 解决办法:
- 增加训练数据
- 重新清洗数据
- 增加正则罚项(降低模型的复杂度)
- 模型选择的基本原则-奥卡姆剃刀原则
- 在具有相同泛化误差的模型中,选择较为简单的模型,防止过拟合
|