IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 01 -- 机器学习入门 -> 正文阅读

[人工智能]01 -- 机器学习入门

1.大数据框架

  • 大数据的离线数据处理
    • Hadoop大数据平台(Hadoop1和Hadoop2、Hadoop3)
      • HDFS分布式文件系统
      • MapReduce分布式计算框架
      • Yarn资源管理平台
    • Hive数据仓库
      • 底层执行的是MR
    • Sqoop关系型数据库和非关系型数据库的导入和导出
      • 底层MR
    • Flume数据采集
  • 大数据的实时数据处理
    • Storm-----天猫双11,实时统计销售总额
    • Spark-----一站式数据分析平台
      • Spark-Core
      • SparkSql----Hive
      • SparkStreaming----Storm
      • SparkMllib----机器学习
      • SparkGraphX----图计算
    • Kafka消息队列
  • 大数据新兴技术
    • Flink-一站式数据分析
    • Keylin数据分析-数据立方体
  • 机器学习阶段
    • 机器学习和大数据区别和联系
      • 大数据框架做的是基础的数据的存储和统计计算,但是如果需要从大量的是数据中发现或挖掘规律,需要使用机器学习方法,通过机器学习算法结合大量数据,构建机器学习模型,通过模型对现实事件作出预测和判断。
      • 如果要构建模型,需要大量的数据,一定需要大数据框架做基础统计和分析
    • 大数据4V特征
      • 数据量大:TB-PB-ZB HDFS存储
      • 数据种类多:
        • 结构化数据:Mysql或oracle存储
        • 非结构化数据:视频、音频等 -HDFS存储
        • 半结构化数据:html、xml等 -HDFS存储
      • 速度快
        • 数据的增长的速度快:TB-PB-ZB
        • 数据的处理速度快:大数据 框架解决
      • 价值密度低-价值高
        • 密度=有价值数据/All
        • 机器学习学习算法解决

2.大数据时代究竟改变了什么?

  • 大数据时代改变更多的是思维方式
  • 数据重要性:
    • 数据资源--------数据资产(数据的增值)
  • 方法论:
    • 基于知识的理论完美主义-----基于数据的历史经验主义
    • 翻译:你好吗?
    • 基于知识:
      • 你 好 吗+ 语言学知识
      • 你 you your
      • 好 well good
      • 吗 do does is
      • 你好吗?Are you well?Are you good?How are you? (选择)
    • 基于数据:
      • Are you well?
      • Are you good?
      • How are you? (选择)
  • 数据分析:
    • 统计学-----数据科学(大数据)
      • 抽样理论
      • 数据科学家(拥有大数据技术+机器学习算法技术+强大的业务能力、数据分析能力)
  • 计算智能:
    • 复杂算法–简单算法(MapReduce)
  • 业务层面:
    • 业务的数据化--------数据的业务化
  • 决策方式
    • 目标决策------数据决策
  • 产业竞合
    • 以战略为中心-------以数据为中心

3.以大数据项目为例展开

  • 项目名称:电信日志分析系统
  • 项目描述:该项目对电信用户上网所产生的日志进行分析和处理,对产生的日志数据进行入库、处理、实时分析、上报监管部门等,整个项目利用Hadoop大数据平台,完成日志的入库、处理、分析和查询等,达到异常ip的检测、关键词的过滤、违规违法用户的检测等。
  • 项目架构:
    • 数据采集:ftp和socket方式
    • 数据存储:HDFS
    • 数据分析:Hive等
    • 数据展现:WEB
  • 数据量:1T-20T数据量不等
  • 集群搭建:在全国20个省份部署集群,集群数据在10-100台不等

4.以推荐系统为例展开

  • 项目名称:推荐系统

  • 项目描述:猜你喜欢

  • 项目架构:离线推荐、实时推荐、近线计算(整个业务逻辑整合的地方)

5.人工智能

6.人工智能、机器学习、深度学习区别和联系

  • 机器学习是人工智能的一个分支,深度学习是机器学习的一种方法或技术

7.数据、数据分析、数据挖掘、机器学习

数据:1.7 1.8 1.9

数据分析

信息:矮 正好 高
深度学习—>机器学习(方法)—>数据挖掘(事情)、模式识别(事件)
有价值信息:长相好 丑 好

8.机器学习概念

  • 机器学习是致力于研究如何通过CPU和GPU(图形图像处理器)的计算,利用经验或数据来改善计算机系统自身的性能。
  • 机器学习是人工智能具有智能的必备技术手段,人工智能的核心
  • 总结:机器学习模型Model=数据+算法
    • 如果有新的数据,只需要代入到Model中就可以输出预测值
  • 什么不是机器学习?
    • 比如对于计算问题、已经知道结果的(确定性问题)等不是机器学习问题
    • 机器学习问题需要有一个预测的过程

9.基于规则的学习

  • 基于专家发现的规则,制定规则,只需要新数据代入规则进行判断即可

10.基于模型的学习

  • X(邮件一些特征数据)---------f(函数-模型)--------->Y(结果数据)
  • 基于模型就可以直接进行预测分析

11.机器学习各种概念

  • 参考图示

12.机器学习概念补充

  • 类别型变量处理

天气:晴天、阴天、雨天
label encoder:标签编码

晴天、阴天、雨天
0  1  2

one-hot encoder:独热编码
晴天、阴天、雨天
0 0 1
0 1 0
1 0 0
结果:通常使用labelencoder
是享受运动 0 不是 1

  • 概念学习
    • X---------------f(模型)--------------------->Y
  • 回归和分类问题
    • 如果预测值是连续值对应的问题是回归问题
    • 如果预测值是离散值对应的问题是分类问题

13.机器学习分类

  • 根据是否有类别标签—监督学习和非监督学习

  • 监督学习:

    • 分类:预测值是否为连续值,不是连续值的预测的话,是分类
    • 回归:是连续值的预测的话,是回归
  • 非监督学习:

    • 聚类:通过相似性度量,组内的相似性是极高的,组间的相异性极高的,进行分类
    • 降维-通过算法进行降维的话,Z1和Z2的物理含义是不明确的
      • 特征选择:
        • 从原有的特征中选择比较重要的特征-----X1X2X3====>X1X2
          ?
  • 半监督学习

    • 应用场景比较多一些,

    • 半监督学习:
      1.基于聚类的假设
      有类别标记的数据+没有类别标记的数据将有类别标记的数据,去掉标签列所有的数据均没标签,对全部数据进行聚类,聚类之后,有类别标记的数据和没有类别标记的数据,有可能被分到不同的组或簇中,将所有的, 有类别标记的数据,根据机器学习常用的处理方法—投票原则,根据少数服从多数的原则进行表决,将没有带类别标签的数据加上类别标签
      2.利用所有样本进行模型训练

  • 强化学习(系统)

    • 解决连续决策的问题
    • 围棋、无人驾驶汽车
  • 迁移学习

14.机器学习三要素

  • 机器学习=算法+数据+策略(损失函数)
  • 机器学习=模型+算法+策略(损失函数)
    • 模型:决策函数、条件概率分布
    • 策略:损失函数/目标函数/误差函数
      • 01损失—分类问题
      • 平方损失—回归问题
      • 绝对值损失—分类或回归问题
    • 算法:
      • 解析解
      • 最优解-----梯度下降法或牛顿法

15.模型选择

  • 模型的泛化性能
    • 模型对于新数据的适应能力
    • 欠拟合:模型对于训练集和测试集效果都很差
      • 产生的原因:模型太过于简单
      • 产生的时期:训练模型的初期
      • 解决办法:
        • 增加多项式的特征项,使得模型变得复杂
        • 增加多项式的特征项的次数,使得模型复杂
        • 减少正则罚项
    • 过拟合:模型对于训练集效果很好,对于测试集效果较差
      • 产生的原因:模型过于复杂、训练数据量太少、数据不纯
      • 产生的时期:训练模型的中后期
      • 解决办法:
        • 增加训练数据
        • 重新清洗数据
        • 增加正则罚项(降低模型的复杂度)
    • 模型选择的基本原则-奥卡姆剃刀原则
      • 在具有相同泛化误差的模型中,选择较为简单的模型,防止过拟合
  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-02-01 20:36:39  更:2022-02-01 20:37:04 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 20:30:27-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码