IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 【第一章】机器学习概述 -> 正文阅读

[人工智能]【第一章】机器学习概述

相关概念

显著式编程:需要人为地根据周围的环境、规则、经验等给计算机规定一些机械化步骤或判断依据,例如识别菊花和玫瑰,显著式编程就需要人为规定黄色的是菊花,红色的是玫瑰。
非显著式编程:通过数据、经验自动学习。无需人为给出所有的步骤和约束计算机必须总结什么规律,只需要定义收益函数,计算机会通过与环境的互动总结经验、调整策略,从而实现最大化收益(最优策略)。因此,非显著编程更加灵活,适用范围更广。

机器学习定义

Tom Mitshell在他的书《Machine L earning》中的定义
A computer program is said to learn from experience E with respect to some class of tasksT and performance measureP if its performance at tasks inT, as measured by P, improves with experience E.

一个计算机程序被称为可以学习,是指她能够针对某个任务T和某个性能指标P,从经验E中学习。这种学习的特点是,它在T上的被P所衡量的性能,会随着经验E的增加而提高。

以识别菊花和玫瑰为例

任务T:编写一个计算机程序来识别菊花和玫瑰
经验E:海量的菊花和玫瑰的图片(称之为“训练样本”)
性能指标P:识别率(识别结果的正确率)
这种算法的特点就是随着图片(经验/训练样本)的增加,识别率(性能指标)也会越来越高。(泛化)

最优化问题

根据经验E来提高性能指标P的过程。

机器学习的分类

按照数据标签存在与否:传统的监督学习、非监督学习、半监督学习
按照任务是否需要和环境交互获得经验:监督学习、强化学习

传统监督学习(Traditional Supervised Learning)

每个训练数据都有对应的标签。
所有经验都是人为搜集起来并输入计算机的,最终为训练数据打上标签或者进行预测。例如识别垃圾邮件、人脸识别、图像识别、天气预测、污染物浓度预测等。

分类

标签是离散值,例如“垃圾邮件”和“正常邮件”。

回归

标签是连续值,例如污染物浓度1.5%,4.8%。
注:分类和回归的界限是很模糊的,因为连续和离散也是可以相互转化的。一个解决分类问题的机器学习模型稍微改造就可以解决回归问题,反之亦然。

传统监督学习算法

支持向量机SVM(Support Vector Machine)
人工神经网络(Neural Networks)
深度神经网络DNN(Deep Neutral Network)

非监督学习(Unsupervised Learning)

所有训练数据都没有对应的标签,只有特征。
即给定数据,‘寻找隐藏/潜在的结构和信息,进行分类。例如聚类、社交网络分析、群体分类。

无监督学习算法

聚类(Clustering)
EM算法(Expectation-Maximization algorithm)
主成分分析(Principle Component Analysis)

半监督学习(Semi-supervised Learning)

训练数据中一部分有标签,一部分没有标签。
由于标注数据是成本巨大的工程,因此,利用少量标注的数据和大量未标注的数据一起训练出一个更好的机器学习方法,即半监督学习算法,是一种趋势。

强化学习(Reinforcement Learning)

计算机通过与环境的互动,逐渐强化自己的行为模式,从而实现最大化收益的学习过程称为强化学习。

机器学习算法的研究过程

机器学习的重点,不是特征提取,而是假设在已经提取好特征的前提下,如何构造算法获得更好的性能,或者说研究合理的算法使得学习系统获得更好的性能。

特征提取(Feature Extraction)

通过训练样本获得的,对机器学习任务有帮助的多维度数据。

特征选择(Feature Selection)

从若干个特征中选取对机器学习任务帮助显著的特征,即有效特征。

基于特征构造算法

若选取了N个特征构成N维的特征空间(Feature Space),则机器学习算法需要做的就是对特征空间中的样本进行划分,尽可能将不同特征的样本数据区分开。

  • 不同的算法对特征空间做不同的划分得出不同的结果。
  • 因为无法穷尽世界上所有样本,所以不能得出一个绝对意义的好坏标准。
  • 在设计机器学习算法的时候,有一个先验假设:在特征空间上距离较近的样本,它们属于同一个类别的概率会更高。(这种先验假设可能是错的)

机器学习领域重要的理论问题

如何针对不同应用场景选择合适的机器学习算法?
如何构造新的机器学习算法解决目前无法解决的应用场景?

哪种算法更好?没有免费午餐定理(No Free Lunch Theorem)

任何一个预测函数,如果在一些训练样本上表现好,那么必然在一些训练样本上表现不好。也就是说,如果不对数据在特征空间的先验分布有一定的假设,那么表现好和表现不好的概率一样多(所有算法的表现都一样)。

机器学习的本质

有限的已知数据下,在复杂高维特征空间中,预测未知的样本。
再好的算法也存在犯错的风险。
没有放之四海而皆准的最好算法,因为机器学习算法的评价涉及对特征空间先验分布的假设,但没有人知道特征空间先验分布的真实样子。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-04-07 22:41:41  更:2022-04-07 22:43:38 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 11:48:41-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码