机器学习笔记(一)
前言
最近正在学习吴恩达老师的机器学习,特此将学过的知识总结整理下来,仅供学习。
目录
1.机器学习是什么?
我们可以笼统的将机器学习定义为:在进行特定编程的情况下,给予计算机学习能力的领域,使其具有学习的能力。
目前存在几种不同类型的学习算法:监督学习、无监督学习、强化学习,主要的两种类型被我们称之为监督学习和无监督学习。
这里简单说两句,监督学习这个想法是指,我们将教计算机如何去完成任务,而在无监督学习中,我们打算让它自己进行学习。
2.监督学习
监督学习的基本思想是,我们数据集中的每个样本都有相应的“正确答案”。 监督学习可以根据样本输出是否离散分为以下两种问题:
2.1回归问题
回归问题对应输出值连续,预测出一个连续值。 例子: 前阵子,一个学生从波特兰俄勒冈州的研究所收集了一些房价的数据。你把这些数据画出来,看起来是这个样子:横轴表示房子的面积,单位是平方英尺,纵轴表示房价,单位是千美元。那基于这组数据,假如你有一个朋友,他有一套 750 平方英尺房子,现在他希望把房子卖掉,他想知道这房子能卖多少钱。
在房价的例子中,我们给了一系列房子的数据,我们给定数据集中每个样本的正确价格,即它们实际的售价然后运用学习算法,算出更多的正确答案。比如你朋友那个新房子的价格。用术语来讲,这叫做回归问题。我们试着推测出一个连续值的结果,即房子的价格。这就是回归问题。
2.2分类问题
分类问题对应输出值为离散属性。 例子:假设说你想通过查看病历来推测乳腺癌良性与否,假如有人检测出乳腺肿瘤,恶性肿瘤有害并且十分危险,而良性的肿瘤危害就没那么大,所以人们显然会很在意这个问题。
分类指的是,我们试着推测出离散的输出值:0 或 1 良性或恶性,而事实上在分类问题中,输出可能不止两个值。比如说可能有三种乳腺癌,所以你希望预测离散输出 0、1、2、 3。0 代表良性,1 表示第 1 类乳腺癌,2 表示第 2 类癌症,3 表示第 3 类,但这也是分类问 题。
3.无监督学习
第二种主要的机器学习问题,叫做无监督学习。 无监督学习,即我们没有提前告知算法一些信息,没有给算法正确答案来回应数据集中的数据。 无监督学习中没有任何的标签或者是有相同的标签或者就是没标签。所以我们已知数据集,却不知如何处理,也未告知每个数据点是什么。别的都不知道,就是一个数据集。
3.1 聚类算法
无监督学习算法可能会把这些数据分成两个不同的簇。所以叫做聚类算法。,聚类只是无监督学习中的一种。 无监督学习或聚集有着大量的应用。它用于组织大型计算机集群。 例子: 聚类应用的一个例子就是在谷歌新闻中。如果你以前从来没见过它,你可以到这个 URL网址 news.google.com 去看看。谷歌新闻每天都在,收集非常多,非常多的网络的新闻内容。它再将这些新闻分组,组成有关联的新闻。所以谷歌新闻做的就是搜索非常多的新闻事件, 自动地把它们聚类到一起。
|