什么是机器学习?
A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.
如果计算机程序在 T 上的性能(由 P 衡量)随着经验 E 提高,则称该计算机程序从经验 E 中学习关于某些任务 T 和某些性能度量 P
俩个最常见的机器学习的类型
supervised learning - 监督学习 unsupervised learning - 无监督学习
如何学习?
但是学习机器学习最重要的是(适用于所有的学习): Practical advice for applying learning algorithms(算法 /'?lg?'r?e?mz/ ) .【应用学习算法的实用建议】
举个简单的例子,当我们想成为一个木匠的时候,师傅拿出斧头,木板,螺丝刀,然后什么也不说,让你成为木匠,这样的方法明显是不对的,但是,如果当你的师傅教你如何使用这些工具的时候,你会发现你的学习速度会加快很多,也避免了很多的无用功,这也是吴恩达老师说这句话的解释。
1、监督学习
例子1:【regression problem】 通过数据集得到房价与房子面积的一个散点图
例子2:【classification problem】 肿瘤大小与年龄来判断肿瘤是良性或者恶性,0表示良性,×表示恶性
question:区分下面的例子,是使用回归问题还是分类问题 translate:
Problem 1: You have a large inventory of identical items. You want to predict how many of these items will sell over the next 3 months.【问题1:你有大量相同物品的库存。你想要预测在未来3个月内这些商品的销量会有多大。】
Problem 2:You’d like software to examine individual customer accounts, and for each account decide if it has been hacked/compromised.【问题2:您希望软件检查单个客户的帐户,并为每个帐户决定它是否被黑客攻击/破坏。】
Should you treat these as classification or as regression problems? 您应该将这些问题视为分类问题还是回归问题?
answer:
- 第一个问题明显就是预测数据,是可以根据图像的分布规律以及选择的曲线去推测出该数据的一个预期的结果,所以它是regression problems【回归问题】
- 第二个问题,我们根据题目会把被黑客攻击的个人用户记作1,没有被攻击的用户记作0,通过数据的离散值,来预测出是否被黑客攻击,所以它是一个classification problem【分类问题】
2、无监督学习
- 监督学习与无监督学习的图片对比
-
在监督学习中,我们每个数据的结果是已知的,尽管它存在恶性或良性(以肿瘤为例) -
但是在无监督学习中,我们的数据要么是相同的label,要么是全部都没有标签, -
而监督学习的任务就是:
- 将这个未知的数据集的数据进行分类处理,让它变成一种类似于监督学习的一种样子,让大家可以使用
-
聚类算法属于无监督学习的一种,就是把数据分成几个部分,这几个部分就分表代表某些含义
著名的鸡尾酒会算法,就是在鸡尾酒会上,通过不同的人的声音以及距离麦克风的距离来讲声音提取出来,下面的代码是用octave编译器实现的鸡尾酒会算法,只需要一行就能解决。
question:哪些是监督学习,哪些是无监督学习? translate:
- Given email labeled as spam/not spam, learn a spam filter.【给定标记为垃圾邮件/非垃圾邮件的电子邮件,学习垃圾邮件过滤器】
- Given a set of news articles found on the web, group them into set of articles about the same story.【给定在网络上找到的一组新闻文章,将它们分组为关于同一故事的一组文章】
- Given a database of customer data, automatically discover market segments and group customers into different market segments.【给定客户数据数据库,自动发现细分市场并将客户分为不同的细分市场】
- Given a data set of patients diagnosed as either having diabetes or not, learn to classify new patients as having diabetes or not.【给定一组诊断为患有或未患有糖尿病的患者的数据集,学习将新患者分类为是否患有糖尿病】
answer: 第一个:垃圾邮箱过滤,确定了“是垃圾邮箱”和“不是垃圾邮箱” - 监督学习 第二个:网络文章总和,没有固定的结果 - 无监督学习 第三个:用户市场分析,没有固定的市场分析结果 - 无监督学习 第四个:糖尿病是否患有,确定了“患有”和“不患有”俩种 - 监督学习
|