| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 机器学习:以数据为中心 VS 以模型为中心 -> 正文阅读 |
|
[人工智能]机器学习:以数据为中心 VS 以模型为中心 |
模型和数据是 AI 系统的基础,这两个组件在模型的开发中扮演着重要的角色。 人工智能领域最权威的学者之一吴恩达曾提出「80% 的数据 + 20% 的模型 = 更好的机器学习」,他认为一个团队研究 80% 的工作应该放在数据准备上,数据质量是重要的,但很少有人在乎。如果更多地强调以数据为中心而不是以模型为中心,机器学习会发展的更快。 我们不禁会问,机器学习的进步是模型带来的还是数据带来的,目前还没有一个明确的答案。 在本文中,Android 开发者和机器学习爱好者 Harshil Patel 介绍了「机器学习:以数据为中心 VS 以模型为中心」,通过对比以确定两者中哪个更重要,此外,Patel 还介绍了如何使用以数据为中心的基础设施。 以数据为中心的方法 VS 以模型为中心的方法 以模型为中心的方法意味着需要通过实验来提高机器学习模型性能,这涉及模型架构的选择、训练过程。而在以模型为中心的方法中,你需要保持数据相同,通过改进代码和模型架构来提高性能。此外,对代码的改进是以模型为中心的根本目标。 目前,大多数 AI 应用都是以模型为中心的,其中一个可能的原因是学术研究非常重视 AI 领域。根据吴恩达的说法,AI 领域 90% 以上的研究论文都是以模型为中心的,因为我们很难创建大型数据集,使其成为公认的标准。因此,AI 社区认为以模型为中心的机器学习更有前景。研究者在专注于模型的同时,往往会忽略数据的重要性。 对于研究者而言,数据是每个决策过程的核心,以数据为中心的公司通过使用其运营产生的信息,可以获得更准确、更有条理、更透明的结果,从而可以帮助公司组织更顺利地运行。以数据为中心的方法涉及系统地改进、改进数据集,以提高 ML 应用程序的准确性,对数据进行处理是以数据为中心的中心目标。 数据驱动 VS 以数据为中心 许多人经常混淆「以数据为中心」和「数据驱动」这两个概念。数据驱动是一种从数据中收集、分析和提取见解的方法,它有时被称为「分析」。另一方面,以数据为中心的方法侧重于使用数据来定义应该首先创建的内容;而以数据为中心的架构指的是一个系统,其中数据是主要和永久的资产。数据驱动架构意味着通过利用大量数据来创建技术、技能和环境。 对于数据科学家和机器学习工程师来说,以模型为中心的方法似乎更受欢迎。这是因为从业者可以利用自身知识储备来解决特定问题。另一方面,没有人愿意花大量时间去标注数据。 然而,在当今的机器学习中,数据至关重要,但在 AI 发展中却经常被忽视和处理不当。由于数据错误,研究者可能花费大量时间进行查错。模型精度较低的根本原因可能不是来自模型本身,而是来自错误的数据集。 除了关注数据外,模型和代码也很重要。但研究者往往倾向于在关注模型的同时忽略数据的重要性。最好的方法是同时关注数据和模型的混合方法。根据应用程序的不同,研究者应该兼顾数据和模型。 以数据为中心的基础架构 以模型为中心的机器学习系统主要关注模型架构优化及其参数优化。 以模型为中心的 ML 应用程序 上图中描述的是以模型为中心的工作流适用于少数行业,如媒体、广告、医疗保健或制造业。但也可能面临如下挑战:
吴恩达曾在他的 AI 演讲中解释了他如何相信以数据为中心的 ML 更有价值,并倡导社区朝着以数据为中心的方向发展。他曾经举了一个「钢铁缺陷检测」的例子,其中以模型为中心的方法未能提高模型的准确率,而以数据为中心的方法将准确率提高了 16%。 以数据为中心的 ML 应用程序 在实施以数据为中心的架构时,可以将数据视为比应用程序和基础架构更耐用的基本资产。以数据为中心的 ML 使数据共享和移动变得简单。那么,在以数据为中心的机器学习到底涉及什么?在实现以数据为中心的方法时,我们应该考虑以下因素:
应该优先考虑哪一个:数据数量还是数据质量? 需要强调的是,数据量多并不等同于数据质量好。当然,训练神经网络不能只用几张图就能完成,数据数量是一个方面,但现在的重点是质量而不是数量。 如上图所示,大多数 Kaggle 数据集并没有那么大。在以数据为中心的方法中,数据集的大小并不那么重要,并且可以使用质量较小的数据集完成更多的工作。不过需要注意的是,数据质量高且标注正确。 上图中是另一种标注数据的方式,单独或组合标注。例如,如果数据科学家 1 单独标注菠萝,而数据科学家 2 将其组合标注,则两者标注的数据不兼容,导致学习算法变得混乱。因此,需要将数据标签保持一致;如果需要单独标注,请确保所有标注都以相同的方式进行。 上图为吴恩达解释了小数据集一致性的重要性 到底需要多少数据? 数据质量不可忽视,但数据量也是至关重要的,研究者必须有足够的数据支撑才能解决问题。深度网络具有低偏差、高方差特性,我们可以预见更多的数据可以解决方差问题。但是多少数据才够呢?目前这个问题还很难回答,不过我们可以认为拥有大量的数据是一种优势,但也不是必须的。 如果你采用以数据为中心的方法,请记住以下几点:
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 18:24:24- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |