IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 数据挖掘(Data Mining):基础导论 -> 正文阅读

[人工智能]数据挖掘(Data Mining):基础导论

目录

数据挖掘基础

定义

数据挖掘的特征

学科挑战

数据挖掘的五大任务

1. 聚类(Clustering)

2. 关系规则挖掘(Association Rule Mining)

3. 分类(Classification)

4. 回归(Regression)

5. 异常检测(Anomaly detection)

总结


数据挖掘基础

定义

数据挖掘涉及从数据中提取隐含的、以前未知的和潜在有用的信息(Frawley, 1991)。

数据挖掘的特征

  • 提取重要的、隐含的信息
    • ?数据(基础)中未明确提供的答案。
    • ?通常为其他目的收集的数据。
  • 有价值的信息以前未知且可能有用。
    • 分析师和领域专家发挥着重要作用。
      • ? 90% 的准确率如果你已经知道那 90%,那是没用的
    • 你想用提取的信息做某事。?
      • 10% 错误预测的后果是什么?
  • 信息来自真实数据。
    • 使用机器学习、统计学的方法和数据库。
    • 包括多种类型的数据(表格、文本、图形等)。
      ?

学科挑战

  • 可延展性
    • 专门的数据结构(数据库)
    • 智能搜索(AI)
  • 高维
    • 降维(统计)
  • 数据异质性(Heterogeneity)
    • 交易(transactions)(数据库)
    • 图(social network analysis, network science)
    • 文本(信息检索(information retrieval)和 NLP)
  • 机会样本(Opportunistic samples)
    • 假设生成,总结
  • 数据所有权和分布(Data ownership and distribution)

数据挖掘延伸领域:

定向市场营销、欺诈检测、库存管理、个性化医疗、基因与疾病之间的关联等。

数据挖掘的五大任务

1. 聚类(Clustering)

给定一组对象,将它们分组,使一组中的对象彼此更相似,而不同组中的对象彼此不太相似。

应用?

  • 市场细分:将市场细分为不同的客户子集,其中任何子集都可以被选为市场目标,以通过不同的营销组合实现。
  • 文档聚类:根据重要信息查找彼此相似的文档组出现在其中的术语。
  • 在社交网络中查找社区。

2. 关系规则挖掘(Association Rule Mining)

给定一组记录,每个记录都包含来自给定集合的一定数量的项目,生成依赖规则,该规则将根据其他项目的出现来预测一个项目的出现。

应用

  • 营销、促销和假设分析:如果我们停止销售 X 和 Y 会发生什么??
  • 超市货架管理:识别足够多的顾客一起购买的物品。
  • 库存管理:消费电器维修公司希望预测其消费产品的维修性质,并为维修车辆配备合适的零件以减少数量走访消费者家庭。

3. 分类(Classification)

给定由某些特征描述的对象集合并具有类属性,对新的对象赋予对应的类属性。

应用

  • 直接营销:通过瞄准可能购买新产品的一组消费者来降低邮寄成本。
  • 欺诈检测:预测信用卡交易中的欺诈案例。
  • 客户流失/流失:预测客户是否可能会被竞争对手抢走.
  • 识别肿瘤细胞为良性或恶性。
  • 分类蛋白质的二级结构。
  • 分类新闻报道。
  • 天空调查编目:识别天空物体的类别

4. 回归(Regression)

根据其他变量的值预测给定连续值变量的值。

应用

  • 根据广告支出预测新产品的销售额。
  • 预测作为温度、湿度、气压等函数的风速。
  • 股票市场指数的时间序列预测。

5. 异常检测(Anomaly detection)

识别特征与其余数据显着不同的观测值。

应用

  • 信用卡欺诈检测。
  • 网络入侵检测。
  • 疾病的异常模式。
  • 生态系统干扰,例如干旱、洪水、火灾、飓风等。

总结

  1. 监督方法(未涵盖,但可在项目中使用):分类,回归。
  2. 无监督方法:聚类,关联规则挖掘,异常检测。
  3. 上面的分类法是对现实的简化。有的方法介于两者之间,可以使用一类中的方法来解决另一类中的部分问题。
  4. 监督方法和非监督方法也分别称为预测和描述。

?

?

?

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-09-30 11:56:30  更:2021-09-30 11:58:48 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年5日历 -2024/5/22 1:25:56-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码