IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 十六、异常检测 -> 正文阅读

[人工智能]十六、异常检测

1、异常检测(Anormly Detection)介绍

\qquad 异常检测是指在给定的一组无标签数据集 { x ( 1 ) , x ( 2 ) , . . . , x ( m ) } \{x(1), x(2),..., x(m)\} {x(1),x(2),...,x(m)},针对这组数据集训练一个模型 p ( x ) p(x) p(x),来判定某个数据和数据集中大多数数据之间的相似程度(某个数据落在给定数据集中心区域的概率),若某个数据 x t e s t x_{test} xtest?和大多数给定数据之间很相似,则 p ( x t e s t ) ≥ ? p(x_{test})\geq\epsilon p(xtest?)?,说明数据无明显异常情况;否则 p ( x t e s t ) < ? p(x_{test})<\epsilon p(xtest?)<?,说明数据 x t e s t x_{test} xtest?和大多数数据之间差异很大,说明给定的数据可能是一个异常数据。
在这里插入图片描述
\qquad 即若某个数据不落在大多数数据所在的范围之内,则这种数据出现的概率比较小,将检测出的这种数据视为异常数据。

2、异常检测算法

\qquad 首先针对 m m m个数据样本选择出 n n n个可能出现异常的特征 x j , j ∈ n x_{j},j\in n xj?,jn;之后针对所有样本计算每一个特征的均值 μ j , j ∈ n \mu_{j},j \in n μj?,jn和方差 σ j 2 , j ∈ n \sigma_{j}^2,j \in n σj2?,jn;针对新给定的某个数据 x x x计算 p ( x ) p(x) p(x),若 p ( x ) < ? p(x)<\epsilon p(x)<?,则判定数据为异常数据。异常检测算法流程如下所示:
在这里插入图片描述
\qquad 二维特征的异常检测的直观表示如下所示:
在这里插入图片描述

3、评估异常检测算法

\qquad 下面通过飞机引擎异常检测的例子来说明异常检测算法的评估方法:
在这里插入图片描述
\qquad 首先将原始数据划分为训练数据集,交叉验证数据集和测试数据集;将少部分的已知的异常数据划分到交叉验证数据集和测试数据集中,所以CV set和test set可以看做是拥有了标签的数据。
在这里插入图片描述
\qquad 之后根据2中介绍的高斯模型将选定的特征对训练数据集进行异常检测模型 p ( x ) p(x) p(x)的拟合;之后将拟合出的模型 p ( x ) p(x) p(x)针对CV set进行模型检测,这个检测类似于skewed data检测标准,之后根据计算出来的 F 1 F_1 F1?值来判定模型的好坏,同时可以调整模型选定的特征种类和 ? \epsilon ?值的大小。最终将训练好的模型使用测试集test set来验证模型的好坏。

3.1 使用异常检测还是使用监督学习

\qquad 通常当异常样本数量很少(e.g., 0-20),但是正常样本数量很多时,适合使用异常检测;同时当不能确定异常出现的特征时,通常使用异常检测,如零部件异常检测,数据中心计算机监督;而当正常样本和异常样本数量均很多时,样本中包含充分的异常样本信息,则适合使用监督学习,如垃圾邮件检测,天气预测,疾病检测等。

4、处理异常检测的特征向量

\qquad 要使用gaussian分布来拟合异常检测模型,需要保证特征向量的数据分布满足近似高斯分布,若初始数据的特征向量不满足高斯分布,需要对数据进行变换处理,使其近似满足高斯分布,从而使算法达到更好的效果。处理方式可以取对数,取 α ∈ ( 0 , 1 ) \alpha \in(0,1) α(0,1)次方等。
\qquad 选择特征的方法,是可以首先选取一些特征,针对训练数据训练出一个异常检测模型,之后将模型在交叉验证数据集上进行验证,通过验证效果来增加或者减少特征数量。同时,通常选取那些在异常点取值较大或者较小的特征。

5、多元(multivariate)高斯分布

\qquad 假如有n维特征向量 x ∈ R n x \in R^n xRn,多元高斯分布并非将每一维特征向量进行分别拟合 p ( x 1 ) p(x_1) p(x1?) p ( x 2 ) p(x_2) p(x2?),而是将所有的特征向量拟合成一个概率函数 p ( x ) p(x) p(x)。集合形式的高斯异常检测模型需要使用参数 μ ∈ R n \mu \in R^n μRn Σ ∈ R ( n ? n ) ( 协 方 差 矩 阵 ) \Sigma \in R^{(n*n)}(协方差矩阵) ΣR(n?n)(),则 p ( x ; μ , Σ ) = 1 ( 2 π ) n 2 ∣ Σ ∣ 1 2 e x p ? 1 2 ( x ? μ ) T Σ ? 1 ( x ? μ ) p(x;\mu, \Sigma)=\frac{1}{(2\pi)^\frac{n}{2}|\Sigma|^{\frac{1}{2}}}exp^{-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)} p(x;μ,Σ)=(2π)2n?Σ21?1?exp?21?(x?μ)TΣ?1(x?μ)
\qquad 几种多元高斯分布的图像随着 μ \mu μ Σ \Sigma Σ的变化情况如下所示:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5.1 利用多元高斯分布开发异常检测模型

\qquad 给定训练集 x ( 1 ) , x ( 2 ) , . . . , x ( m ) x^{(1)},x^{(2)},...,x^{(m)} x(1),x(2),...,x(m),利用多元高斯分布构建异常检测模型的方法如下所示:
在这里插入图片描述

5.2 原始模型和多元高斯分布模型的区别

\qquad 将多元高斯分布模型的协方差矩阵除对角线元素外的其他元素均设置为0之后,多元高斯模型即为原模型。
在这里插入图片描述

5.3 选择使用原始模型 / 多元高斯模型

\qquad 原始模型需要手动选择某些特征之间的组合值异常,但多元高斯模型可以自动捕捉特征之间的相互关系;原始模型相对于多元高斯模型计算效率更高;多元高斯模型必须满足训练数据数量 m m m大于特征数量 n n n,这样才能协方差矩阵 Σ \Sigma Σ才是可逆的。
在这里插入图片描述
\qquad 协方差矩阵在以下两种情况下回出现不可逆的情况:若训练集中训练数据的数量少于特征数量;若特征之间有线性相关性,即有冗余特征存在。

THE END

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2022-04-27 11:19:34  更:2022-04-27 11:20:28 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/26 10:45:20-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码