| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 十六、异常检测 -> 正文阅读 |
|
[人工智能]十六、异常检测 |
文章目录1、异常检测(Anormly Detection)介绍
\qquad
异常检测是指在给定的一组无标签数据集
{
x
(
1
)
,
x
(
2
)
,
.
.
.
,
x
(
m
)
}
\{x(1), x(2),..., x(m)\}
{x(1),x(2),...,x(m)},针对这组数据集训练一个模型
p
(
x
)
p(x)
p(x),来判定某个数据和数据集中大多数数据之间的相似程度(某个数据落在给定数据集中心区域的概率),若某个数据
x
t
e
s
t
x_{test}
xtest?和大多数给定数据之间很相似,则
p
(
x
t
e
s
t
)
≥
?
p(x_{test})\geq\epsilon
p(xtest?)≥?,说明数据无明显异常情况;否则
p
(
x
t
e
s
t
)
<
?
p(x_{test})<\epsilon
p(xtest?)<?,说明数据
x
t
e
s
t
x_{test}
xtest?和大多数数据之间差异很大,说明给定的数据可能是一个异常数据。 2、异常检测算法
\qquad
首先针对
m
m
m个数据样本选择出
n
n
n个可能出现异常的特征
x
j
,
j
∈
n
x_{j},j\in n
xj?,j∈n;之后针对所有样本计算每一个特征的均值
μ
j
,
j
∈
n
\mu_{j},j \in n
μj?,j∈n和方差
σ
j
2
,
j
∈
n
\sigma_{j}^2,j \in n
σj2?,j∈n;针对新给定的某个数据
x
x
x计算
p
(
x
)
p(x)
p(x),若
p
(
x
)
<
?
p(x)<\epsilon
p(x)<?,则判定数据为异常数据。异常检测算法流程如下所示: 3、评估异常检测算法
\qquad
下面通过飞机引擎异常检测的例子来说明异常检测算法的评估方法: 3.1 使用异常检测还是使用监督学习\qquad 通常当异常样本数量很少(e.g., 0-20),但是正常样本数量很多时,适合使用异常检测;同时当不能确定异常出现的特征时,通常使用异常检测,如零部件异常检测,数据中心计算机监督;而当正常样本和异常样本数量均很多时,样本中包含充分的异常样本信息,则适合使用监督学习,如垃圾邮件检测,天气预测,疾病检测等。 4、处理异常检测的特征向量
\qquad
要使用gaussian分布来拟合异常检测模型,需要保证特征向量的数据分布满足近似高斯分布,若初始数据的特征向量不满足高斯分布,需要对数据进行变换处理,使其近似满足高斯分布,从而使算法达到更好的效果。处理方式可以取对数,取
α
∈
(
0
,
1
)
\alpha \in(0,1)
α∈(0,1)次方等。 5、多元(multivariate)高斯分布
\qquad
假如有n维特征向量
x
∈
R
n
x \in R^n
x∈Rn,多元高斯分布并非将每一维特征向量进行分别拟合
p
(
x
1
)
p(x_1)
p(x1?)和
p
(
x
2
)
p(x_2)
p(x2?),而是将所有的特征向量拟合成一个概率函数
p
(
x
)
p(x)
p(x)。集合形式的高斯异常检测模型需要使用参数
μ
∈
R
n
\mu \in R^n
μ∈Rn,
Σ
∈
R
(
n
?
n
)
(
协
方
差
矩
阵
)
\Sigma \in R^{(n*n)}(协方差矩阵)
Σ∈R(n?n)(协方差矩阵),则
p
(
x
;
μ
,
Σ
)
=
1
(
2
π
)
n
2
∣
Σ
∣
1
2
e
x
p
?
1
2
(
x
?
μ
)
T
Σ
?
1
(
x
?
μ
)
p(x;\mu, \Sigma)=\frac{1}{(2\pi)^\frac{n}{2}|\Sigma|^{\frac{1}{2}}}exp^{-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)}
p(x;μ,Σ)=(2π)2n?∣Σ∣21?1?exp?21?(x?μ)TΣ?1(x?μ) 5.1 利用多元高斯分布开发异常检测模型
\qquad
给定训练集
x
(
1
)
,
x
(
2
)
,
.
.
.
,
x
(
m
)
x^{(1)},x^{(2)},...,x^{(m)}
x(1),x(2),...,x(m),利用多元高斯分布构建异常检测模型的方法如下所示: 5.2 原始模型和多元高斯分布模型的区别
\qquad
将多元高斯分布模型的协方差矩阵除对角线元素外的其他元素均设置为0之后,多元高斯模型即为原模型。 5.3 选择使用原始模型 / 多元高斯模型
\qquad
原始模型需要手动选择某些特征之间的组合值异常,但多元高斯模型可以自动捕捉特征之间的相互关系;原始模型相对于多元高斯模型计算效率更高;多元高斯模型必须满足训练数据数量
m
m
m大于特征数量
n
n
n,这样才能协方差矩阵
Σ
\Sigma
Σ才是可逆的。 THE END |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/26 10:45:20- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |