[人工智能] 文本生成图像Text-To-Image评估指标IS、FID、VSS

开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 文本生成图像Text-To-Image评估指标IS、FID、VSS -> 正文阅读

[人工智能]文本生成图像Text-To-Image评估指标IS、FID、VSS

IS分数（Inception Score）：衡量图像质量和多样性

FID距离（弗雷彻特初始距离）：衡量图像质量和多样性

VSS（Visual-Semantic Similarity）视觉语义相似度：衡量图像与输入文本的语义匹配度

补充信息熵的计算：

IS分数，越高越好。

对于图像质量。借助了一个外部图像分类器。p(y|x)的熵越小，说明数据分布较为集中（熵越大，代表分布越混乱）。y表示类别标签，x表示生成的图像。如果图像可以以很高的置信度被判别为某一类别，说明具有很好的清晰度和辨识度；如果难于明确分类，则说明图像质量差。

一般使用在ImageNet上训练好的Inception-v3网络。

对于图像多样性。如果GAN生成的图像具有很好的多样性，那么理应这些图像属于不同类别的概率是相同的，也就是图像属于不同类别的概率分布的信息熵越大越好。

IS分数定义为两者的结合，边缘分布p(y)和条件分布p(y|x)的KL散度的期望，即给定一个生成图像x，类别信息y的不确定性的减少程度。

?我们期望的是p(y)越大越好，而p(y|x)越小越好，根据定义，IS的值应该越大越好，即在给定了图x后，类别信息y的不确定性减少程度要大，即IS要大。

FID值，越小越好

把Inception-v3作为特征提取器，计算真实图像和生成图像再特征空间的Frechet距离（也叫Wasserstain-2距离），FID值的定义如下，假设它服从多元高斯概率分布，r是真实图像，g是生成图像， $\mu$ 是均值， $\Sigma$ 是协方差，tr()表示矩阵的迹。FID值被认为比IS更鲁棒，且更接近于人类质量评估，可用于复杂的数据集

?视觉-语义相似度VSS，越大越好

该衡量标准由HDGAN提出。其要训练一个视觉-语义嵌入模型，用以测量生成图像和文本描述之间的距离，需要额外的训练两个函数 $f_{v}$ 、 $f_{t}$ ，可看做是图像编码器和文本编码器，它们分别将真实图像和文本映射到公共语义空间（512维）

? $\delta$ 是边界，一般设置为0.2，c(x,y)是余弦相似度函数，计算x和y的余弦相似度。{v, tv} 和 {t, vt} 是真实且匹配的图像文本对，其他组合是不匹配的。将v和t分别经fv和ft映射到公共的语义空间，计算他们之间的余弦相似度，其值越大，表示该图像v和文本t的语义一致性越大。