IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> 人工智能 -> 稀疏性(sparse)知识点 -> 正文阅读

[人工智能]稀疏性(sparse)知识点

稀疏性(sparse)

定义:Sparse表示为模型内的参数中,只用很少的几个非零元素或只有很少的几个远大于零的元素。

WHY: 为什么模型中要包含稀疏性的特征呢?

例子:考研学霸有10000的词汇量,考试使用的词汇量,是10000个词汇积累库中的一小部分。

Example:
Test Number:123.456
第一组数字基底:
[100,10,1] ? \Rightarrow ? 123.456 ≈ \approx 100 × \times × 1 + 10 × \times × 2 + 1 × \times × 3 (error=0.456)

第二组数字基底:
[100,50,10,1,0.5,0.1,0.03,0.01,0.001]
123.456=100 × \times × 1 + 50 × \times × 0 + 10 × \times × 2 + 1 × \times × 3 + 0.5 × \times × 0 + 0.1 × \times × 4 + 0.03 × \times × 0 + 0.01 × \times × 5 + 0.001 × \times × 6(error=0)

其中 Sparse Feature(有备无患): 有50,0.5,0.03这三个数。

compared with PCA(Principal Component Analysis)
PCA(a complete set of basis vectors:完备字典)
通过这组完备字典中的向量基底,对原始数据进行还原。

Sparse Represnetation(an over-complete set of basis vectors:超完备字典,与稀疏性背道而驰。)
基向量的数量远远大于输入向量的维度

如何保证稀疏性呢?

机器学习模型 ? \Rightarrow ? 基于训练集优化参数(比如降低Loss) ? \Rightarrow ? Loss中加入正则项,惩罚模型参数数值使其趋近于0

常见的操作:
Loss = Training Loss + λ \lambda λ ∣ ∣ W ∣ ∣ 0 {||W||_0} W0? ( L 0 {L_0} L0?范式)

Loss = Training Loss + λ \lambda λ ∣ ∣ W ∣ ∣ 1 {||W||_1} W1? ( L 1 {L_1} L1?范式)

Sparce Coding(稀疏编码LOSS)
Loss = ∑ j = 1 m ∣ ∣ x ( j ) ? ∑ i = 1 k a i ( j ) ? i ∣ ∣ 2 + λ ∑ i = 1 k ∣ ∣ a i ∣ ∣ 1 \sum_{j=1}^m||x^{(j)}-\sum_{i=1}^k a_i^{(j)}\phi_i||^2 + \lambda\sum_{i=1}^k||a_i||_1 j=1m?x(j)?i=1k?ai(j)??i?2+λi=1k?ai?1?

其中, ∑ i = 1 k a i ( j ) \sum_{i=1}^k a_i^{(j)} i=1k?ai(j)?是重构误差, λ ∑ i = 1 k ∣ ∣ a i ∣ ∣ 1 \lambda\sum_{i=1}^k||a_i||_1 λi=1k?ai?1?为稀疏惩罚( L 1 L_1 L1? Norm)

同样在卷积网络大行其道的时代,我们会在卷积层中加入 L 1 L_1 L1? 范数,以确保其稀疏性。
增加模型的深度和宽度,以确保超完备字典更多。

无脑稀疏到底好还是坏?

超完备字典 ? \Rightarrow ? 大量的高质量数据。
过多的非激活参数 ? \Rightarrow ? 训练过程非常漫长

L 1 L_1 L1?范式在Loss中的某些位置不可导 ? \Rightarrow ? 导数在零处,导数不唯一,因而致使模型难以收敛

总之,在大规模深度学习的模型中,通常倾向使用 L 2 L_2 L2?范式来防止过拟合。

  人工智能 最新文章
2022吴恩达机器学习课程——第二课(神经网
第十五章 规则学习
FixMatch: Simplifying Semi-Supervised Le
数据挖掘Java——Kmeans算法的实现
大脑皮层的分割方法
【翻译】GPT-3是如何工作的
论文笔记:TEACHTEXT: CrossModal Generaliz
python从零学(六)
详解Python 3.x 导入(import)
【答读者问27】backtrader不支持最新版本的
上一篇文章      下一篇文章      查看所有文章
加:2021-08-15 15:32:20  更:2021-08-15 15:38:19 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/27 20:29:32-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码