| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 游戏开发 -> De Novo Prediction of RNA 3D Structures with Deep Learning -> 正文阅读 |
|
[游戏开发]De Novo Prediction of RNA 3D Structures with Deep Learning |
De Novo Prediction of RNA 3D Structures with Deep LearningYear: 2022 1 Innovation结合自回归深度生成模型、蒙特卡罗树搜索和分数模型预测 RNA 三维折叠结构。 2 Method2.1 Neural Network input data format每个残基( residue )都能用 5 原子位置表示, P, C4’, C2, C6, N9 表示 G/A , P, C4’, C2, C4, N1 表示 C/U ,每个残基都能编码为
8
×
3
8 \times 3
8×3 的坐标矩阵和
8
×
1
8 \times 1
8×1 的掩码数组,如下表所示 2.2 Distance tensors( Euclidian distances )对于长度为 L L L 的 RNA 序列,计算每个被编码原子之间欧氏距离,结果为 8 L × 8 L 8L \times 8L 8L×8L 的距离矩阵(残基中只存在 5 种原子, 3 种不存在原子之间的距离记为 0 ),之后该矩阵 reshape 为 L × L × 64 L \times L \times 64 L×L×64 的距离张量( Euclidian distances ) D D D 。 2.3 Structures with long or multiple chains当结构具有多个链时,以与它的长度成正比的概率随机选择一个链并用作子结构,如果该链的长度超过 100 个残基,则随机截取长度为 100nt 的部分用作子结构。对该子结构中的每个残基,计算与子结构外所有残基的距离。对于存在距离低于 3.3 A ? 3.3 \mathring{A} 3.3A? 的残基被标记为 “fixed”,并且 “fixed” 残基所对应的距离类别( distance classes )在生成器训练期间在输入端呈现。 2.4 Data augmentation作者反向使用 SimRNA ,从原始结构开始提高温度以“远离”原始结构,为每个训练结构生成 100 个新数据,它们与原始结构相距大约 1 , 3 , 5 , 10 A ? 1, 3, 5, 10\mathring{A} 1,3,5,10A? RMSE。 2.5 Distance classes作者使用向量量化变分自动编码器( Vector Quantised Variational Autoencoder, VQ-VAE) ,将残基中原子之间的欧式距离压缩为 K = 3 K = 3 K=3 个类别,这 3 个类别与距离度量 “near”, “intermediate”, “far” 非常吻合,所以称之为距离类别( distance classes )。文章中没有说明为什么吻合。编码器输出大小为 L × L × 8 L \times L \times 8 L×L×8 ,码本中含有 3 个向量,于是得到 L × L L \times L L×L 的 index 。为了保持对称性。之后,将 index 沿着前两个维度转置后相加除以 2 ,将 index 变成 one hot 向量得到 L × L × 3 L \times L \times 3 L×L×3 大小的张量,这个张量即为深度生成模型的目标。 2.6 Generator Network: Data Preprocessing将以下四种张量堆叠起来作为生成器的输入
2.7 Generator Network: Attention map of homologous sequences and SHAPE对于每个训练样本,搜索 50 个 one hot 编码的同源序列,如果同源序列不足 50 ,则采取原始序列作为填充,获得 L × 50 × 4 L \times 50 \times 4 L×50×4 大小的张量,再使用全连接层将其映射至大小为 L × 50 L \times 50 L×50 的张量,再将 SHAPE( selective hydroxyl acylation analyzed by primer extension ) 反应值拼接进去,得到大小为 L × 51 L \times 51 L×51 的张量。作者采用 transformer 中的自注意力机制得到大小为 L × L × 1 L \times L \times 1 L×L×1 的注意力图, query 和 key 的大小为 L × 64 L \times 64 L×64 。引入 value 效果会不会更好? 2.8 Generator Network: Architecture生成器主要为加残差的卷积神经网络,具体结构详见论文 Supplementary Information 中的 Generator Network: Architecture ,最后输出大小为 L × L × 3 L \times L \times 3 L×L×3 ,目的是预测 distance class map 。 2.9 Score Model分数模型的目的是区分两个 distance class map 哪一个更好,输出
L
×
L
×
1
L \times L \times 1
L×L×1 的 logit map,模型结构详见论文 Supplementary Information 中的 Score Model 。在训练中,输入一个正确(原始)的 distance class map 和相对应不正确(通过数据增广得到)的 distance class map 。 其中, f ( s N , x ) f(s_N, x) f(sN?,x) 为神经网络的标量输出, s N s_N sN? 为正确样本, s N ′ s_N' sN′? 为错误样本, x x x 为序列信息。 不正确的 logit map 减去正确的 logit map ,然后对所有差异求和。可不可以仿照 ARES ,将模型的输出变为与真实结构的差距? 2.10 MCTS: Sampling structural ensemblesMCTS 算法使用生成器迭代地对三个 distance classes 进行像素采样。首先,我们设置对角的 distance class 为 “near” 。接着,使用 MCTS 迭代的为剩下的像素添加 distance classes 。通常,当 MCTS 能够正确预测 30% 的 distance classes 时,生成器会产生足够清晰的预测。 2.11 Structural Sampling当模型处于叶节点,进行选择阶段时(选择从根节点
s
0
s_0
s0? 到叶节点
s
L
s_L
sL? 的路径),策略为 其中
Q
Q
Q 表示熵减率,
N
(
s
t
,
a
)
N(s_t, a)
N(st?,a) 表示在
s
t
s_t
st? 状态执行动作
a
a
a 的次数,初始化为 1 ,
c
c
c 为超参数。 在回溯阶段 本文中
∣
S
H
∣
=
10
| S_H | = 10
∣SH?∣=10 。 Result |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年12日历 | -2024/12/22 17:59:25- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |