| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 知识图谱-生物信息学-医学顶刊论文(Bioinformatics-2021)-MUFFIN:用于DTI预测的多尺度特征融合 -> 正文阅读 |
|
[人工智能]知识图谱-生物信息学-医学顶刊论文(Bioinformatics-2021)-MUFFIN:用于DTI预测的多尺度特征融合 |
2.(2021.3.15)Bioinformatics-MUFFIN:用于DTI预测的多尺度特征融合论文标题: MUFFIN: multi-scale feature fusion for drug–drug interaction prediction 摘要动机: 结果: 1.引言药物-药物相互作用(DDI)引起的药物不良反应(ADR)可能会增加发病率和死亡率。因此,识别潜在的DDIS是至关重要的。近年来,人们采用了多种方法对DDI进行预测。预测DDIS的基本方法是传统的实验室方法。考虑到这些方法是劳动密集型的、耗时的和昂贵的,发现潜在的DDI的能力是非常有限的。因此,需要寻找准确可靠的计算方法。 机器学习是近年来兴起的一种计算方法,已被广泛应用于DDIS的预测。现有的基于机器学习的方法通过利用不同的与药物相关的相似性特征来预测潜在的DDiS,例如分子结构、副作用、显性相似性和基因组相似性。然而,这些作品在很大程度上依赖于手工特征和领域知识。最近的基于深度学习的方法可以从大量的数据中自动学习具有高度稳健性和泛化能力的抽象特征,缓解了传统机器学习带来的局限性。然而,以前的工作需要大量的标记数据,而这些数据可能会有假正类样本。它们通常要么关注药物的结构信息或SMILES序列而不考虑与药物相关的丰富语义信息,或者利用具有丰富生物医学信息的知识图(KG)而不考虑药物分子结构信息。
虽然这些方法取得了较强的预测效果,但都没有考虑药物化学结构与KG之间的协同作用,从而限制了其预测能力。此外,大多数最新的工作考虑的是药物之间的相互作用的存在,将DDI预测作为一个二进制分类任务,而忽略了对药物之间特定类型的不良反应的重要研究。例如,KGNN确定了药物之间是否存在相互作用,而在我们的模型中,我们预测了这种相互作用的具体类型。例如,我们确定阿司匹林是否可以降低戈舍瑞林的排泄率,并可能提高血清水平。 考虑到上述局限性,我们提出了一种新的多尺度特征融合(MUFFIN)模型,这是一种利用药物化学结构和生物医学KG进行DDI预测的深度学习框架。我们设计了一种双层交叉策略,可以从基于卷积神经网络(CNN)的交叉层和标量层视角联合学习药物内部(化学结构)和外部(KG)特征的融合表示。该双层结构通过多粒度特征融合过程对多粒度特征进行有效组合,从而提高了DDI预测能力。此外,我们还在三种不同的DDI预测任务,即二分类任务、多分类任务和多标签任务上对MUFFIN模型进行了评估。实验结果表明,MUFFIN在三个任务上都取得了最好的性能,从而支持了KG的化学结构和知识特征相结合的意义。本文的主要贡献可以概括为:
2.相关工作近年来,人们提出了许多利用药物化学结构来解决DDI预测问题的工作。有人将DDI和药物结构相似性矩阵结合起来,生成DDI相互作用相似性矩阵,从而确定DDI候选者。有人利用药物表型、治疗、化学结构和基因组性质等四个相似性,并结合基于机器学习的五个模型(朴素贝叶斯、决策树、k近邻、Logistic回归和支持向量机)来处理DDI预测任务。有人利用药物化学结构的相似性作为特征,然后将药物-药物对输入深度神经网络(DNN)来预测相互作用类型。有人开发了一个端到端模型,该模型通过使用从药物SMILES序列中提取的子结构信息来预测DDIS来生成功能表示。 除了我们提到的基于药物化学结构的方法外,一些工作还利用了生物医学网络中药物的拓扑信息。有人提出了一个集合模型,该模型使用8种不同类型的药物数据和已知的DDI网络来预测DDI。有人发展了一个包含药物、靶点和副作用的图形卷积网络(GCN),并将DDI预测视为多关系链接预测任务。有人设计了一个具有注意力机制的多视图自动编码器,通过考虑已知药物属性的集成,如副作用、适应症和相互作用来预测DDIS。此外,对于KG中与药物相关的大型数据,有人将多源数据集集成到KG中,然后利用复杂的KG嵌入方法与卷积LSTM网络预测DDI。有人通过Bio2RDF工具将DrugBank和KEGG数据集转换为KG形式,然后利用选择性聚合邻居信息获得的表示来解决DDI预测问题。 然而,这些工作大多只是简单地考虑药物之间存在相互作用,而没有识别药物之间相互作用的副作用类型。同时,这些方法将结构信息和知识信息分开使用,没有考虑两者的互补作用。因此,我们的目标是设计一种新的融合策略,充分利用从药物分子图和大规模生物医学KG中提取的特征,生成适用于二分类、多分类和多标签DDI预测任务的药物表示。 3.模型方法我们的问题表述在第3.1节中进行了总结;第3.2节介绍了我们提出的MUFFIN的框架;第3.3节描述了药物的两种表示;第3.4节开发了一种双层融合策略,该策略利用结构和与药物有关的知识信息来进一步学习药物表示;第3.5节表示如何利用这种表示法来准确预测DDI类型。 3.1 问题表述在我们的研究中,我们将药物集合表示为 D = { d 1 , d 2 , … , d N d } D=\left\{d_1,d_2,\ldots,d_{N_d}\right\} D={d1?,d2?,…,dNd??}及其对应的分子结构图集合为 G d r u g = { g 1 , g 2 G_{drug}=\left\{g_1,g_2\right. Gdrug?={g1?,g2?, … , g N d } \left.\ldots,g_{N_d}\right\} …,gNd??},其中 N d N_d Nd?是药物总数。对于二分类预测任务,我们定义了一个DDI关系矩阵 Y Y Y用以表示药物 d i d_i di?和 d j d_j dj?之间是否存在DDI,其中每个元素 y i j ∈ { 0 , 1 } y_{ij}\in\{0,1\} yij?∈{0,1}表示存在 d i d_i di?和 d j d_j dj?相互作用的实验证据(即 y i j = 1 y_{ij}=1 yij?=1)或缺乏相互作用的证据(即 y i j = 0 ) \left.y_{ij}=0\right) yij?=0)。对于多分类预测任务,我们考虑DDI对的所有类型 R D R_D RD?(我们的工作中定义了81种类型的DDI关系)。对于多标签任务,考虑了200种不同的DDI类型。 我们将 G k g = { ( h , r , t ) ∣ h , t ∈ E , r ∈ R } G_{kg}=\{(h,r,t)\mid h,t\in E,r\in R\} Gkg?={(h,r,t)∣h,t∈E,r∈R}表示为 K G \mathrm{KG} KG,其中 E E E表示实体集, R R R表示KG中的关系集。每个三元组 ( h i , r i , t i ) \left(h_i,r_i,t_i\right) (hi?,ri?,ti?)描述的是 h i h_i hi?和 t i t_i ti?之间存在以 r i r_i ri?为关系的连接(例如Loxoprofen、drug-target和COX2),其中 h i , t i ∈ E , r i ∈ R , i ∈ { 1 , 2 , … , N k g } h_i,t_i\in E,r_i\in R,i\in\left\{1,2,\ldots,N_{kg}\right\} hi?,ti?∈E,ri?∈R,i∈{1,2,…,Nkg?}, N k g N_{kg} Nkg?表示KG中三元组的总数。 对于DDI预测问题,给定 G k g G_{kg} Gkg?和DDI关系矩阵 Y Y Y(或DDI交互对),我们旨在学习预测函数 y ^ i j = F 1 ( ( d i , d j ) ∣ θ , G k g , Y ) \hat{y}_{ij}=\mathcal{F}_1\left(\left(d_i,d_j\right)\mid\theta,G_{kg},Y\right) y^?ij?=F1?((di?,dj?)∣θ,Gkg?,Y)和一个把二分类和多分类分别从药物对 ( d i , d j ) \left(d_i,d_j\right) (di?,dj?)映射到特定类型的映射函数 F 2 : D × D → \mathcal{F}_2:D\times D\rightarrow F2?:D×D→ R D R_D RD?,其中 θ \theta θ表示模型参数, y ^ i j \hat{y}_{ij} y^?ij?表示药物对 ( d i , d j ) \left(d_i,d_j\right) (di?,dj?)之间相互作用的概率。 3.2 MUFFIN概述MUFFIN的框架如图1所示。我们的框架由三个模块组成。
3.3 表示学习模块3.3.1 基于图形的表示对于每种药物
d
i
∈
D
d_i \in D
di?∈D,我们根据其SMILES序列构建了一个分子结构图
g
i
∈
G
d
r
u
g
,
g
i
=
(
V
,
E
)
g_i \in G_{drug},g_i=(\mathcal{V},\mathcal{E})
gi?∈Gdrug?,gi?=(V,E)其中
V
\mathcal{V}
V代表原子,
E
\mathcal{E}
E代表化学键。我们采用消息传递神经网络(MPNN)来生成
d
i
d_i
di?的结构表示。该过程涉及消息传递阶段和读出阶段。在消息传递阶段,我们执行了k次迭代,并通过聚合其邻居信息来更新节点
p
p
p的表示。形式上,消息传递阶段生成节点
p
p
p的表示可以描述如下:
3.3.2 基于KG的表示对于
G
k
g
G_{\mathrm{kg}}
Gkg?中的每个实体(一种药物对应一个实体节点)和关系,我们使用一种广泛使用的KGE方法–TransE来获得基于KG的表示。具体来说,假设
G
k
g
G_{kg}
Gkg?中存在三元组
(
h
,
r
,
t
)
(h,r,t)
(h,r,t),它通过优化平移规则
e
h
+
e
r
≈
e
t
\boldsymbol{e}_h+\boldsymbol{e}_r\approx \boldsymbol{e}_t
eh?+er?≈et?来学习实体和关系嵌入,其中
e
h
,
e
t
,
e
r
∈
R
d
\boldsymbol{e}_h,\boldsymbol{e}_t,\boldsymbol{e}_r \in R^d
eh?,et?,er?∈Rd。TransE模型经过训练来最小化基于边界的损失函数,如下所述:
φ
=
(
h
,
r
,
t
)
∈
T
∪
(
h
′
,
r
,
t
′
)
∈
T
(
h
,
r
,
t
)
′
(4)
\varphi =(h, r, t) \in T \cup\left(h^{\prime}, r, t^{\prime}\right) \in T_{(h, r, t)}^{\prime} \tag{4}
φ=(h,r,t)∈T∪(h′,r,t′)∈T(h,r,t)′?(4) 其中 e h , e r \boldsymbol{e}_h,\boldsymbol{e}_r eh?,er?和 e t \boldsymbol{e}_t et?分别是头部实体、关系和尾部实体的嵌入, f ( ? ) f(\cdot) f(?)是TransE计算的距离, T T T和 T ′ T' T′是三元组的正样本集合和负样本集合, γ \gamma γ表示边距参数。对于负类三元组 T ′ T' T′,它是通过用从 G k g G_{kg} Gkg?中随机采样的实体和关系替换正三元组中的实体或关系来制定的。 3.4 特征融合模块我们采用双层策略来融合基于结构图和KG的表示。融合特征用于表达多方面药物特征的交互信息。在双层融合操作之前,使用全连接层将特征向量转移到相同的公共向量空间
u
\mathbf{u}
u和
v
\mathbf{v}
v中。向量分别表示为由基于图的药物节点表示
z
\mathbf{z}
z和基于KG的药物节点表示
e
\mathbf{e}
e计算得到的
u
\mathbf{u}
u和
v
\mathbf{v}
v。具体来说,
z
\mathbf{z}
z和
e
\mathbf{e}
e代表所有药物的基于图形和KG的表示,如第3.3节所示。该过程可以表述如下: 3.4.1 交叉层我们将转换后的基于图和KG的药物(
d
i
∈
D
d_i \in D
di?∈D)表示分别设为向量
u
i
=
{
u
i
1
,
u
i
2
,
?
?
,
u
i
d
}
u_i=\{u_{i1},u_{i2},\cdots,u_{id}\}
ui?={ui1?,ui2?,?,uid?}和
v
i
=
{
v
i
1
,
v
i
2
,
?
?
,
v
i
d
}
v_i=\{v_{i1},v_{i2},\cdots,v_{id}\}
vi?={vi1?,vi2?,?,vid?}。
u
i
(
v
i
)
u_i(v_i)
ui?(vi?)表示向量
u
(
v
)
\mathbf{u}(\mathbf{v})
u(v)中的第
i
i
i行。我们首先通过叉积运算构造了一个交叉矩阵
C
i
C_i
Ci?,这个矩阵表达了
u
i
u_i
ui?和
v
i
v_i
vi?的交互作用如下: a i g = Flatten ? ( C i ) (10) a_{i_g}=\operatorname{Flatten}\left(C_i\right) \tag{10} aig??=Flatten(Ci?)(10)
a
i
=
MLP
?
(
[
a
i
l
∥
a
i
g
]
)
(11)
a_i=\operatorname{MLP}\left(\left[a_{i_l} \| a_{i_g}\right]\right) \tag{11}
ai?=MLP([ail??∥aig??])(11) 3.4.2 标量层我们使用对角元素乘积运算对从基于图和KG的表示中学习到的
u
i
u_i
ui?和
v
i
v_i
vi?之间的特征交互进行编码,然后将对角元素向量输入到全连接层以获得标量级融合特征
s
i
s_i
si?。该过程描述如下: 3.5 分类模块我们将四部分药物表示(包括基于图的表示
u
i
u_i
ui?、基于KG的表示
v
i
v_i
vi?、交叉表示
a
i
a_i
ai?和标量级表示
s
i
s_i
si?)连接为药物
d
i
d_i
di?的最终表示。该过程可以描述如下: 对于DDI预测任务,我们将一对药物
(
d
i
,
d
j
)
(d_i,d_j)
(di?,dj?)的最终表示连接起来,然后将它们送入全连接层中,以预测DDI概率,如下所示: 3.6 训练在训练过程中,我们通过最小化二分类和多标签预测任务中的交叉熵损失来优化MUFFIN的参数,如下所述:
其中 N c N_c Nc?为多类DDI类型的个数, y c ∈ { 0 , 1 } y_c \in \{ 0,1 \} yc?∈{0,1}描述当前类型 c c c是否与样本对的真实标签相同, y ^ c \hat{y}_c y^?c?表示模型预测的样本 ( d i , d j ) (d_i,d_j) (di?,dj?)属于类型 c c c的概率。
|
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/25 20:19:14- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |