| |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
-> 人工智能 -> 山东大学2019级软件工程应用与实践——基于人工智能的多肽药物分析问题(七) -> 正文阅读 |
|
[人工智能]山东大学2019级软件工程应用与实践——基于人工智能的多肽药物分析问题(七) |
2021SC@SDUSC 基于人工智能的多肽药物分析问题主题:蛋白质预训练模型学习论文:《ProtTrans: Towards Cracking the Language of Life’s Code Through Self-Supervised Learning》 文章地址:https://www.biorxiv.org/content/10.1101/2020.07.12.199554v3 源码地址:https://github.com/agemagician/ProtTrans 摘要:计算生物学和生物信息学为蛋白质序列提供了巨大的数据金矿,是NLP语言模型的理想选择。这些语言模型以较低的推理成本达到了新的预测前沿。在这里,我们根据包含3930亿氨基酸的UniRef和BFD的数据训练了两个自回归模型(Transformer XL、XLNet)和四个自动编码器模型(BERT、Albert、Electra、T5)。语言模型在Summit超级计算机上使用5616 GPU和多达1024核的TPU Pod进行训练。 降维显示,未标记数据中的原始蛋白质语言模型嵌入捕获了蛋白质序列的一些生物物理特征。我们验证了使用嵌入作为几个后续任务的独占输入的优势。第一个是蛋白质二级结构的per-residue预测(三态精度Q3=81%-87%);第二个是蛋白质亚细胞定位的per-protein预测(十态精度:Q10=81%)和膜与水溶性(两态精度Q2=91%)。对于per-residue预测,在不使用进化信息的情况下,信息量最大的嵌入(ProtT5)的传输首次超过了最新技术,从而绕过了昂贵的数据库搜索。总之,研究结果表明蛋白质语言模型学习了一些生活语言的语法。 代码分析:
加载必要的库
设置ProtAlbert和词汇表文件 (vocabulary file) 的url位置
下载ProtAlbert模型和词汇表文件
加载 ProtAlbert 模型
将模型加载到GPU(如果有),并切换到推理模式
基准配置
开始基准测试
基准测试结果 |
|
|
上一篇文章 下一篇文章 查看所有文章 |
|
开发:
C++知识库
Java知识库
JavaScript
Python
PHP知识库
人工智能
区块链
大数据
移动开发
嵌入式
开发工具
数据结构与算法
开发测试
游戏开发
网络协议
系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程 数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁 |
360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 | -2024/11/27 6:32:36- |
|
网站联系: qq:121756557 email:121756557@qq.com IT数码 |