IT数码 购物 网址 头条 软件 日历 阅读 图书馆
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
图片批量下载器
↓批量下载图片,美女图库↓
图片自动播放器
↓图片自动播放器↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁
 
   -> C++知识库 -> 基因序列相似度(LCS) -> 正文阅读

[C++知识库]基因序列相似度(LCS)

目录

1.问题描述

2.一些细节

3.思路

4.代码


1.问题描述

基因序列包含四种核苷酸,分别用A,C,T和G四个字母简单地表示。 编写一个程序,按以下规则比较两个基因并确定它们的相似程度。

规则:使用对齐方法,可以在基因的适当位置插进空格,让两个基因的长度相等,然后根据基因分值矩阵计算分数。

例如,给AGTGATG插入一个空格,就得到AGTGAT-G;给GTTAG插入三个空格,就得到-GT--TAG。空格用减号(-)表示。

把?AGTGAT-G与-GT--TAG 对齐以后,有四个基因是相配的:第二位的G,第三位的T,第六位的T和第八位的G。根据下列基因分值矩阵,每对匹配的字符都有相应的分值。 * 表示空格对空格是不允许的。上面对齐的字符串分值是: (-3)+5+5+(-2)+(-3)+5+(-3)+5=9。

A

C

G

T

-

A

5

-1

-2

-1

-3

C

-1

5

-3

-2

-4

G

-2

-3

5

-2

-2

T

-1

-2

-2

5

-1

-

-3

-4

-2

-1

*

另一种对齐方式(不同数量的空格插进不同的位置): AGTGATG与-GTTA-G 这种对齐方式的分值是(-3)+5+5+(-2)+5+(-1) +5=14,这种对齐方式是最优的,没有其他的方式能得到更高的分值了,所以这两个基因的相似度是14。

2.一些细节

(1)基因分值矩阵的表示:

int score[5][5] = {{5, -1, -2, -1, -3}, 
			{-1, 5, -3, -2, -4}, 
			{-2, -3, 5, -2, -2},
			{-1, -2, -2, 5, -1}, 
			{-3, -4, -2, -1, 0}};

(2)原矩阵的下标是'A','C','G','T'和'-',可以采用switch语句转换,这里采用map数组转换:

char map[128]中:map['A'] = 0; map['C'] = 1; map['G'] = 2; map['T'] = 3; map['-'] = 4;

3.思路

本题类似最长公共子序列(LCS)问题

gene[i][j]表示基因子串str1[0…i-1]和str2[0…j-1]的分值:

  • str1取第i-1个字母,str2取'-': m1 = gene[i-1][j] + score[map[str1[i-1]]][4];
  • str1取'-',str2取第j-1个字母: m2 = gene[i][j-1] + score[4][map[str2[j-1]]];
  • str1取第i-1个字母,str2取第j-1个字母:m3 = gene[i-1][j-1] + score[map[str1[i-1]]][map[str2[j-1]]];

gene[i][j] = max(m1, m2, m3)

最终结果是gene[first][second]

注意:字符串str1, str2的下标从0开始,数组gene中的下标从1开始,所以下标差1

初始化:

  • 当i=0, j=0时,gene[0][0] = 0;
  • 当i=0时,即为gene [0,1…second]
    • for(i = 1 ; i <= second;i++)
      • gene[0][i] = gene[0][i-1]+score[4][map[str2[i-1]]];
  • (3) 当j=0时,即为gene [1…first, 0]
    • for(i = 1 ; i <= first;i++)
      • gene[i][0] = gene[i-1][0]+score[map[str1[i-1]]][4];

4.代码

#include <iostream>
#include <cstdio>
using namespace std;
#define MAX 101
int score[5][5]={
    {5,-1,-2,-1,-3},
    {-1,5,-3,-2,-4},
    {-2,-3,5,-2,-2},
    {-1,-2,-2,5,-1},
    {-3,-4,-2,-1,0}};

int gene[MAX][MAX];
int main()
{
    int n,length1,length2;
    scanf("%d",&n);
    char str1[MAX],str2[MAX];
    char map[100];
    map['A']=0;map['C']=1;map['G']=2;
    map['T']=3;map['-']=4;
    while(n--){
        scanf("%d%s",&length1,str1);
        scanf("%d%s",&length2,str2);
        gene[0][0]=0;
        for(int i=1;i<=length2;i++)
            gene[0][i]=gene[0][i-1]+score[4][map[str2[i-1]]];
        for(int i=1;i<=length1;i++)
            gene[i][0]=gene[i-1][0]+score[map[str1[i-1]]][4];

        int m1,m2,m3;
        for(int i=1;i<=length1;i++)
            for(int j=1;j<=length2;j++){
                m1=gene[i-1][j]+score[map[str1[i-1]]][4];
                m2=gene[i][j-1]+score[4][map[str2[j-1]]];
                m3=gene[i-1][j-1]+score[map[str1[i-1]]][map[str2[j-1]]];
                gene[i][j]=max(m1,max(m2,m3));
    }
    printf("%d",gene[length1][length2]);
    }

    return 0;
}

  C++知识库 最新文章
【C++】友元、嵌套类、异常、RTTI、类型转换
通讯录的思路与实现(C语言)
C++PrimerPlus 第七章 函数-C++的编程模块(
Problem C: 算法9-9~9-12:平衡二叉树的基本
MSVC C++ UTF-8编程
C++进阶 多态原理
简单string类c++实现
我的年度总结
【C语言】以深厚地基筑伟岸高楼-基础篇(六
c语言常见错误合集
上一篇文章      下一篇文章      查看所有文章
加:2022-03-31 23:45:54  更:2022-03-31 23:49:01 
 
开发: C++知识库 Java知识库 JavaScript Python PHP知识库 人工智能 区块链 大数据 移动开发 嵌入式 开发工具 数据结构与算法 开发测试 游戏开发 网络协议 系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑 笔记本 显卡 显示器 固态硬盘 硬盘 耳机 手机 iphone vivo oppo 小米 华为 单反 装机 图拉丁

360图书馆 购物 三丰科技 阅读网 日历 万年历 2024年11日历 -2024/11/24 2:09:07-

图片自动播放器
↓图片自动播放器↓
TxT小说阅读器
↓语音阅读,小说下载,古典文学↓
一键清除垃圾
↓轻轻一点,清除系统垃圾↓
图片批量下载器
↓批量下载图片,美女图库↓
  网站联系: qq:121756557 email:121756557@qq.com  IT数码