網(wǎng)站首頁編程語言正文

Python一階馬爾科夫鏈生成隨機(jī)DNA序列實(shí)現(xiàn)示例_python

作者：BioChem ? 更新時(shí)間： 2022-08-23 編程語言

1. 原理

對(duì)于DNA序列，一階馬爾科夫鏈可以理解為當(dāng)前堿基的類型僅取決于上一位堿基類型。如圖1所示，一條序列的開端（由B開始）可能是A、T、G、C四種堿基（且可能性相同，均為0.25），若序列的某一位是A，則下一位堿基是A、T、G、C的概率分別為0.25、0.20、0.20、0.20，下一位無堿基（即序列結(jié)束，狀態(tài)為E）的概率為0.15。

圖1 DNA序列的一階馬爾科夫鏈

2. 代碼實(shí)現(xiàn)

以下代碼運(yùn)行于Jupyter Notebook (Python 3.7)；代碼功能是隨機(jī)生成一定數(shù)量的DNA序列，統(tǒng)計(jì)序列長(zhǎng)度并繪制分布圖。若希望顯示隨機(jī)生成的序列，將代碼# print(''.join(Seq))前的#刪除即可。

import numpy
import random
import seaborn as sns
import matplotlib.pyplot as plt

# 狀態(tài)空間
states = ["A","G","C","T","E"]

# 可能的事件序列
transitionName = [["AA","AG","AC","AT","AE"],
                  ["GA","GG","GC","GT","GE"],
                  ["CA","CG","CC","CT","CE"],
                  ["TA","TG","TC","TT","TE"],]

# 概率矩陣（轉(zhuǎn)移矩陣）
transitionMatrix = [[0.25,0.20,0.20,0.20,0.15],
                    [0.20,0.25,0.20,0.20,0.15],
                    [0.20,0.20,0.25,0.20,0.15],
                    [0.20,0.20,0.20,0.25,0.15]]

def RandomDNAs(Num):
    max_len = 0
    i = 0
    Seq = [] #創(chuàng)建列表(Seq)用于添加堿基，以組成DNA序列
    Len = [] #創(chuàng)建列表(Len)用于記錄每條生成序列的長(zhǎng)度
    while i != Num:
        Base = ["A","G","C","T"]
        START = random.choice(Base) #隨機(jī)從堿基中選擇一個(gè)作為序列的起始?jí)A基
        Seq.append(START) #將起始?jí)A基添加至Seq中
        while START != "E":
            if START == "A":
                change = numpy.random.choice(transitionName[0],p=transitionMatrix[0])
                #以transitionMatrix矩陣第一行的概率分布隨機(jī)抽取transitionName第一行包含的事件
                if change == "AA":
                    START = "A" #如果轉(zhuǎn)移狀態(tài)是AA(即A堿基接下來的堿基是A，則將起始?jí)A基設(shè)為A)
                elif change == "AG":
                    START = "G"
                elif change == "AC":
                    START = "C"
                elif change == "AT":
                    START = "T"
                elif change == "AE":
                    START = "E"
            elif START == "G":
                change = numpy.random.choice(transitionName[1],p=transitionMatrix[1])
                if change == "GA":
                    START = "A"
                elif change == "GG":
                    START = "G"
                elif change == "GC":
                    START = "C"
                elif change == "GT":
                    START = "T"
                elif change == "GE":
                    START = "E"
            elif START == "C":
                change = numpy.random.choice(transitionName[2],p=transitionMatrix[2])
                if change == "CA":
                    START = "A"
                elif change == "CG":
                    START = "G"
                elif change == "CC":
                    START = "C"
                elif change == "CT":
                    START = "T"
                elif change == "CE":
                    START = "E"
            elif START == "T":
                change = numpy.random.choice(transitionName[3],p=transitionMatrix[3])
                if change == "TA":
                    START = "A"
                elif change == "TG":
                    START = "G"
                elif change == "TC":
                    START = "C"
                elif change == "TT":
                    START = "T"
                elif change == "TE":
                    START = "E"
            if START != "E":
                Seq.append(START) #如果狀態(tài)轉(zhuǎn)移后不為End(E)，則將轉(zhuǎn)移后的堿基加到Seq序列中
        i += 1
        Len.append(len(Seq))
        if len(Seq) &gt; max_len:
            max_len = len(Seq)
        #print(''.join(Seq))
        Seq.clear()
    plt.hist(numpy.array(Len), bins=max_len, edgecolor="white")
    # 顯示橫軸標(biāo)簽
    plt.xlabel("DNA Sequence Length")
    # 顯示縱軸標(biāo)簽
    plt.ylabel("Frequency")
    # 顯示圖標(biāo)題
    plt.title("Histogram of frequency distribution of DNA sequence length")
    plt.show()
    print("DNA序列的最大長(zhǎng)度為:",max_len)
    print("DNA序列長(zhǎng)度的眾數(shù)為:",max(Len, key=Len.count))

%matplotlib notebook #若未使用Jupyter Notebook，此句不需要
RandomDNAs(1000) #1000表示隨機(jī)生成1000條序列

3. 運(yùn)行結(jié)果

從以下4個(gè)序列長(zhǎng)度分布統(tǒng)計(jì)可以看到，隨著隨機(jī)生成的序列數(shù)量增多，序列長(zhǎng)度分布愈發(fā)集中，且長(zhǎng)度為1bp的序列占比最多且逐漸增加。

圖2 10,000條DNA序列的序列長(zhǎng)度分布統(tǒng)計(jì)

10,000條DNA序列的序列中

DNA序列的最大長(zhǎng)度為: 65

DNA序列長(zhǎng)度的眾數(shù)為: 1

圖3 100,000條DNA序列的序列長(zhǎng)度分布統(tǒng)計(jì)

100,000條DNA序列的序列中

DNA序列的最大長(zhǎng)度為: 71

DNA序列長(zhǎng)度的眾數(shù)為: 1

原文鏈接：https://www.jianshu.com/p/2abbba19bf4e

上一篇：自學(xué)python求已知DNA模板的互補(bǔ)DNA序列_pytho
下一篇：nginx靜態(tài)資源的服務(wù)器配置方法_nginx

日本免费高清视频-国产福利视频导航-黄色在线播放国产-天天操天天操天天操天天操|www.shdianci.com

網(wǎng)站首頁編程語言正文

Python一階馬爾科夫鏈生成隨機(jī)DNA序列實(shí)現(xiàn)示例_python

目錄

1. 原理

2. 代碼實(shí)現(xiàn)

3. 運(yùn)行結(jié)果

相關(guān)推薦

日本免费高清视频-国产福利视频导航-黄色在线播放国产-天天操天天操天天操天天操|www.shdianci.com

網(wǎng)站首頁 編程語言 正文

Python一階馬爾科夫鏈生成隨機(jī)DNA序列實(shí)現(xiàn)示例_python

目錄

1. 原理

2. 代碼實(shí)現(xiàn)

3. 運(yùn)行結(jié)果

相關(guān)推薦

網(wǎng)站首頁編程語言正文