網(wǎng)站首頁 編程語言 正文
1. 原理
對(duì)于DNA序列,一階馬爾科夫鏈可以理解為當(dāng)前堿基的類型僅取決于上一位堿基類型。如圖1所示,一條序列的開端(由B開始)可能是A、T、G、C四種堿基(且可能性相同,均為0.25),若序列的某一位是A,則下一位堿基是A、T、G、C的概率分別為0.25、0.20、0.20、0.20,下一位無堿基(即序列結(jié)束,狀態(tài)為E)的概率為0.15。
圖1 DNA序列的一階馬爾科夫鏈
2. 代碼實(shí)現(xiàn)
以下代碼運(yùn)行于Jupyter Notebook (Python 3.7);代碼功能是隨機(jī)生成一定數(shù)量的DNA序列,統(tǒng)計(jì)序列長(zhǎng)度并繪制分布圖。若希望顯示隨機(jī)生成的序列,將代碼# print(''.join(Seq))前的#刪除即可。
import numpy
import random
import seaborn as sns
import matplotlib.pyplot as plt
# 狀態(tài)空間
states = ["A","G","C","T","E"]
# 可能的事件序列
transitionName = [["AA","AG","AC","AT","AE"],
["GA","GG","GC","GT","GE"],
["CA","CG","CC","CT","CE"],
["TA","TG","TC","TT","TE"],]
# 概率矩陣(轉(zhuǎn)移矩陣)
transitionMatrix = [[0.25,0.20,0.20,0.20,0.15],
[0.20,0.25,0.20,0.20,0.15],
[0.20,0.20,0.25,0.20,0.15],
[0.20,0.20,0.20,0.25,0.15]]
def RandomDNAs(Num):
max_len = 0
i = 0
Seq = [] #創(chuàng)建列表(Seq)用于添加堿基,以組成DNA序列
Len = [] #創(chuàng)建列表(Len)用于記錄每條生成序列的長(zhǎng)度
while i != Num:
Base = ["A","G","C","T"]
START = random.choice(Base) #隨機(jī)從堿基中選擇一個(gè)作為序列的起始?jí)A基
Seq.append(START) #將起始?jí)A基添加至Seq中
while START != "E":
if START == "A":
change = numpy.random.choice(transitionName[0],p=transitionMatrix[0])
#以transitionMatrix矩陣第一行的概率分布隨機(jī)抽取transitionName第一行包含的事件
if change == "AA":
START = "A" #如果轉(zhuǎn)移狀態(tài)是AA(即A堿基接下來的堿基是A,則將起始?jí)A基設(shè)為A)
elif change == "AG":
START = "G"
elif change == "AC":
START = "C"
elif change == "AT":
START = "T"
elif change == "AE":
START = "E"
elif START == "G":
change = numpy.random.choice(transitionName[1],p=transitionMatrix[1])
if change == "GA":
START = "A"
elif change == "GG":
START = "G"
elif change == "GC":
START = "C"
elif change == "GT":
START = "T"
elif change == "GE":
START = "E"
elif START == "C":
change = numpy.random.choice(transitionName[2],p=transitionMatrix[2])
if change == "CA":
START = "A"
elif change == "CG":
START = "G"
elif change == "CC":
START = "C"
elif change == "CT":
START = "T"
elif change == "CE":
START = "E"
elif START == "T":
change = numpy.random.choice(transitionName[3],p=transitionMatrix[3])
if change == "TA":
START = "A"
elif change == "TG":
START = "G"
elif change == "TC":
START = "C"
elif change == "TT":
START = "T"
elif change == "TE":
START = "E"
if START != "E":
Seq.append(START) #如果狀態(tài)轉(zhuǎn)移后不為End(E),則將轉(zhuǎn)移后的堿基加到Seq序列中
i += 1
Len.append(len(Seq))
if len(Seq) > max_len:
max_len = len(Seq)
#print(''.join(Seq))
Seq.clear()
plt.hist(numpy.array(Len), bins=max_len, edgecolor="white")
# 顯示橫軸標(biāo)簽
plt.xlabel("DNA Sequence Length")
# 顯示縱軸標(biāo)簽
plt.ylabel("Frequency")
# 顯示圖標(biāo)題
plt.title("Histogram of frequency distribution of DNA sequence length")
plt.show()
print("DNA序列的最大長(zhǎng)度為:",max_len)
print("DNA序列長(zhǎng)度的眾數(shù)為:",max(Len, key=Len.count))
%matplotlib notebook #若未使用Jupyter Notebook,此句不需要
RandomDNAs(1000) #1000表示隨機(jī)生成1000條序列
3. 運(yùn)行結(jié)果
從以下4個(gè)序列長(zhǎng)度分布統(tǒng)計(jì)可以看到,隨著隨機(jī)生成的序列數(shù)量增多,序列長(zhǎng)度分布愈發(fā)集中,且長(zhǎng)度為1bp的序列占比最多且逐漸增加。
圖2 10,000條DNA序列的序列長(zhǎng)度分布統(tǒng)計(jì)
10,000條DNA序列的序列中
DNA序列的最大長(zhǎng)度為: 65
DNA序列長(zhǎng)度的眾數(shù)為: 1
圖3 100,000條DNA序列的序列長(zhǎng)度分布統(tǒng)計(jì)
100,000條DNA序列的序列中
DNA序列的最大長(zhǎng)度為: 71
DNA序列長(zhǎng)度的眾數(shù)為: 1
原文鏈接:https://www.jianshu.com/p/2abbba19bf4e
相關(guān)推薦
- 2022-10-15 C語言const關(guān)鍵字的用法詳解_C 語言
- 2022-07-12 linux中刪除指定文件以外的其它所有文件
- 2023-01-26 如何在.Net?7中將Query綁定到數(shù)組詳解_實(shí)用技巧
- 2022-06-22 C#使用Dictionary<string,?string>拆分字符串與記錄log方法_
- 2023-03-29 C語言交換奇偶位與offsetof宏的實(shí)現(xiàn)方法_C 語言
- 2022-05-27 時(shí)序數(shù)據(jù)庫TDengine寫入查詢的問題分析_數(shù)據(jù)庫其它
- 2022-05-13 Shell腳本命令結(jié)果保存到變量,保留換行符
- 2022-10-31 解讀Python腳本的常見參數(shù)獲取和處理方式_python
- 最近更新
-
- window11 系統(tǒng)安裝 yarn
- 超詳細(xì)win安裝深度學(xué)習(xí)環(huán)境2025年最新版(
- Linux 中運(yùn)行的top命令 怎么退出?
- MySQL 中decimal 的用法? 存儲(chǔ)小
- get 、set 、toString 方法的使
- @Resource和 @Autowired注解
- Java基礎(chǔ)操作-- 運(yùn)算符,流程控制 Flo
- 1. Int 和Integer 的區(qū)別,Jav
- spring @retryable不生效的一種
- Spring Security之認(rèn)證信息的處理
- Spring Security之認(rèn)證過濾器
- Spring Security概述快速入門
- Spring Security之配置體系
- 【SpringBoot】SpringCache
- Spring Security之基于方法配置權(quán)
- redisson分布式鎖中waittime的設(shè)
- maven:解決release錯(cuò)誤:Artif
- restTemplate使用總結(jié)
- Spring Security之安全異常處理
- MybatisPlus優(yōu)雅實(shí)現(xiàn)加密?
- Spring ioc容器與Bean的生命周期。
- 【探索SpringCloud】服務(wù)發(fā)現(xiàn)-Nac
- Spring Security之基于HttpR
- Redis 底層數(shù)據(jù)結(jié)構(gòu)-簡(jiǎn)單動(dòng)態(tài)字符串(SD
- arthas操作spring被代理目標(biāo)對(duì)象命令
- Spring中的單例模式應(yīng)用詳解
- 聊聊消息隊(duì)列,發(fā)送消息的4種方式
- bootspring第三方資源配置管理
- GIT同步修改后的遠(yuǎn)程分支