生物信息學(xué)是運(yùn)用生物學(xué)、數(shù)學(xué)、計(jì)算機(jī)科學(xué)等多學(xué)科技術(shù)與手段進(jìn)行生物信息的獲取、貯存、分析、利用的一門(mén)交叉學(xué)科,是目前生物學(xué)研究熱門(mén)領(lǐng)域之一。本書(shū)內(nèi)容包括兩個(gè)篇章:一是Windows系統(tǒng)下進(jìn)行文獻(xiàn)檢索、數(shù)據(jù)庫(kù)使用、引物設(shè)計(jì)、核酸蛋白質(zhì)序列分析、進(jìn)化分析、蛋白質(zhì)結(jié)構(gòu)分析、miRNA分析等理論與方法及相關(guān)軟件使用介紹;二是linux系統(tǒng)下面對(duì)于基因組測(cè)序、RNAseq、miRNAseq等二代測(cè)序數(shù)據(jù)組裝、基因預(yù)測(cè)、注釋、表達(dá)分析等操作流程及相關(guān)軟件介紹。
馮世鵬,中科院廣州生物醫(yī)藥與健康研究院生物化學(xué)與分子生物學(xué)專(zhuān)業(yè)博士畢業(yè),海南大學(xué)農(nóng)學(xué)院講師,擔(dān)任海南大學(xué)本科及研究生的《生物信息學(xué)》、《分子生物學(xué)》等課程教學(xué)任務(wù),承擔(dān)過(guò)多項(xiàng)重點(diǎn)科研或教研項(xiàng)目。
第0章 緒論 1
0.1 生物信息學(xué)的發(fā)展歷史 1
0.1.1 Bioinfomatics的來(lái)源 1
0.1.2 生物信息學(xué)的定義 1
0.1.3 人類(lèi)基因組計(jì)劃 1
0.1.4 生物信息學(xué)發(fā)展重要人物及
大事 2
0.2 生物信息學(xué)的研究?jī)?nèi)容 4
0.2.1 生物分子數(shù)據(jù)的收集與管理 4
0.2.2 數(shù)據(jù)庫(kù)搜索及序列比較 5
0.2.3 基因組序列分析 5
0.2.4 基因表達(dá)數(shù)據(jù)的分析與處理 5
0.2.5 蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè) 6
0.2.6 非編碼RNA研究 6
0.2.7 表觀遺傳學(xué)研究 7
0.3 生物信息學(xué)的生物學(xué)基礎(chǔ)知識(shí) 7
0.3.1 遺傳定律 7
0.3.2 DNA分子結(jié)構(gòu) 8
0.3.3 基因結(jié)構(gòu) 8
0.3.4 中心法則 9
0.3.5 密碼子表 9
0.3.6 蛋白質(zhì)結(jié)構(gòu)與功能 9
0.3.7 PCR技術(shù) 9
參考文獻(xiàn) 10
Windows篇
第1章 文獻(xiàn)信息檢索 12
1.1 文獻(xiàn)資源的分類(lèi) 12
1.1.1 根據(jù)出版形式進(jìn)行分類(lèi) 12
1.1.2 綜合分類(lèi)法 13
1.1.3 標(biāo)識(shí)碼及編號(hào) 14
1.2 文獻(xiàn)的格式 15
1.3 文獻(xiàn)檢索 17
1.3.1 文獻(xiàn)檢索詞的來(lái)源 17
1.3.2 搜索數(shù)據(jù)庫(kù)選擇 18
1.3.3 檢索式構(gòu)建 19
1.3.4 檢索結(jié)果的處理 21
1.3.5 CNKI數(shù)據(jù)庫(kù)查詢(xún)舉例 21
1.3.6 Elsevier數(shù)據(jù)庫(kù)檢索舉例 25
1.4 文獻(xiàn)信息的價(jià)值判斷及閱讀 27
1.4.1 文獻(xiàn)的價(jià)值判斷 27
1.4.2 文獻(xiàn)有效閱讀 29
1.5 科技查新 29
習(xí)題 31
參考文獻(xiàn) 31
第2章 生物信息數(shù)據(jù)資源 32
2.1 核酸序列數(shù)據(jù)庫(kù) 32
2.1.1 GenBank數(shù)據(jù)庫(kù)及其分類(lèi) 33
2.1.2 Entrz Nucleotide數(shù)據(jù)庫(kù)及
其分類(lèi) 34
2.1.3 NCBI其他數(shù)據(jù)庫(kù) 34
2.1.4 GenBank數(shù)據(jù)格式 35
2.1.5 GenBank數(shù)據(jù)訪問(wèn)方式 35
2.1.6 基因數(shù)據(jù)庫(kù)記錄格式及搜索 38
2.2 蛋白質(zhì)序列數(shù)據(jù)庫(kù) 39
2.2.1 UniProt數(shù)據(jù)庫(kù)介紹 39
2.2.2 Uniprot數(shù)據(jù)獲得方式 41
2.2.3 UniProt數(shù)據(jù)庫(kù)記錄格式 42
2.3 蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù) 43
2.3.1 PDB數(shù)據(jù)庫(kù)發(fā)展歷史 43
2.3.2 RCSB PDB數(shù)據(jù)庫(kù)介紹 44
2.3.3 RCSB PDB數(shù)據(jù)庫(kù)搜索 45
2.3.4 RCSB PDB數(shù)據(jù)記錄 46
2.4 物種基因組數(shù)據(jù)庫(kù) 47
2.4.1 小鼠基因組數(shù)據(jù)庫(kù) 47
2.4.2 擬南芥基因組數(shù)據(jù)庫(kù) 49
2.5 代謝通路數(shù)據(jù)庫(kù) 52
2.5.1 在KEGG數(shù)據(jù)庫(kù)搜索 53
2.5.2 主頁(yè)快速鏈接 54
2.5.3 KEGG通路圖及其元素意義 55
2.6 基因組瀏覽器 57
2.6.1 基因組數(shù)據(jù)展示內(nèi)容 58
2.6.2 BLAT搜索 61
2.7 非編碼RNA數(shù)據(jù)庫(kù) 62
2.7.1 miRNA數(shù)據(jù)庫(kù) 62
2.7.2 NONCODE數(shù)據(jù)庫(kù) 63
習(xí)題 66
參考文獻(xiàn) 66
第3章 序列比對(duì) 68
3.1 比對(duì)程序介紹 68
3.2 比對(duì)序列相似性的統(tǒng)計(jì)特性 69
3.3 在線BLAST序列比對(duì) 72
3.4 本地運(yùn)行BLAST 75
3.4.1 BLAST程序的下載和安裝 75
3.4.2 搜索數(shù)據(jù)庫(kù)的索引格式化 75
3.4.3 運(yùn)行BLAST程序,搜索本地
序列數(shù)據(jù)庫(kù) 76
3.5 多序列比對(duì) 77
3.5.1 ClustalX的使用 77
習(xí)題 80
參考文獻(xiàn) 80
第4章 核酸序列分析 81
4.1 基因閱讀框的識(shí)別 81
4.2 基因其他結(jié)構(gòu)區(qū)預(yù)測(cè) 82
4.2.1 CpG島的預(yù)測(cè) 82
4.2.2 轉(zhuǎn)錄終止信號(hào)預(yù)測(cè) 84
4.2.3 啟動(dòng)子區(qū)域的預(yù)測(cè) 84
4.2.4 密碼子偏好性計(jì)算 86
4.3 引物設(shè)計(jì) 88
4.3.1 引物設(shè)計(jì)的基本原則 88
4.3.2 Primer 5引物設(shè)計(jì) 88
4.3.3 利用Primer 5進(jìn)行酶切位點(diǎn)
分析 91
4.4 核酸序列的其他轉(zhuǎn)換 92
習(xí)題 93
參考文獻(xiàn) 93
第5章 蛋白質(zhì)序列分析 94
5.1 蛋白質(zhì)理化性質(zhì)和一級(jí)結(jié)構(gòu)
分析 94
5.1.1 蛋白質(zhì)理化性質(zhì)分析 94
5.1.2 蛋白質(zhì)理化性質(zhì)分布圖 95
5.1.3 蛋白質(zhì)信號(hào)肽預(yù)測(cè) 97
5.2 蛋白質(zhì)二級(jí)結(jié)構(gòu)分析 99
5.2.1 蛋白質(zhì)跨膜結(jié)構(gòu)區(qū)分析 99
5.2.2 蛋白質(zhì)卷曲螺旋分析 101
5.2.3 蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)分析 103
5.3 蛋白質(zhì)三維結(jié)構(gòu)預(yù)測(cè)分析 104
習(xí)題 105
參考文獻(xiàn) 105
第6章 基因表達(dá)分析 106
6.1 qPCR數(shù)據(jù)分析 106
6.1.1 絕對(duì)定量分析方法 107
6.1.2 相對(duì)定量方法分析 108
6.2 基因芯片數(shù)據(jù)分析 111
6.2.1 從GEO上下載基因芯片表達(dá)
譜數(shù)據(jù) 111
6.2.2 將表達(dá)譜數(shù)據(jù)導(dǎo)入MATLAB
軟件 112
6.2.3 對(duì)soft格式文件的標(biāo)準(zhǔn)化 113
6.2.4 差異表達(dá)基因篩選 114
習(xí)題 114
參考文獻(xiàn) 115
第7章 進(jìn)化分析 116
7.1 進(jìn)化理論介紹 116
7.1.1 種群是生物進(jìn)化的基本單位 116
7.1.2 可遺傳的變異是生物進(jìn)化的
原始材料 116
7.1.3 分子進(jìn)化中性學(xué)說(shuō) 117
7.2 進(jìn)化分析(以MEGA為例) 117
7.2.1 序列準(zhǔn)備 118
7.2.2 序列比對(duì) 119
7.2.3 建樹(shù)計(jì)算 119
7.2.4 進(jìn)化樹(shù)的調(diào)整 121
習(xí)題 121
參考文獻(xiàn) 122
第8章 非編碼miRNA分析 123
8.1 miRNA簡(jiǎn)介 123
8.1.1 miRNA的生物合成 123
8.1.2 miRNA調(diào)控基因表達(dá)的機(jī)理 124
8.1.3 miRNA的生理調(diào)節(jié)作用 125
8.2 miRNA靶基因預(yù)測(cè) 125
8.2.1 miRNA靶基因的預(yù)測(cè)原理 125
8.2.2 miRNA靶基因的預(yù)測(cè)軟件 126
8.2.3 miRNA靶基因的預(yù)測(cè)步驟 127
8.3 調(diào)控靶基因的miRNA預(yù)測(cè) 130
8.4 miRBase數(shù)據(jù)庫(kù)的使用 131
8.4.1 miRBase數(shù)據(jù)庫(kù)的搜索 131
8.4.2 miRBase數(shù)據(jù)庫(kù)批量下載 132
8.4.3 miRNA記錄信息 133
習(xí)題 134
參考文獻(xiàn) 134
Linux篇
第9章 Linux系統(tǒng) 138
9.1 Linux簡(jiǎn)介 138
9.1.1 什么是Linux系統(tǒng) 138
9.1.2 為什么要學(xué)習(xí)Linux系統(tǒng) 139
9.1.3 如何學(xué)習(xí)Linux系統(tǒng) 140
9.2 Linux系統(tǒng)安裝 140
9.2.1 Linux系統(tǒng)下載 140
9.2.2 系統(tǒng)安裝盤(pán)制作 142
9.2.3 CentOS 6.5操作系統(tǒng)安裝 144
9.2.4 更新yum源 154
9.3 Linux命令行模式――終端 155
9.4 Linux系統(tǒng)開(kāi)關(guān)機(jī) 156
9.5 Linux系統(tǒng)文件 157
9.5.1 Linux文件夾及其主要作用
(以CentOS 6.5為例) 157
9.5.2 Linux的文件信息的意義 158
9.5.3 Linux命令幫助文件 159
9.6 幾個(gè)重要的快捷鍵 161
9.7 Linux系統(tǒng)的命令 161
9.7.1 Linux系統(tǒng)命令的輸入格式 161
9.7.2 常用命令及其常用選項(xiàng)介紹 161
9.7.3 數(shù)據(jù)流重定向 167
9.7.4 管道命令 168
9.7.5 vim編輯器工具 168
9.7.6 其他命令 170
習(xí)題 177
參考文獻(xiàn) 177
第10章 Perl語(yǔ)言 178
10.1 Perl版本 178
10.2 Perl標(biāo)量數(shù)據(jù) 179
10.2.1 Perl運(yùn)算符 180
10.2.2 標(biāo)量變量 180
10.2.3 數(shù)字及字符串的比較
運(yùn)算符 181
10.3 列表與數(shù)組 182
10.3.1 數(shù)組及其賦值操作 182
10.3.2 數(shù)組元素的引用 182
10.3.3 數(shù)組相關(guān)的幾個(gè)命令 183
10.4 哈希 183
10.4.1 哈希賦值 184
10.4.2 哈希的相關(guān)函數(shù) 184
10.5 判斷式及循環(huán)控制結(jié)構(gòu) 185
10.5.1 if條件判斷式 185
10.5.2 while循環(huán)結(jié)構(gòu) 185
10.5.3 until循環(huán)結(jié)構(gòu) 186
10.5.4 foreach循環(huán)結(jié)構(gòu) 186
10.5.5 each控制結(jié)構(gòu) 186
10.6 正則表達(dá)式 187
10.6.1 正則表達(dá)式相關(guān)符號(hào) 187
10.6.2 捕獲變量 188
10.6.3 正則表達(dá)式中特殊字符
的意義 188
10.7 Perl的排序 189
10.7.1 sort命令 189
10.7.2 sort與比較運(yùn)算符及默認(rèn)
函數(shù)的連用 189
10.8 Perl默認(rèn)的函數(shù)的總結(jié) 189
10.9 程序精解 190
10.9.1 實(shí)例一:從fasta文件中
尋找特定的序列 190
10.9.2 實(shí)例二:文本內(nèi)容分類(lèi)
統(tǒng)計(jì)功能 193
10.9.3 實(shí)例三:統(tǒng)計(jì)文件內(nèi)容
是否有重復(fù) 195
10.9.4 實(shí)例四:Scaffolds序列
的排序 196
習(xí)題 196
參考文獻(xiàn) 197
第11章 測(cè)序方法及數(shù)據(jù)處理 198
11.1 測(cè)序技術(shù)的發(fā)展 198
11.1.1 第一代測(cè)序方法 198
11.1.2 二代測(cè)序方法 201
11.1.3 測(cè)序文庫(kù)插入片段大小
選擇 205
11.1.4 測(cè)序類(lèi)型 205
11.1.5 測(cè)序方法的搭配 206
11.1.6 測(cè)序質(zhì)量值 206
11.2 測(cè)序數(shù)據(jù)處理 207
11.3 測(cè)序數(shù)據(jù)質(zhì)量分析 208
11.3.1 用FastQC軟件對(duì)測(cè)序數(shù)據(jù)
進(jìn)行評(píng)估 208
11.3.2 NGSQCToolKit對(duì)測(cè)序
Reads的處理 213
11.3.3 FASTX_Toolkit對(duì)測(cè)序
Reads的處理 216
11.4 深度測(cè)序數(shù)據(jù)上傳SRA
數(shù)據(jù)庫(kù) 218
11.4.1 材料準(zhǔn)備 220
11.4.2 注冊(cè)項(xiàng)目信息 221
11.4.3 提供技術(shù)信息 224
11.4.4 上傳數(shù)據(jù) 227
11.4.5 數(shù)據(jù)傳輸完畢狀態(tài) 230
習(xí)題 231
參考文獻(xiàn) 231
第12章 基因組組裝 232
12.1 Velvet拼裝軟件 233
12.1.1 Velvet軟件安裝 234
12.1.2 Velvet參數(shù)介紹 234
12.1.3 Velvet命令運(yùn)行 237
12.1.4 Velvet運(yùn)行結(jié)果解讀 237
12.2 SOAPdenovo軟件拼裝 238
12.2.1 軟件的安裝 239
12.2.2 參數(shù)介紹 239
12.2.3 SOAPdenovo命令運(yùn)行 241
12.2.4 SOAPdenovo運(yùn)行結(jié)果
解讀 242
12.3 ABySS軟件拼裝 242
12.3.1 ABySS的安裝 242
12.3.2 ABySS主要參數(shù)介紹 243
12.3.3 ABySS命令運(yùn)行 245
12.3.4 ABySS運(yùn)行命令結(jié)果解讀 245
12.4 ALLPATH-LG軟件拼裝 245
12.4.1 ALLPATH-LG的安裝 246
12.4.2 ALLPATH-LG的主要參數(shù) 246
12.4.3 ALLPATH-LG測(cè)試數(shù)據(jù)
運(yùn)行過(guò)程解讀 249
12.4.4 運(yùn)行結(jié)果解讀 252
12.5 Gaps修補(bǔ) 252
12.5.1 GapFiller軟件安裝 252
12.5.2 相關(guān)參數(shù)介紹 253
12.5.3 程序運(yùn)行命令 254
12.5.4 運(yùn)行結(jié)果解讀 254
12.6 基因組組裝效果評(píng)估 254
習(xí)題 254
參考文獻(xiàn) 255
第13章 小RNA測(cè)序數(shù)據(jù)分析 256
13.1 小RNA測(cè)序簡(jiǎn)介 256
13.2 小RNA測(cè)序數(shù)據(jù)質(zhì)控 257
13.3 miRNA的識(shí)別 259
習(xí)題 263
參考文獻(xiàn) 263
第14章 RNA-seq數(shù)據(jù)分析 264
14.1 轉(zhuǎn)錄組序列比對(duì) 265
14.1.1 數(shù)據(jù)準(zhǔn)備 265
14.1.2 比對(duì)數(shù)據(jù)庫(kù) 265
14.1.3 TopHat軟件下載及安裝 266
14.1.4 Bowtie軟件和SAMtools
軟件下載及安裝 266
14.1.5 常用TopHat參數(shù)介紹 266
14.1.6 基因組數(shù)據(jù)庫(kù)序列索引 267
14.1.7 TopHat使用實(shí)例 267
14.1.8 輸出文件說(shuō)明 267
14.2 轉(zhuǎn)錄本組的組裝 268
14.2.1 cufflinks的安裝 268
14.2.2 cufflinks的參數(shù) 269
14.2.3 cufflinks的輸出結(jié)果 269
14.3 合并轉(zhuǎn)錄組 269
14.3.1 用cuffmerge合并轉(zhuǎn)錄本
的命令 270
14.4 基因表達(dá)差異分析 270
14.4.1 用cuffquant計(jì)算表達(dá)譜 270
14.4.2 用cuffdiff計(jì)算不同樣本
表達(dá)譜的差異 271
14.5 差異表達(dá)結(jié)果的熱圖表示 272
習(xí)題 273
參考文獻(xiàn) 273
第15章 基因預(yù)測(cè) 275
15.1 GeneMark軟件序列 275
15.1.1 GeneMarkS的安裝 275
15.1.2 相關(guān)參數(shù)介紹 276
15.1.3 GeneMarkS命令運(yùn)行 279
15.1.4 GeneMarkS運(yùn)行結(jié)果解釋 280
15.2 Glimmer軟件 280
15.2.1 Glimmer軟件安裝 280
15.2.2 相關(guān)命令參數(shù)介紹 281
15.2.3 程序運(yùn)行 284
15.2.4 結(jié)果解讀 286
15.3 AUGUSTUS 286
15.3.1 AUGUSTUS軟件安裝 286
15.3.2 相關(guān)參數(shù)介紹 286
15.3.3 訓(xùn)練AUGUSTUS 287
15.4 PASA 291
15.4.1 PASA軟件安裝 291
15.4.2 相關(guān)命令參數(shù)介紹 293
15.4.3 命令運(yùn)行 294
15.4.4 運(yùn)行結(jié)果解讀 296
15.5 EVM(EVidenceModeler) 296
15.5.1 EVM軟件下載安裝 296
15.5.2 相關(guān)參數(shù)介紹 297
15.5.3 EVM軟件的運(yùn)行 298
習(xí)題 300
參考文獻(xiàn) 300
第16章 基因注釋及功能分析 302
16.1 BLAST軟件介紹 302
16.1.1 BLAST軟件安裝 302
16.1.2 相關(guān)命令參數(shù)介紹 303
16.2 NR注釋 308
16.2.1 NR數(shù)據(jù)庫(kù)制備過(guò)程 308
16.2.2 NR注釋過(guò)程 309
16.3 COG注釋 310
16.3.1 COG數(shù)據(jù)庫(kù)準(zhǔn)備過(guò)程 310
16.3.2 COG命令注釋過(guò)程 311
16.4 Swiss-Prot注釋 311
16.4.1 數(shù)據(jù)庫(kù)準(zhǔn)備 312
16.4.2 Swiss-Prot注釋過(guò)程 312
16.4.3 InterPro注釋 312
16.5 KEGG注釋 314
16.6 GO注釋 317
習(xí)題 320
參考文獻(xiàn) 321
附錄A 生物信息學(xué)文件格式 322