本書是目前見到的一本從實用的角度全面介紹RNA-seq數(shù)據(jù)分析的書。這本書的特色在于它在理論與實踐之間取得了平衡,每一章以理論背景開始,然后是有關(guān)分析工具的描述,最后舉例說明它們的用法。這本書是RNA-seq數(shù)據(jù)分析的自包含的指南。
更多科學(xué)出版社服務(wù),請掃碼獲取。
目錄
第1章 RNA-seq簡介 1
1.1 引言 1
1.2 RNA的分離 3
1.3 RNA的質(zhì)量控制 3
1.4 文庫制備 4
1.5 主要的RNA-seq平臺 7
1.5.1 Illumina 7
1.5.2 SOLID 8
1.5.3 Roche 454 8
1.5.4 Ion Torrent 9
1.5.5 Pacific Biosciences 9
1.5.6 納米孔技術(shù) 10
1.6 RNA-seq的應(yīng)用 11
1.6.1 蛋白質(zhì)編碼基因結(jié)構(gòu) 11
1.6.2 新型蛋白質(zhì)編碼基因 12
1.6.3 基因表達的量化和比較 13
1.6.4 表達數(shù)量性狀基因座 14
1.6.5 單細(xì)胞RNA-seq 14
1.6.6 融合基因 15
1.6.7 基因變異 15
1.6.8 長的非編碼RNA 16
1.6.9 非編碼小RNA 16
1.6.10 擴增產(chǎn)物測序(ampli-seq) 16
1.7 選擇RNA-seq平臺 17
1.7.1 選擇RNA-seq平臺和測序模式的8個原則 17
1.7.2 小結(jié) 20
參考文獻 20
第2章 RNA-seq數(shù)據(jù)分析導(dǎo)論 23
2.1 引言 23
2.2 差異表達分析工作流程 25
2.2.1 第一步:讀段的質(zhì)量控制 26
2.2.2 第二步:讀段的預(yù)處理 26
2.2.3 第三步:將讀段比對到參考基因組 26
2.2.4 第四步:基因組引導(dǎo)的轉(zhuǎn)錄組組裝 27
2.2.5 第五步:計算表達水平 27
2.2.6 第六步:比較不同條件之間的基因表達 27
2.2.7 第七步:在基因組的上下文中的數(shù)據(jù)可視化 27
2.3 下游分析 28
2.3.1 基因注釋 28
2.3.2 基因集的富集分析 29
2.4 自動的工作流程和管線 29
2.5 硬件要求 30
2.6 仿效書中的示例 30
2.6.1 使用命令行工具和R 31
2.6.2 使用Chipster軟件 31
2.6.3 示例數(shù)據(jù)集 32
2.7 小結(jié) 33
參考文獻 34
第3章 質(zhì)量控制和預(yù)處理 35
3.1 引言 35
3.2 質(zhì)量控制和預(yù)處理的軟件 35
3.2.1 FastQC 35
3.2.2 PRINSEQ 36
3.2.3 Trimmomatic 37
3.3 讀段質(zhì)量問題 37
3.3.1 堿基質(zhì)量 37
3.3.2 模糊的堿基 44
3.3.3 接頭 46
3.3.4 讀段長度 47
3.3.5 序列特異性偏差和由隨機聯(lián)體引物造成的不匹配 47
3.3.6 GC含量 48
3.3.7 重復(fù) 48
3.3.8 序列污染 50
3.3.9 低復(fù)雜度序列和polyA尾巴 50
3.4 小結(jié) 51
參考文獻 52
第4章 將讀段比對到參考基因組 54
4.1 引言 54
4.2 比對程序 54
4.2.1 Bowtie 55
4.2.2 TopHat 58
4.2.3 STAR 62
4.3 比對統(tǒng)計量和用于操作比對文件的程序 65
4.4 在基因組的上下文中可視化讀段 68
4.5 小結(jié) 69
參考文獻 70
第5章 轉(zhuǎn)錄組組裝 71
5.1 引言 71
5.2 方法 72
5.2.1 轉(zhuǎn)錄組組裝不同于基因組組裝 72
5.2.2 轉(zhuǎn)錄本重建的復(fù)雜性 73
5.2.3 組裝過程 73
5.2.4 de Bruijn圖 75
5.2.5 使用豐度信息 75
5.3 數(shù)據(jù)預(yù)處理 76
5.3.1 讀段誤差校正 77
5.3.2 SEECER 77
5.4 基于作圖的組裝 78
5.4.1 Cufflinks 79
5.4.2 Scripture 80
5.5 de novo組裝 81
5.5.1 Velvet+Oases 81
5.5.2 Trinity 83
5.6 小結(jié) 87
參考文獻 88
第6章 定量和基于注釋的質(zhì)量控制 90
6.1 引言 90
6.2 基于注釋的質(zhì)量度量 90
6.2.1 基于注釋的質(zhì)量控制工具 91
6.3 基因表達的定量研究 95
6.3.1 計數(shù)每個基因的讀段 96
6.3.2 計數(shù)每個轉(zhuǎn)錄本的讀段 99
6.3.3 計數(shù)每個外顯子的讀段 103
6.4 小結(jié) 104
參考文獻 105
第7章 R和Bioconductor中的RNA-seq分析框架 106
7.1 引言 106
7.1.1 安裝R和擴展包 106
7.1.2 使用R 107
7.2 Bioconductor包概述 108
7.2.1 軟件包 108
7.2.2 注釋包 108
7.2.3 試驗包 109
7.3 Bioconductor包的描述性特征 109
7.3.1 R中的OOP特征 109
7.4 在R中表示基因和轉(zhuǎn)錄本 111
7.5 在R中表示基因組 114
7.6 在R中表示SNP 116
7.7 鍛造新的注釋包 116
7.8 小結(jié) 118
參考文獻 118
第8章 差異表達分析 119
8.1 引言 119
8.2 技術(shù)重復(fù)與生物學(xué)重復(fù) 119
8.3 RNA-seq數(shù)據(jù)中的統(tǒng)計分布 120
8.3.1 生物學(xué)重復(fù)、計數(shù)分布和軟件的選擇 122
8.4 歸一化 122
8.5 軟件用法示例 124
8.5.1 使用Cuffdiff 124
8.5.2 使用Bioconductor包:DESeq、edgeR、limma 127
8.5.3 線性模型、設(shè)計矩陣和對比矩陣 127
8.5.4 差異表達分析前的準(zhǔn)備工作 130
8.5.5 DESeq(2)的代碼示例 131
8.5.6 可視化 132
8.5.7 供參考:其他Bioconductor包的代碼例子 136
8.5.8 limma 137
8.5.9 SAMSeq(samr包) 137
8.5.10 edgeR 138
8.5.11 多因素實驗的DESeq2代碼示例 138
8.5.12 供參考:edgeR代碼示例 141
8.5.13 limma代碼示例 141
8.6 小結(jié) 143
參考文獻 143
第9章 差異外顯子用法分析 146
9.1 引言 146
9.2 準(zhǔn)備DEXSeq的輸入文件 147
9.3 將數(shù)據(jù)讀入R 148
9.4 訪問ExonCountSet對象 149
9.5 歸一化和方差估計 151
9.6 檢驗差異外顯子用法 153
9.7 可視化 156
9.8 小結(jié) 160
參考文獻 160
第10章 注釋結(jié)果 161
10.1 引言 161
10.2 檢索附加注釋 161
10.2.1 使用生物體專化的注釋包檢索基因的注釋 162
10.2.2 使用BioMart檢索基因的注釋 165
10.3 使用注釋進行基因集的本體論分析 167
10.4 基因集分析詳述 169
10.4.1 使用GOstats包的競爭的方法 170
10.4.2 使用Globaltest包的自包含的方法 172
10.4.3 長度偏差校正方法 173
10.5 小結(jié) 174
參考文獻 174
第11章 可視化 176
11.1 引言 176
11.1.1 圖像文件類型 176
11.1.2 圖像分辨率 177
11.1.3 顏色模型 177
11.2 R中的圖形 177
11.2.1 熱圖 178
11.2.2 火山圖 182
11.2.3 MA圖 184
11.2.4 染色體組型圖 185
11.2.5 基因和轉(zhuǎn)錄本結(jié)構(gòu)的可視化 187
11.3 完成圖 189
11.4 小結(jié) 190
參考文獻 190
第12章 非編碼小RNA 192
12.1 引言 192
12.2 microRNA(miRNA) 193
12.3 微RNA并列RNA 196
12.4 Piwi關(guān)聯(lián)的RNA 196
12.5 內(nèi)源沉默RNA 197
12.6 外源沉默RNA 198
12.7 轉(zhuǎn)運RNA 198
12.8 核仁小RNA 198
12.9 小核RNA 198
12.10 增強子衍生RNA 199
12.11 其他非編碼小RNA 199
12.12 用于發(fā)現(xiàn)非編碼小RNA的測序方法 200
12.12.1 miRNA-seq 201
12.12.2 CLIP-seq 203
12.12.3 降解組測序 205
12.12.4 全局連綴測序 205
12.13 小結(jié) 206
參考文獻 206
第13章 非編碼小RNA測序數(shù)據(jù)的分析 209
13.1 引言 209
13.2 小RNA的發(fā)現(xiàn)——miRDeep2 209
13.2.1 GFF文件 210
13.2.2 已知miRNA的FASTA文件 211
13.2.3 設(shè)置運行環(huán)境 211
13.2.4 運行miRDeep2 213
13.3 miRanalyzer 217
13.3.1 運行miRanalyzer 219
13.4 miRNA靶分析 219
13.4.1 計算的預(yù)測方法 219
13.4.2 人工智能方法 221
13.4.3 基于實驗支持的方法 222
13.5 miRNA-seq和mRNA-seq數(shù)據(jù)集成 222
13.6 小RNA數(shù)據(jù)庫和資源 223
13.6.1 miRBase中miRNA的RNA-seq讀段 223
13.6.2 miRNA的表達地圖集 225
13.6.3 CLIP-seq和降解組-seq數(shù)據(jù)的數(shù)據(jù)庫 226
13.6.4 miRNA和疾病的數(shù)據(jù)庫 226
13.6.5 研究社區(qū)和資源的通用數(shù)據(jù)庫 227
13.6.6 miRNAblog 227
13.7 小結(jié) 228
參考文獻 229