云端基因组学 软硬件技术 (美)杰拉尔丁·a.范德奥维拉,(美)布莱恩·d.奥康纳 新华正版
¥
49.9
3.4折
¥
148
全新
仅1件
作者(美)杰拉尔丁·a.范德奥维拉,(美)布莱恩·d.奥康纳
出版社中国电力出版社
ISBN9787519864422
出版时间2022-04
版次1
装帧平装
开本16
页数484页
字数623千字
定价148元
货号xhwx_1202649528
上书时间2024-09-24
商品详情
- 品相描述:全新
-
正版特价新书
- 商品描述
-
目录:
序.1
前言.5
章概述13
1.1生物学和生命科学大数据的希望和挑战.14
1.2大数据对基础设施的挑战15
1.3数据分享和分析云生态系统16
1.3.1云托管数据和云计算.16
1.3.2生命科学研究台18
1.3.3基础设施的标准化和复用20
1.4践行fair理念22
1.5小结和下一步学内容23
第2章基因组学简介:新手25
2.1基因组学入门25
2.1.1基因作为独立遗元(从某种程度上讲)26
2.1.2生物学中心法则:从dna到rna再到蛋白质.29
2.1.3dna突变的起因和后果31
2.1.4基因组学是基因组内和基因组间变异的清单32
2.1.5大规模系统分析基因组的难点33
2.2基因组变异.33
2.2.1以参基因组为通用框架33
2.2.2变异的物理分类37
2.2.3种系变异和体细胞变异的区别.42
2.3生成高通量测序数据.45
2.3.1从生物样本到大量读段数据45
2.3.2dna文库类型:选择合适的实验设计50
2.4数据处理和分析53
2.4.1将读段匹配到参基因组54
2.4.2变异识别56
2.4.3数据质量和错误源59
2.4.4规格统一:功能等价流水线63
2.5小结和下一步学内容64
第3章生命科学家计算技术入门.65
3.1基础设施的基本组件和能瓶颈65
3.1.1几种处理器硬件:cpu、gpu、fpga和tpu66
3.1.2计算组织的层级:核、节点、集群和云.67
3.1.3解决能瓶颈68
3.2并行计算72
3.2.1并行处理一个简单分析任务72
3.2.2从核到集群和云:多层并行机制73
3.2.3并行需权衡速度、效率和成本.75
3.3并行和自动化流水线.76
3.3.1工作流语言.77
3.3.2常用基因组流水线语言78
3.3.3工作流管理系统79
3.4虚拟化和云.79
3.4.1虚拟机和容器80
3.4.2云简介83
3.4.3采用云服务从事研究的几个场景86
3.5小结和下一步学内容88
第4章云上步.89
4.1开通谷歌云账号并创建项目89
4.1.1创建项目90
4.1.2核对你的结算账号并激活费试用额度.91
4.2用googlecloudshell运行基本命令94
4.2.1登录cloudshell虚拟机94
4.2.2用gsutil访问和管理文件96
4.2.3拉取docker镜像并启动容器99
4.2.4挂载数据卷,从容器访问文件系统102
4.3创建自定义虚拟机104
4.3.1创建和配置你的虚拟机实例104
4.3.2用ssh登录虚拟机.111
4.3.3验证身份112
4.3.4复制本书材料到你的虚拟机114
4.3.5在虚拟机上安装docker115
4.3.6构建gatk容器镜像.116
4.3.7停用虚拟机,停止烧钱.118
4.4配置igv浏览器,读取gcs桶数据.119
4.5小结和下一步学内容.124
第5章gatk入门125
5.1开始用gatk.125
5.1.1运行要求126
5.1.2命令行句法127
5.1.3用spark实现多线程128
5.1.4gatk实131
5.2动手找变异136
5.2.1用haplotypecaller寻找种系snp和indel136
5.2.2根据变异上下文注释过滤变异识别结果146
5.3gatk佳实践简介154
5.3.1本书涵盖的佳实践156
5.3.2其他主要应用场景156
5.4小结和下一步学内容.157
第6章用gatk佳实践发现种系短变异.159
6.1数据预处理159
6.1.1将读段匹配到基因组参161
6.1.2标记重复读段.163
6.1.3重新校正碱基质量值165
6.2联合发现分析.167
6.2.1联合变异识别工作流概览167
6.2.2识别每个样本的变异,生成gvcf文件.172
6.2.3整合gvcf文件174
6.2.4用联合鉴定基因型方法处理多个样本176
6.2.5重校正变异质量值,过滤联合识别结果集.178
6.2.6改进基因型分配结果并调整其可信度183
6.2.7下一步和延伸阅读184
6.3用n过滤法识别单样本变异185
6.3.1n单样本工作流概览187
6.3.2采用1dn过滤单样本wgs变异识别结果集188
6.3.3采用2dn在模型中加入读段数据.190
6.4小结和下一步学内容.193
第7章用gatk佳实践发现体细胞变异.195
7.1癌症基因组研究面对的挑战195
7.2体细胞短变异(snv和indel)197
7.2.1肿瘤—正常组织配对分析工作流概览198
7.2.2创建mutect2pon队列.199
7.2.3在肿瘤—正常组织配对上运行mutect2工具.202
7.2.4估计样本交污染203
7.2.5过滤mutect2识别结果205
7.2.6用funcotator工具注明识别结果的功能预测效果208
7.3体细胞拷贝数变异210
7.3.1仅有肿瘤样本的分析工作流概览.211
7.3.2创建体细胞apon215
7.3.3去噪.215
7.3.4连接片段并识别a.217
7.3.5附加分析方法.220
7.4小结和下一步学内容.221
第8章用工作流自动执行分析任务223
8.1wdl和cromwell系统简介223
8.2安装和配置cromwell系统.226
8.3你的个wdl工作流:helloworld230
8.3.1编写小示例,学wdl基本句法.231
8.3.2在你的谷歌虚拟机上用cromwell系统运行简单wdl脚本233
8.3.3解释cromwell输出志的要点234
8.3.4加个变量并以json格式提供输入.237
8.3.5增加另一任务,完善工作流239
8.4你的个gatk工作流:hellohaplotypecaller241
8.4.1探索wdl工作流242
8.4.2生成json输入文件246
8.4.3运行工作流247
8.4.4破坏工作流,学句法检查和错误提示功能.249
8.5介绍分散—聚集并行机制.253
8.5.1探索wdl工作流254
8.5.2生成图表,实现可视化.260
8.6小结和下一步学内容.262
第9章真实基因组工作流详解263
9.1神秘工作流1:加入条件语句,提高灵活263
9.1.1工作流制图264
9.1.2逆向破解条件切换269
9.2神秘工作流2:模块化和代码重用276
9.2.1工作流制图276
9.2.2拆解套娃281
9.3小结和下一步学内容.288
0章用pipelinesapi运行多个工作流.289
10.1gcp台papi服务简介289
10.2直接发送cromwell作业到papi292
10.2.1配置cromwell,实现与papi通信292
10.2.2用papi并行运行haplotypecaller工具296
10.2.3在googleputeengine监控工作流执行298
10.3理解和优化工作流的效率302
10.3.1作粒度.302
10.3.2权衡时间和金钱.303
10.3.3成本优化建议305
10.3.4针对台优化和可移植307
10.4用wdlrunner封装cromwell和papi的执行308
10.4.1wdlrunner设置309
10.4.2用wdlrunner并行运行haplotypecaller工具310
10.4.3监控wdlrunner的执行.311
10.5小结和下一步学内容314
1章在terra台快捷运行多个工作流317
11.1terra入门317
11.1.1生成账号.318
11.1.2创建结算项目320
11.1.3克隆预先配好的工作区323
11.2在terra台用cromwell服务器运行工作流.324
11.2.1在单个样本上运行工作流324
11.2.2在数据表的多个样本上运行工作流327
11.2.3监控工作流执行333
11.2.4在数据表定位工作流输出337
11.2.5再次运行同一工作流,展示缓存调用.339
11.3运行一个真实、全规模gatk佳实践流水线.341
11.3.1寻找和克隆gatk种系短变异发现佳实践工作区342
11.3.2检查预加载数据342
11.3.3选数据并配置全规模工作流.344
11.3.4启动全规模工作流并监控其执行345
11.3.5下载输出数据的几种方法,或不下载.348
11.4小结和下一步学内容349
2章jupyternotebooks中的交互式分析351
12.1terra台jupyter服务简介.352
12.1.1jupyternotebooks概述352
12.1.2jupyternotebooks在terra台的工作354
12.2开始用terra台的jupyter软件360
12.2.1检查和自定义本运行环境的配置项360
12.2.2以编辑模式打开本并检查内核366
12.2.3运行helloworld单元格367
12.2.4用gsutil工具作谷歌云存储桶370
12.2.5声明变量,指向本书数据桶的种系数据371
12.2.6设置沙盒并将输出文件存入工作区数据桶372
12.3在嵌入式igv浏览器窗查看基因组数据.373
12.3.1设置嵌入式igv浏览器.374
12.3.2为igv浏览器添加数据.375
12.3.3设置访问令牌,查看私有数据377
12.4运行gatk命令,学、测试或解决问题378
12.4.1运行gatk基本命令:haplotypecaller379
12.4.2加载数据(bam和vcf)到igv浏览器380
12.4.3在嵌入式igv浏览器解决一个有问题的变异识别结果.382
12.5可视化变异上下文注释数据.385
12.5.1用variantstotable导出感兴趣的注释值385
12.5.2加载r脚本,绘制函数图像386
12.5.3用makedensityplot绘制qual值密度图387
12.5.4绘制qual和dp值散点图.389
12.5.5绘制附有边缘密度的散点图.390
12.6小结和下一步学内容392
3章在terra台自己组装工作区.393
13.1管理工作区内外数据393
13.1.1以工作区桶为数据仓库394
13.1.2访问你在terra台外部管理的私有数据.394
13.1.3访问terradatalibrary数据397
13.2用基本组件重建教程工作区.398
13.2.1新建工作区398
13.2.2添加工作流到methodsreitory并将其导入工作区400
13.2.3用json文件快速创建配置.402
13.2.4添加数据表403
13.2.5填充工作区资源数据表406
13.2.6用数据表创建工作流配置406
13.2.7添加本并检查运行环境.408
13.2.8编写工作区文档并分享它409
13.3从gatk佳实践工作区开始410
13.3.1克隆gatk佳实践工作区411
13.3.2检查gatk工作区数据表,理解数据组织方式411
13.3.3了解千人基因组高覆盖度数据集414
13.3.4从千人基因组工作区复制数据表416
13.3.5用tsv加载文件从千人基因组工作区导入数据417
13.3.6对联合数据集执行联合识别分析419
13.4围绕数据集,建工作区425
13.4.1克隆千人基因组数据工作区.426
13.4.2从dockstore导入工作流426
13.4.3配置工作流,使用数据表429
13.5小结和下一步学内容430
4章撰写可复现的.433
14.1案例研究概览433
14.1.1计算可复现和fair框架434
14.1.2案例研究的原始研究成果和历史436
14.1.3评估可用信息和关键挑战437
14.1.4设计可复现的实现.439
14.2生成合成数据集,替代私有数据441
14.2.1体方442
14.2.2从千人基因组受试检索变异数据444
14.2.3根据数据,仿造外显子组数组445
14.2.4改变仿造外显子组.449
14.2.5生成终数据集.452
14.3重建数据处理和分析方.452
14.3.1匹配和变异发现.453
14.3.2变异效果预测、排序和变异负荷分析.455
14.3.3新实现的分析能力.456
14.4通往fair的道路漫长又曲折.457
14.5结459
附录术语表.461
内容简介:
本书主要内容如下:
基因组学和计算科学背景知识。
云计算作基础。
带你入门gatk和三个主要gatk佳实践流水线。
用wdl语言编写工作流,用cromwell系统管理工作流,实现自动分析。
用并行技术在云端大规模执行工作流,降低成本。
在云端用jupyter本做交互分析。
用terra台实现安全协作和计算可复现。
— 没有更多了 —
以下为对购买帮助不大的评价