• 云端基因组学 软硬件技术 (美)杰拉尔丁·a.范德奥维拉,(美)布莱恩·d.奥康纳
21年品牌 40万+商家 超1.5亿件商品

云端基因组学 软硬件技术 (美)杰拉尔丁·a.范德奥维拉,(美)布莱恩·d.奥康纳

软硬件技术 新华书店全新正版书籍

63.04 4.3折 148 全新

库存2件

河北保定
认证卖家担保交易快速发货售后保障

作者(美)杰拉尔丁·a.范德奥维拉,(美)布莱恩·d.奥康纳

出版社中国电力出版社

ISBN9787519864422

出版时间2022-04

版次1

装帧平装

开本16开

页数484页

字数623千字

定价148元

货号xhwx_1202649528

上书时间2022-06-23

浩子书屋

八年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
正版特价新书
商品描述
目录:

序.1

前言.5

章概述13

1.1生物学和生命科学大数据的希望和挑战.14

1.2大数据对基础设施的挑战15

1.3数据分享和分析云生态系统16

1.3.1云托管数据和云计算.16

1.3.2生命科学研究台18

1.3.3基础设施的标准化和复用20

1.4践行fair理念22

1.5小结和下一步学内容23

第2章基因组学简介:新手阅读25

2.1基因组学入门25

2.1.1基因作为独立遗传单元(从某种程度上讲)26

2.1.2生物学中心则:从dna到rna再到蛋白质.29

2.1.3dna突变的起因和后果31

2.1.4基因组学是基因组内和基因组间变异的清单32

2.1.5大规模系统分析基因组的难点33

2.2基因组变异.33

2.2.1以参基因组为通用框架33

2.2.2变异的物理分类37

2.2.3种系变异和体细胞变异的区别.42

2.3生成高通量测序数据.45

2.3.1从生物样本到大量读段数据45

2.3.2dna文库类型:选择合适的实验设计50

2.4数据处理和分析53

2.4.1将读段匹配到参基因组54

2.4.2变异识别56

2.4.3数据质量和错误源59

2.4.4规格统一:功能等价流水线63

2.5小结和下一步学内容64

第3章生命科学家计算技术入门.65

3.1基础设施的基本组件和能瓶颈65

3.1.1几种处理器硬件:cpu、gpu、fpga和tpu66

3.1.2计算组织的层级:核、节点、集群和云.67

3.1.3解决能瓶颈68

3.2并行计算72

3.2.1并行处理一个简单分析任务72

3.2.2从核到集群和云:多层并行机制73

3.2.3并行需权衡速度、效率和成本.75

3.3并行和自动化流水线.76

3.3.1工作流语言.77

3.3.2常用基因组流水线语言78

3.3.3工作流管理系统79

3.4虚拟化和云.79

3.4.1虚拟机和容器80

3.4.2云简介83

3.4.3采用云服务从事研究的几个场景86

3.5小结和下一步学内容88

第4章云上步.89

4.1开通谷歌云账号并创建少有项目89

4.1.1创建项目90

4.1.2核对你的结算账号并激活费试用额度.91

4.2用googlecloudshell运行基本命令94

4.2.1登录cloudshell虚拟机94

4.2.2用gsutil访问和管理文件96

4.2.3拉取docker镜像并启动容器99

4.2.4挂载数据卷,从容器访问文件系统102

4.3创建自定义虚拟机104

4.3.1创建和配置你的虚拟机实例104

4.3.2用ssh登录虚拟机.111

4.3.3验证身份112

4.3.4复制本书材料到你的虚拟机114

4.3.5在虚拟机上安装docker115

4.3.6构建gatk容器镜像.116

4.3.7停用虚拟机,停止烧钱.118

4.4配置igv浏览器,读取gcs桶数据.119

4.5小结和下一步学内容.124

第5章gatk入门125

5.1开始用gatk.125

5.1.1运行要求126

5.1.2命令行句127

5.1.3用spark实现多线程128

5.1.4gatk实131

5.2动手找变异136

5.2.1用haplotypecaller寻找种系snp和indel136

5.2.2根据变异上下文注释过滤变异识别结果146

5.3gatk很好实践简介154

5.3.1本书涵盖的很好实践156

5.3.2其他主要应用场景156

5.4小结和下一步学内容.157

第6章用gatk很好实践发现种系短变异.159

6.1数据预处理159

6.1.1将读段匹配到基因组参161

6.1.2标记重复读段.163

6.1.3重新校正碱基质量值165

6.2联合发现分析.167

6.2.1联合变异识别工作流概览167

6.2.2识别每个样本的变异,生成gvcf文件.172

6.2.3整合gvcf文件174

6.2.4用联合鉴定基因型方处理多个样本176

6.2.5重校正变异质量值,过滤联合识别结果集.178

6.2.6改进基因型分配结果并调整其可信度183

6.2.7下一步和延伸阅读184

6.3用n过滤识别单样本变异185

6.3.1n单样本工作流概览187

6.3.2采用1dn过滤单样本wgs变异识别结果集188

6.3.3采用2dn在模型中加入读段数据.190

6.4小结和下一步学内容.193

第7章用gatk很好实践发现体细胞变异.195

7.1癌症基因组研究面对的挑战195

7.2体细胞短变异(snv和indel)197

7.2.1肿瘤—正常组织配对分析工作流概览198

7.2.2创建mutect2pon队列.199

7.2.3在肿瘤—正常组织配对上运行mutect2工具.202

7.2.4估计样本交污染203

7.2.5过滤mutect2识别结果205

7.2.6用funcotator工具注明识别结果的功能预测效果208

7.3体细胞拷贝数变异210

7.3.1仅有肿瘤样本的分析工作流概览.211

7.3.2创建体细胞apon215

7.3.3去噪.215

7.3.4连接片段并识别a.217

7.3.5附加分析方.220

7.4小结和下一步学内容.221

第8章用工作流自动执行分析任务223

8.1wdl和cromwell系统简介223

8.2安装和配置cromwell系统.226

8.3你的个wdl工作流:helloworld230

8.3.1编写小示例,学wdl基本句.231

8.3.2在你的谷歌虚拟机上用cromwell系统运行简单wdl脚本233

8.3.3解释cromwell输出志的要点234

8.3.4加个变量并以json格式提供输入.237

8.3.5增加另一任务,完善工作流239

8.4你的个gatk工作流:hellohaplotypecaller241

8.4.1探索wdl工作流242

8.4.2生成json输入文件246

8.4.3运行工作流247

8.4.4破坏工作流,学句检查和错误提示功能.249

8.5介绍分散—聚集并行机制.253

8.5.1探索wdl工作流254

8.5.2生成图表,实现可视化.260

8.6小结和下一步学内容.262

第9章真实基因组工作流详解263

9.1神秘工作流1:加入条件语句,提高灵活263

9.1.1工作流制图264

9.1.2逆向破解条件切换269

9.2神秘工作流2:模块化和代码重用276

9.2.1工作流制图276

9.2.2拆解套娃281

9.3小结和下一步学内容.288

0章用pipelinesapi运行多个工作流.289

10.1gcp台papi服务简介289

10.2直接发送cromwell作业到papi292

10.2.1配置cromwell,实现与papi通信292

10.2.2用papi并行运行haplotypecaller工具296

10.2.3在googleputeengine监控工作流执行298

10.3理解和优化工作流的效率302

10.3.1作粒度.302

10.3.2权衡时间和金钱.303

10.3.3成本优化建议305

10.3.4针对台优化和可移植307

10.4用wdlrunner封装cromwell和papi的执行308

10.4.1wdlrunner设置309

10.4.2用wdlrunner并行运行haplotypecaller工具310

10.4.3监控wdlrunner的执行.311

10.5小结和下一步学内容314

1章在terra台快捷运行多个工作流317

11.1terra入门317

11.1.1生成账号.318

11.1.2创建结算项目320

11.1.3克隆预先配好的工作区323

11.2在terra台用cromwell服务器运行工作流.324

11.2.1在单个样本上运行工作流324

11.2.2在数据表的多个样本上运行工作流327

11.2.3监控工作流执行333

11.2.4在数据表定位工作流输出337

11.2.5再次运行同一工作流,展示缓存调用.339

11.3运行一个真实、全规模gatk很好实践流水线.341

11.3.1寻找和克隆gatk种系短变异发现很好实践工作区342

11.3.2检查预加载数据342

11.3.3选数据并配置全规模工作流.344

11.3.4启动全规模工作流并监控其执行345

11.3.5下载输出数据的几种方,或不下载.348

11.4小结和下一步学内容349

2章jupyternotebooks中的交互式分析351

12.1terra台jupyter服务简介.352

12.1.1jupyternotebooks概述352

12.1.2jupyternotebooks在terra台的工作354

12.2开始用terra台的jupyter软件360

12.2.1检查和自定义笔记本运行环境的配置项360

12.2.2以编辑模式打开笔记本并检查内核366

12.2.3运行helloworld单元格367

12.2.4用gsutil工具作谷歌云存储桶370

12.2.5声明变量,指向本书数据桶的种系数据371

12.2.6设置沙盒并将输出文件存入工作区数据桶372

12.3在嵌入式igv浏览器窗查看基因组数据.373

12.3.1设置嵌入式igv浏览器.374

12.3.2为igv浏览器添加数据.375

12.3.3设置访问令牌,查看私有数据377

12.4运行gatk命令,学、测试或解决问题378

12.4.1运行gatk基本命令:haplotypecaller379

12.4.2加载数据(bam和vcf)到igv浏览器380

12.4.3在嵌入式igv浏览器解决一个有问题的变异识别结果.382

12.5可视化变异上下文注释数据.385

12.5.1用variantstotable导出感兴趣的注释值385

12.5.2加载r脚本,绘制函数图像386

12.5.3用makedensityplot绘制qual值密度图387

12.5.4绘制qual和dp值散点图.389

12.5.5绘制附有边缘密度的散点图.390

12.6小结和下一步学内容392

3章在terra台自己组装工作区.393

13.1管理工作区内外数据393

13.1.1以工作区桶为数据仓库394

13.1.2访问你在terra台外部管理的私有数据.394

13.1.3访问terradatalibrary数据397

13.2用基本组件重建教程工作区.398

13.2.1新建工作区398

13.2.2添加工作流到methodsreitory并将其导入工作区400

13.2.3用json文件快速创建配置.402

13.2.4添加数据表403

13.2.5填充工作区资源数据表406

13.2.6用数据表创建工作流配置406

13.2.7添加笔记本并检查运行环境.408

13.2.8编写工作区文档并分享它409

13.3从gatk很好实践工作区开始410

13.3.1克隆gatk很好实践工作区411

13.3.2检查gatk工作区数据表,理解数据组织方式411

13.3.3了解千人基因组高覆盖度数据集414

13.3.4从千人基因组工作区复制数据表416

13.3.5用tsv加载文件从千人基因组工作区导入数据417

13.3.6对联合数据集执行联合识别分析419

13.4围绕数据集,建工作区425

13.4.1克隆千人基因组数据工作区.426

13.4.2从dockstore导入工作流426

13.4.3配置工作流,使用数据表429

13.5小结和下一步学内容430

4章撰写可接近复现的.433

14.1案例研究概览433

14.1.1计算可复现和fair框架434

14.1.2案例研究的原始研究成果和历史436

14.1.3评估可用信息和关键挑战437

14.1.4设计可复现的实现.439

14.2生成合成数据集,替代私有数据441

14.2.1体方论442

14.2.2从千人基因组受试检索变异数据444

14.2.3根据真人数据,仿造外显子组数组445

14.2.4改变仿造外显子组.449

14.2.5生成终数据集.452

14.3重建数据处理和分析方论.452

14.3.1匹配和变异发现.453

14.3.2变异效果预测、排序和变异负荷分析.455

14.3.3新实现的分析能力.456

14.4通往fair的道路漫长又曲折.457

14.5结459

附录术语表.461

内容简介:

本书主要内容如下:基因组学和计算科学背景知识。云计算作基础。带你入门gatk和三个主要gatk很好实践流水线。用wdl语言编写工作流,用cromwell系统管理工作流,实现自动分析。用并行技术在云端大规模执行工作流,降低成本。在云端用jupyter笔记本做交互分析。用terra台实现安全协作和计算可复现。

—  没有更多了  —

以下为对购买帮助不大的评价

正版特价新书
此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP