近年来,基因组学领域数据激增。未来几年,美国国立卫生研究院(NIH)等机构将托管50多拍字节(或5000多万吉字节)的基因组数据。它们已开始利用云基础设施托管数据,以便将其开放给研究社区使用。你如何改进基因组分析工具和协议,才能访问和分析云端海量数据? 本书紧贴工作实际,研究者可从本书学到如何用基因组分析工具集GATK、Docker容器、WDL语言和Terra平台等开源工具编制和运行基因组学分析算法。作者Geraldine Van der Auwera长期管理GATK用户社区,作者Brian O’Connor则来自加利福尼亚大学圣克鲁兹分校基因组研究所。阅读本书的过程,就仿佛是两位专家带你完成云端基因组分析项目。你将学习用基因组学分析算法处理真实数据。
【内容简介】:
本书主要内容如下:
基因组学和计算科学背景知识。
云计算操作基础。
带你入门GATK和三个主要GATK实践流水线。
用WDL语言编写工作流,用Cromwell系统管理工作流,实现自动分析。
用并行技术在云端大规模执行工作流,降低成本。
在云端用Jupyter笔记本做交互分析。
用Terra平台实现安全协作和计算可复现。
【作者简介】:
Geraldine A. Van der Auwera博士是麻省理工学院和哈佛大学博德研究所数据科学平台的外联和通信主任。 Brian D. O’Connor博士是加利福尼亚大学圣克鲁兹分校基因组研究所计算基因组平台主任。
以下为对购买帮助不大的评价