正版保障 假一赔十 可开发票
¥ 65.12 4.4折 ¥ 148 全新
库存52件
作者[美]杰拉尔丁·A.范德奥维拉,[美]布里安·D.奥康纳
出版社中国电力出版社有限责任公司
ISBN9787519864422
出版时间2021-08
装帧平装
开本16开
定价148元
货号11588782
上书时间2024-10-25
序
前言
第1章概述
1.1生物学和生命科学大数据的希望和挑战
1.2大数据对基础设施的挑战
1.3数据分享和分析云生态系统
1.3.1云托管数据和云计算
1.3.2生命科学研究平台
1.3.3基础设施的标准化和复用
1.4践行FAIR理念
1.5小结和下一步学习内容
第2章基因组学简介:新手必读.
2.1基因组学入门
2.1.1基因作为独立遗传单元(从某种程度上讲)
2.1.2生物学中心法则:从DNA到RNA再到蛋白质
2.1.3DNA突变的起因和后果
2.1.4基因组学是基因组内和基因组间变异的清单
2.1.5大规模系统性分析基因组的难点
2.2基因组变异
2.2.1以参考基因组为通用框架
2.2.2变异的物理分类
2.2.3种系变异和体细胞变异的区别
2.3生成高通量测序数据
2.3.1从生物样本到大量读段数据
2.3.2DNA文库类型:选择合适的实验设计
2.4数据处理和分析
2.4.1将读段匹配到参考基因组
2.4.2变异识别
2.4.3数据质量和错误源
2.4.4规格统一:功能等价流水线
2.5小结和下一步学习内容
第3章生命科学家必备计算技术入门
3.1基础设施的基本组件和性能瓶颈
3.1.1几种处理器硬件:CPU、GPU、FPGA和TPU
3.1.2计算组织的层级:核、节点、集群和云
3.1.3解决性能瓶颈
3.2并行计算
3.2.1并行处理一个简单分析任务
3.2.2从核到集群和云:多层并行机制
3.2.3并行需权衡速度、效率和成本
3.3并行和自动化流水线
3.3.1工作流语言
3.3.2常用基因组流水线语言
3.3.3工作流管理系统
3.4虚拟化和云
3.4.1虚拟机和容器
3.4.2云简介
3.4.3采用云服务从事研究的几个场景
3.5小结和下一步学习内容
……
第14章撰写可完全复现的论文
14.1案例研究概览
14.1.1计算可复现和FAIR框架
14.1.2案例研究的原始研究成果和历史
14.1.3评估可用信息和关键挑战
14.1.4设计可复现的实现
14.2生成合成数据集,替代私有数据
14.2.1总体方法论
14.2.2从千人基因组受试检索变异数据
14.2.3根据真人数据,仿造外显子组数组
14.2.4改变仿造外显子组
14.2.5生成最终数据集
14.3重建数据处理和分析方法论
14.3.1匹配和变异发现
14.3.2变异效果预测、排序和变异负荷分析
14.3.3新实现的分析能力
14.4通往FAIR的道路漫长又曲折
14.5总结
附录术语表
1.1生物学和生命科学大数据的希望和挑战
个人实验室或大型机构的研究者,很快便能生成海量数据。写作本书时,项目只要包含几十万基因组的全基因组序列就被视为大项目。而下个十年,我们有望看到规模更大的项目,例如为数以百万计基因组和转录物组测序,加之新增高级细胞成像和蛋白质组等多种数据类型,情况更加复杂。大数据为研究者带来希望,他们借助数据量大和新数据类型多的优势,着力破解某些最难的生物学问题,这些问题发问简单但解决难,而他们正离答案越来越近。例如,人体有多少种细胞类型?哪些基因突变引发疾病?为什么会得癌症以及我们能否更早预测到?因为研究的本质是团体活动,所以我们想扩大大量新数据分享范围,分享数据分析算法。我们还想跟更广阔世界分享我们的发现。
1.2大数据对基础设施的挑战
研究者在享受成本下降和实验设计扩容双重机会同时也面临一些挑战。风口浪尖,停留不易,况且每种新技术都有其复杂之处。例如,单个碱基通过纳米孔时,如何准确识别它?如何为活细胞绘制3D图像而不至于电伤它们?如何比较两个实验室的单细胞表达数据,同时纠正因批次效应而产生的差异?我们开发或优化一种新型实验设计会面对诸多挑战,上面仅试举几例。
但即使到了数据生成环节,困难也并没有因此终止,要说这个阶段跟之前有什么不同的话,那就是困难不但没消除,还只是刚开始。实验结束,你拿到数据,迎接你的是一个全新、复杂的世界,你需要理清头绪,做出成果。组学研究一大难点是,我们生成数据后,如何确定其处理方式。
若每次成像实验,生成1TB图像数据。为便于后续使用,你存到哪里合适?若全基因组测序研究,生成临床和表型数据混合体及序列数据,你如何组织这些数据,才能让这些数据在公开之后可以被自己所在的团体乃至更大范围的研究社区轻松找到?若需更新方法论,用最新版分析软件,处理10万多个样本,分析工作该如何应对样本量上升?如何确保分析技术在不同环境、不同平台和机构也能正常工作?如何确保生命科学家能复现你的方法,他们可能只受过少量甚至未受过计算技术的正式训练?
本书将介绍如何用公有云解决基础设施方面的一些挑战。公有云是一种通过互联网按需提供的计算服务。在介绍它之前,我们先讨论为什么我们认为云这种解决方案非常吸引人,并摸清它的某些潜在限制。
……
本书主要内容如下:基因组学和计算科学背景知识。云计算操作基础。带你入门GATK和三个主要CATK最佳实践流水线。用WDL语言编写工作流,用Cromwell系统管理工作流,实现自动分析。用并行技术在云端大规模执行工作流,降低成本。在云端用Jupyter笔记本做交互分析。用Terra平台实现安全协作和计算可复现。GeraldineA.VanderAuwera博士是麻省理工学院和哈佛大学博德研究所数据科学平台的外联和通信主任。BrianD.0’Cornor博士是加利福尼亚大学圣克鲁兹分校基因组研究所计算基因组平台主任。
— 没有更多了 —
以下为对购买帮助不大的评价