大模型导论
全新正版 极速发货
¥
41.13
5.9折
¥
69.8
全新
库存10件
作者张成文
出版社人民邮电出版社
ISBN9787115637987
出版时间2024-07
装帧平装
开本16开
定价69.8元
货号1203328232
上书时间2024-09-05
商品详情
- 品相描述:全新
- 商品描述
-
作者简介
张成文,博士,北京邮电大学副教授、硕士生导师。中国人工智能学会高级会员,任中国电子商会大模型应用产业专委会秘书长、中国人工智能产业发展联盟产学研工作组副组长,中国医学装备协会人工智能和医用机器人工作委员会常委、中国教育发展战略学会人工智能与机器人专委会理事等。他在网络技术专业领域有着深入的研究,并且完成了国家科技重大专项、国家重点研发计划、国家自然科学基金等项目。专业方向包括人工智能、大数据个性化推荐、云计算、计算机视觉等。他在国内外一流期刊上发表了多篇高水平论文,并出版了多本教材和专著。
目录
第 1章 大模型概述 1
1.1 大模型介绍 2
1.1.1 生成原理 4
1.1.2 关键技术 5
1.1.3 关键术语 10
1.2 大模型分类 11
1.2.1 按模型结构划分 12
1.2.2 按模态划分 12
1.2.3 按微调方式划分 13
1.2.4 带插件系统的大模型 13
1.3 大模型的开发流程 13
1.3.1 确定项目目标 14
1.3.2 数据准备 15
1.3.3 模型设计 16
1.3.4 模型训练 16
1.3.5 模型部署 17
1.3.6 模型应用 17
1.4 应用场景 18
1.5 未来发展方向 20
1.5.1 AI智能体 20
1.5.2 具身智能 21
1.6 小结 22
1.7 课后习题 22
第 2章 数据预处理 23
2.1 文本数据预处理 23
2.1.1 构造方法 24
2.1.2 构造流程 26
2.1.3 处理手段 28
2.1.4 常用类库 37
2.2 图像数据预处理 47
2.2.1 图像去噪 48
2.2.2 图像重采样 52
2.2.3 图像增强 53
2.3 图文对数据预处理 56
2.4 Datasets库 58
2.4.1 安装与配置 58
2.4.2 使用方法 58
2.5 小结 63
2.6 课后习题 64
第3章 Transformer 65
3.1 注意力机制 65
3.1.1 自注意力机制 66
3.1.2 多头自注意力机制 68
3.2 Transformer简介 70
3.2.1 位置编码 70
3.2.2 整体结构 71
3.2.3 稀疏Transformer 72
3.3 Visual Transformer简介 73
3.3.1 模型结构 74
3.3.2 与Transformer对比 75
3.4 Q-Former 75
3.5 transformers库 77
3.5.1 基本组成 77
3.5.2 使用方法 78
3.5.3 微调实践 83
3.6 小结 85
3.7 课后习题 86
第4章 预训练 87
4.1 预训练介绍 87
4.1.1 发展历程 88
4.1.2 模型类型 88
4.1.3 掩码预训练 89
4.2 预训练任务 89
4.3 应用于下游任务的方法 91
4.3.1 迁移学习 91
4.3.2 微调 91
4.4 预训练模型的应用 92
4.5 小结 93
4.6 课后习题 93
第5章 训练优化 94
5.1 模型训练挑战 94
5.2 训练优化技术 95
5.2.1 数据并行 95
5.2.2 模型并行 97
5.2.3 流水线并行 98
5.2.4 混合精度训练 99
5.3 训练加速工具 100
5.3.1 DeepSpeed 100
5.3.2 Megatron-LM 103
5.3.3 Colossal-AI 104
5.3.4 BMTrain 104
5.4 小结 107
5.5 课后习题 108
第6章 模型微调 109
6.1 监督微调 110
6.2 PEFT技术 110
6.2.1 Adapter tuning 111
6.2.2 Prefix tuning 111
6.2.3 Prompt tuning 112
6.2.4 P-tuning v1 113
6.2.5 P-tuning v2 114
6.2.6 LoRA 114
6.2.7 QLoRA 115
6.3 PEFT库 116
6.3.1 关键步骤 117
6.3.2 微调方法 118
6.4 小结 124
6.5 课后习题 124
第7章 模型推理 125
7.1 模型压缩和加速技术 125
7.1.1 模型量化 126
7.1.2 知识蒸馏 127
7.1.3 模型剪枝 130
7.1.4 稀疏激活 132
7.2 推理服务提升技术 133
7.2.1 KV Cache 134
7.2.2 PagedAttention 134
7.3 小结 136
7.4 课后习题 136
第8章 PyTorch框架 137
8.1 安装与配置 137
8.2 基础组件 138
8.2.1 张量 138
8.2.2 CUDA张量 142
8.2.3 Autograd 144
8.2.4 DataLoader 146
8.3 构建线性回归模型 148
8.4 构建Transformer模型 151
8.4.1 数据准备与参数设置 151
8.4.2 位置编码 153
8.4.3 掩码操作 154
8.4.4 注意力计算 154
8.4.5 前馈神经网络 155
8.4.6 编码器与解码器 155
8.4.7 构建Transformer 157
8.4.8 模型训练 157
8.4.9 模型测试 158
8.5 小结 158
8.6 课后习题 159
第9章 向量数据库 160
9.1 Milvus 160
9.1.1 安装与配置 161
9.1.2 Milvus 1.0的基本操作 162
9.1.3 Milvus 2.0的基本操作 163
9.2 Pinecone 166
9.2.1 注册与配置 166
9.2.2 基本操作 166
9.3 Chroma 168
9.3.1 安装与配置 168
9.3.2 基本操作 168
9.4 小结 170
9.5 课后习题 170
第 10章 前端可视化工具 171
10.1 Gradio 171
10.1.1 Gradio安装 172
10.1.2 常用操作 172
10.1.3 Interface使用详解 175
10.1.4 Blocks使用详解 176
10.2 Streamlit 178
10.2.1 安装与配置 178
10.2.2 数据展示API 180
10.2.3 控件API 182
10.2.4 页面布局API 184
10.2.5 状态存储 185
10.3 小结 185
10.4 课后习题 186
第 11章 LangChain 187
11.1 LangChain组件 187
11.1.1 Models 188
11.1.2 Prompts 188
11.1.3 Indexes 190
11.1.4 Memory 190
11.1.5 Chains 194
11.1.6 Agents 196
11.2 基础操作 199
11.2.1 Prompts的用法 200
11.2.2 Chains的用法 201
11.2.3 Agents的用法 202
11.2.4 Memory的用法 204
11.3 进阶实战 205
11.3.1 对话式检索问答 205
11.3.2 长短文本总结 207
11.3.3 结合向量数据库实现问答 209
11.4 基于私域数据的问答系统 211
11.4.1 环境准备 212
11.4.2 模型测试 213
11.4.3 构建提示词模板 213
11.4.4 生成词向量 214
11.4.5 创建向量数据库 216
11.4.6 构建问答系统 217
11.5 小结 219
11.6 课后习题 219
第 12章 常用开源模型的部署与微调 220
12.1 ChatGLM3模型部署与微调 220
12.1.1 环境准备 220
12.1.2 载入模型 222
12.1.3 数据准备 224
12.1.4 定义模型 228
12.1.5 模型训练 230
12.1.6 保存模型 232
12.1.7 模型评估 232
12.2 Baichuan2模型部署与微调 233
12.2.1 环境准备 233
12.2.2 载入模型 234
12.2.3 数据准备 238
12.2.4 定义模型 241
12.2.5 模型训练 242
12.2.6 保存模型 244
12.2.7 模型评估 245
12.3 LLaMA2模型部署与微调 247
12.3.1 模型使用申请 248
12.3.2 环境准备 248
12.3.3 载入模型 249
12.3.4 数据准备 250
12.3.5 模型训练 251
12.3.6 保存模型 254
12.3.7 模型评估 255
12.4 小结 256
12.5 课后习题 256
参考文献 257
内容摘要
本书主要介绍了大模型的发展与演变、相关技术、应用场景、未来发展趋势和前景。本书首先回顾了大模型技术的起源和发展历程,然后介绍了数据预处理、Transformer、预训练与微调、模型推理和PyTorch框架等技术。此外,本书还通过具体的案例和实践展示了如何应用大模型技术来解决实际问题。本书旨在帮助读者全面了解大模型技术的发展与应用,并推动其在各个领域的应用和发展。
本书图文并茂,理论翔实,案例丰富,适合从事大模型开发的科研人员以及广大的开发者作为技术参考和培训资料,亦可作为高校本科生和研究生的教材。
主编推荐
·内容全面,本书涵盖大模型技术的各个方面,包括大模型的概念、数据预处理、Transformer、预训练与微调、模型推理以及案例实战等。
·内容循序渐进,从大模型基础概念到开发架构全案例式讲解,通过实战引导读者掌握大模型技术。
·注重实用,附赠源码,丰富学习方式,边学边练。
·提供丰富的教学资源,适合高校教学和大模型领域从业者使用,满足不同层次读者的需求。
媒体评论
这本书从理论层面和技术层面对大模型进行了深入浅出的讲解,为读者清晰地展示了从基础到实践的学习路线,降低了学习并掌握大模型理论与技术的难度。书中的案例和项目实践在激发读者学习兴趣方面将发挥有效作用,能够培养读者的动手能力,进一步提高创新能力。同时这本书还介绍了大模型在工业界以及科研领域的进展,可以为读者提供更丰富的学习方向指导。这本书的出版将为培养大模型人才和繁荣大模型产学研生态发挥积极的推动作用。
——李伯虎,中国工程院院士
当前基于大模型的生成式人工智能正以靠前的速度深刻地改变着人们的生产、生活、学习方式。面对这一趋势,人们迫切需要学习和了解大模型,以便更好地掌握大模型,使其有效地应用于各行各业。针对这种需求,这本书兼顾理论深度、技术广度和实践经验,为读者打开了通向大模型世界的大门。
——倪光南,中国工程院院士
这本书从大模型的理论、技术、工程实践3个方面为读者提供了全面且深入的学习体验。在理论方面,这本书系统地介绍了大模型的发展历程、基本原理以及相关领域的理论框架,可以帮助读者建立相关的理论基础;在技术方面,这本书详细讲解了大模型的常用框架、方法,可以为读者提供丰富的技术工具和解决问题的思路;在工程实践方面,这本书强调了大模型在实际项目中的应用,通过案例分析和实战经验分享,可以帮助读者更好地将理论知识转化为实际应用能力。这3方面的优势可以帮助读者在学习过程中既能够深入理解大模型的内在机制,又能够掌握实际应用的操作技能,从而提升大模型开发与应用水平。
——沈昌祥,中国工程院院士
这本书不仅是一本工具书,也是面向大模型前沿技术的较为全面的读物。它深入浅出地介绍了大模型的技术进展,让读者站在大模型发展的前沿。同时,它还提供了常用工具的详细介绍,可以帮助读者高效进行大模型的开发和应用。无论读者是研究人员、工程师还是初学者,这本书都将提供有力指导和帮助。通过学习这本书,读者不仅可以掌握大模型的理论与技术脉络,而且能够学会如何利用工具来解决实际问题。这本书不仅可以作为学习大模型的优秀资料,而且可以成为读者提升大模型开发与应用能力的参考书。
——张宏江,美国国家工程院外籍院士,北京智源人工智能研究院理事长
这本书以大模型开发流程为导引,以新技术为风向标,深入讲解了大模型开发过程中的数据准备、模型构建、训练与优化等环节。对于想要深入了解大模型技术的读者而言,这本书无疑是非常理想的学习资料。通过学习这本书,读者可以快速掌握大模型技术,并将其应用于实际场景,从而发挥大模型的强大生产力。随着大模型在各个垂直领域的结合力与影响力的加深,这本书对于培养各个垂直领域的大模型复合型人才将具有非常重要的现实意义。通过这本书的系统化学习,读者可以将大模型作为利器来挖掘新的应用场景,以及优化现有业务流程,从而推动创新发展。
——杨强,香港科技大学讲座教授,加拿大皇家科学院院士、加拿大工程院院士
这本书是一份由浅入深、由理论到实践的大模型学习资料,可以为读者提供理论与实践相结合的学习体验。在理论层面,这本书通过系统且丰富的内容,从基础概念到前沿进展,为读者提供了学习大模型理论的有效路径;在技术层面,这本书以清晰且详尽的语言展示了多种大模型应用的方法、技巧以及实践。通过学习丰富的案例,读者不仅能够理解复杂的名词概念,而且能够将大模型技术运用于实际项目。这种融合理论与实践的方式,使得技术学习难题由陡峭的山径变成步步可循的阶梯。这本书强调了大模型在实际工程应用中的价值,提供了开发经验和相关实践。通过学习这本书,读者不仅能够领略大模型在应用领域的无限潜力,而且能够学习将理论知识转化为实际解决方案的关键技能。
——孙茂松,欧洲人文和自然科学院外籍院士,清华大学人工智能研究院常务副院长
随着大模型技术及相关产品的快速更迭,大模型时代已然来临。对于想要开展大模型研发的读者来说,如何快速掌握这项复杂的技术并能够有效应用到实际场景中成为迫切的需求,而《大模型导论》一书能为读者提供从入门到精通的学习路径。这本书不仅介绍了大模型的原理、算法和技术框架,而且通过丰富的案例和实践项目帮助读者在实际操作中加深对知识的理解。这本书在理论与实践结合方面做得很好,使得读者的学习过程既不枯燥,又具有深度。这样的内容编排,既适合对大模型开发抱有强烈兴趣的初学者,也可以作为具有一定基础的技术人员的参考书。
——潘毅,美国医学与生物工程院院士、俄罗斯工程院外籍院士
在人工智能领域,大模型技术已经成为当今世界科技发展的重要推动力。从Google公司的Transformer到OpenAI公司的ChatGPT,大模型正在以靠前的速度改变着我们的世界。然而,大模型技术的快速发展也带来了学习与应用的难度。为了帮助读者降低这一学习门槛,这本书应运而生。它以通俗易懂的语言解释了大模型的复杂概念,使得读者能够轻松理解大模型的工作机制和内在逻辑。同时,这本书还通过具体案例演示了如何应用大模型技术来解决实际问题,包括对话式检索问答、长短文本总结等任务。作为一本深度探讨大模型技术的专业图书,这本书阐述了从理论到实践的全流程,是一份极具参考价值的资料。无论你是对大模型技术一无所知的新手,还是已经在该领域有一定研究的专家,这本书都能为你带来丰富的知识和深刻的见解。
——唐杰,清华大学计算机系讲席教授,ACM Fellow、IEEE Fellow
这本书对大模型的理论与技术进行了系统解读。通过学习这本书,读者可以掌握从基础概念到前沿进展的广泛知识,为自己的大模型科研工作奠定基础。这本书理论与实践并重,通过多个实例帮助读者将学到的知识运用于实际项目。这种贴近实践的大模型人才培养方式,不仅可以提高读者的动手操作能力,而且能培养读者的创新思维和问题解决能力。总体而言,这本书不仅是一本大模型基础理论及技术开发的指南,更是一部为大模型人才培养提供支持和帮助的重要教材。这本书不仅能够激发读者的学术热情,而且可以培养读者的动手操作能力,为大模型在我国各垂直领域的应用创新发展提供支持。
——何桂立,中国信息通信研究院原副院长,中国互联网协会副理事长,
工信部信息通信科技委常委
大模型时代AI原生应用成为行业共识,但什么才是真正的AI原生应用呢?AI原生应用有4个基本标志:将开源大模型在本行业落地,通过矢量数据库抓取本行业的默会知识,通过本行业专属大模型的预测和决策带来新的价值,通过精心设计的Prompt解决本行业的问题。掌握这4个方面技能的人才就是AI原生人才,大有可为。通过对这本书的学习,读者可以掌握这4个方面的知识,成为AI原生人才。
——吕本富,中国科学院大学教授,中国国家创新与发展战略研究会副会长
这本书是大模型技术领域的精粹。它深入浅出地介绍了大模型技术从理论基础到实际应用的全过程。无论是初学者还是经验丰富的专业人士,都能从中获得宝贵的知识和灵感。对于追求人工智能前沿知识的读者来说,这本书是掌握和应用大模型技术的理想指南。
——颜水成,新加坡工程院院士,昆仑万维天工智能联席CEO
大模型是人工智能2.0时代的标志。人才培养是大模型在我国生根发芽、结出硕果的根基。厘清概念,方便教师和学习者在相对简易的条件下进行有效的教学实践,是人才培养、教育和科普领域的基础性工作。《大模型导论》一书恰好是人工智能?2.0?时代的一本不错的教科书、科普书,对初学者和关心大模型技术的公众来说都具有很大的参考价值。希望这本书可以为全社会学习、了解、实践大模型提供支持,成为推动我国人工智能科普、教学和人才培养工作再进一步的重要力量。
——王钧,中关村人才协会发起人、执行副理事长
这本书不仅对大模型的原理、算法和技术进行了深入浅出的阐述,而且通过丰富的案例和实际应用,让读者真正理解和掌握大模型开发的核心技术和应用技巧。对于广大的人工智能从业者、研究者以及爱好者来说,这本书无疑是一份宝贵的参考资料。它可以帮助你系统地了解大模型的开发过程和应用场景,为大模型的研发和应用提供强有力的支撑。
值得一提的是,这本书还特别强调了大模型人才培养和产学研融合的重要性。在当前这个知识更新迅速的时代,人才培养是推动技术进步和社会发展的关键,而产学研的深度融合则有助于加速科技成果的转化和应用,推动产业的升级和创新。
——朱兆颖,AIII人工智能产业研究院院长
这是一本有利于培养我国大模型技术人才的图书。这本书不仅比较全面地介绍了与大模型相关的技术知识与工程实践,而且在课程思政方面有许多非常好的见解与观点创新。
这本书非常适合作为教育和培训机构以及用人单位的大模型人才培养与培训的教材或参考资料。
——中关村人才协会大模型人才专委会
在大模型时代,掌握大模型技术的赋能方要有业务场景意识,而掌握know-how的大模型应用的业务方要有大模型理念,只有双方交叉融合,才能讲好大模型的故事、做好大模型的事情。
这本书在推动技术与业务跨界融合方面做了很好的尝试,深刻阐述了只有基于应用场景的资源且与业务场景相结合的大模型才是合适的大模型的理念。
这不仅是一本很好的大模型技术图书,也是一本适用于大模型应用产业的参考资料。
推荐负责研发或应用大模型相关技术,以及生产或使用大模型相关产品的单位或个人阅读。
——中国电子商会大模型应用产业专委会
— 没有更多了 —
以下为对购买帮助不大的评价