消息首页搜索举报

ChatGPT原理与架构:大模型的预训练、迁移和中间件编程

正版保障假一赔十可开发票

63.56 6.4折 99 全新

库存50件

广东广州

认证卖家担保交易快速发货售后保障

作者程戈著

出版社机械工业出版社

ISBN9787111739562

出版时间2023-12

装帧平装

开本16开

定价99元

货号14554806

上书时间2024-06-24

灵感书店

三年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 10小时
好评率暂无

最新上架

读懂孙子兵法 ¥29.84

高等数学 ¥5.01

合唱艺术文论 ¥10.79

儿科护理学 ¥7.42

美国职业责任保险 ¥30.82

每天懂点孩子心理学:2 ¥5.39

化工原理实验 ¥19.77

比真实更逼真的VR ¥4.82

工程项目管理 ¥57.14

商品详情

品相描述：全新

商品描述: 目录
目录前言第1章人工智能的新里程碑——ChatGPT / 1 1.1 ChatGPT的发展历程 / 1 1.2 ChatGPT的能力 / 3 1.3 大语言模型的技术演化 / 6 1.3.1 从符号主义到连接主义 / 6 1.3.2 Transformer模型 / 7 1.3.3 无监督预训练 / 10 1.3.4 有监督微调 / 11 1.3.5 人类反馈强化学习 / 11 1.4 大语言模型的技术栈 / 12 1.5 大语言模型带来的影响 / 13 1.6 大语言模型复现的壁垒 / 16 1.6.1 算力瓶颈 / 16 1.6.2 数据瓶颈 / 17 1.6.3 工程瓶颈 / 18 1.7 大语言模型的局限性 / 19 1.8 小结 / 20 第2章深入理解Transformer 模型 / 21 2.1 Transformer模型简介 / 21 2.2 自注意力机制 / 23 2.2.1 自注意力机制的计算过程 / 23 2.2.2 自注意力机制的本质 / 26 2.2.3 自注意力机制的优势与局限性 / 28 2.3 多头注意力机制 / 29 2.3.1 多头注意力机制的实现 / 29 2.3.2 多头注意力机制的作用 / 31 2.3.3 多头注意力机制的优化 / 32 2.4 前馈神经网络 / 33 2.5 残差连接 / 35 2.6 层归一化 / 36 2.7 位置编码 / 38 2.7.1 位置编码的设计与实现 / 38 2.7.2 位置编码的变体 / 40 2.7.3 位置编码的优势与局限性 / 41 2.8 训练与优化 / 41 2.8.1 损失函数 / 41 2.8.2 优化器 / 42 2.8.3 学习率调整策略 / 42 2.8.4 正则化 / 43 2.8.5 其他训练与优化技巧 / 44 2.9 小结 / 46 第3章生成式预训练 / 47 3.1 生成式预训练简介 / 47 3.2 GPT的模型架构 / 48 3.3 生成式预训练过程 / 50 3.3.1 生成式预训练的目标 / 52 3.3.2 生成式预训练的误差反向传播过程 / 53 3.4 有监督微调 / 55 3.4.1 有监督微调的原理 / 55 3.4.2 有监督微调的特定任务 / 56 3.4.3 有监督微调的步骤 / 58 3.5 小结 / 59 第4章无监督多任务与零样本学习 / 61 4.1 编码器与解码器 / 61 4.2 GPT-2的模型架构 / 64 4.2.1 层归一化 / 65 4.2.2 正交初始化 / 66 4.2.3 可逆的分词方法 / 67 4.2.4 可学习的相对位置编码 / 71 4.3 无监督多任务 / 72 4.4 多任务学习与零样本学习的关系 / 74 4.5 GPT-2的自回归生成过程 / 76 4.5.1 子词单元嵌入 / 76 4.5.2 自回归过程 / 77 4.6 小结 / 79 第5章稀疏注意力与基于内容的学习 / 80 5.1 GPT-3的模型架构 / 81 5.2 稀疏注意力模式 / 83 5.2.1 Sparse Transformer的特点 / 83 5.2.2 局部带状注意力 / 85 5.2.3 跨层稀疏连接 / 85 5.3 元学习和基于内容的学习 / 86 5.3.1 元学习 / 87 5.3.2 基于内容的学习 / 87 5.4 概念分布的贝叶斯推断 / 90 5.4.1 隐式微调 / 90 5.4.2 贝叶斯推断 / 93 5.5 思维链的推理能力 / 95 5.6 小结 / 99 第6章大语言模型的预训练策略 / 100 6.1 预训练数据集 / 100 6.2 预训练数据的处理 / 102 6.3 分布式训练模式 / 104 6.3.1 数据并行 / 105 6.3.2 模型并行 / 106 6.4 分布式训练的技术路线 / 110 6.4.1 Pathways / 111 6.4.2 Megatron-LM / 113 6.4.3 ZeRO / 116 6.5 训练策略案例 / 120 6.5.1 训练框架 / 120 6.5.2 参数稳定性 / 120 6.5.3 训练设置的调整 / 121 6.5.4 BF16优化 / 121 6.5.5 其他因素 / 122 6.6 小结 / 123 第7章近端策略优化算法 / 124 7.1 传统的策略梯度方法 / 125 7.1.1 策略梯度方法的基本原理 / 125 7.1.2 重要性采样 / 127 7.1.3 优势函数 / 128 7.2 Actor-Critic算法 / 129 7.2.1 Actor-Critic算法的基本步骤 / 130 7.2.2 值函数与策略更新 / 131 7.2.3 Actor-Critic算法的问题与挑战 / 131 7.3 信任域策略优化算法 / 132 7.3.1 TRPO算法的目标 / 132 7.3.2 TRPO算法的局限性 / 133 7.4 PPO算法的原理 / 134 7.5 小结 / 137 第8章人类反馈强化学习 / 138 8.1 强化学习在ChatGPT迭代中的作用 / 138 8.2 InstructGPT训练数据集 / 140 8.2.1 微调数据集的来源 / 141 8.2.2 标注标准 / 142 8.2.3 数据分析 / 143 8.3 人类反馈强化学习的训练阶段 / 145 8.3.1 有监督微调阶段 / 145 8.3.2 奖励建模阶段 / 147 8.3.3 强化学习阶段 / 148 8.4 奖励建模算法 / 149 8.4.1 算法思想 / 149 8.4.2 损失函数 / 150 8.5 PPO算法在InstructGPT中的应用 / 151 8.6 多轮对话能力 / 153 8.7 人类反馈强化学习的必要性 / 154 8.8 小结 / 156 第9章大语言模型的低算力领域迁移 / 157 9.1 指令自举标注 / 157 9.2 人工智能反馈 / 161 9.3 低秩自适应 / 163 9.3.1 模型训练与部署 / 164 9.3.2 秩的选择 / 165 9.4 量化：降低部署的算力要求 / 166 9.5 SparseGPT剪枝算法 / 168 9.6 开源大语言模型的低算力迁移案例 / 170 9.6.1 基座模型 / 170 9.6.2 自举指令微调的羊驼系列 / 171 9.6.3 中文解决方案 / 172 9.6.4 医疗领域的迁移实例 / 174 9.6.5 司法领域的迁移实例 / 175 9.7 小结 / 178 第10章中间件编程 / 180 10.1 补齐短板—LangChain恰逢其时 / 180 10.2 多模态融合中间件 / 184 10.2.1 任务规划 / 185 10.2.2 模型选择 / 187 10.2.3 任务执行 / 188 10.2.4 响应生成 / 189 10.3 AutoGPT自主代理与任务规划 / 189 10.4 中间件框架的竞品 / 192 10.5 小结 / 194 第11章大语言模型的未来之路 / 195 11.1 强人工智能之路 / 195 11.2 数据资源枯竭 / 198 11.3 自回归模型的局限性 / 200 11.4 具身智能 / 202 11.4.1 具身智能的挑战 / 203 11.4.2 PaLM-E / 204 11.4.3 ChatGPT for Robotics / 205 11.5 小结 / 210

内容摘要
内容简介
这是一本深入阐述ChatGPT等大模型的工作原理、运行机制、架构设计和底层技术，以及预训练、迁移、微调和中间件编程的著作。它将帮助我们从理论角度全面理解大模型，从实践角度更好地应用大模型，是作者成功训练并部署大模型的过程复盘和经验总结。

第1章介绍了ChatGPT等大模型的发展历程、技术演化和技术栈等基础知识；
第2~5章深入讲解了Transformer的架构原理，并从GPT-1的生成式预训练到GPT-3的稀疏注意力机制详细描述了GPT系列的架构演进；
6~8章从底层技术实现的角度讲解了大语言模型的训练策略、数据处理方法，以及如何利用策略优化和人类反馈来进一步提升模型的表现；
第9~10章首先详细讲解了大语言模型在垂直领域的低算力迁移方法，并给出了医疗和司法领域的迁移案例，然后讲解了大模型的中间件编程；
第11章对GPT的未来发展趋势进行预测，探讨数据资源、自回归模型的局限性，以及大语言模型时代具身智能的可行路线。

主编推荐
（1）作者背景权威：作者是湘潭大学的博导，是科技部国家重点子课题（大模型相关）的负责人，是资深的大模型技术专家和布道者。（2）作者经验丰富：对ChatGPT、Llama2等大模型有深入研究，带领团队成功训练并部署司法领域的大模型。（3）全套技术原理：围绕ChatGPT，系统阐述了大模型的工作原理、运行机制、架构设计和底层技术等大模型工程师需要掌握的所有理论知识。（4）关键应用主题：从大模型的数据处理、预训练到向垂直领域迁移、微调，再到中间件编程，涵盖当下大模型应用的各项关键技术主题。（5）多位专家推荐：阿里、Google、ChatLaw等企业的多位大模型技术专家高度评价并推荐。

精彩内容
内容简介这是一本深入阐述ChatGPT等大模型的工作原理、运行机制、架构设计和底层技术，以及预训练、迁移、微调和中间件编程的著作。它将帮助我们从理论角度全面理解大模型，从实践角度更好地应用大模型，是作者成功训练并部署大模型的过程复盘和经验总结。第1章介绍了ChatGPT等大模型的发展历程、技术演化和技术栈等基础知识；第2~5章深入讲解了Transformer的架构原理，并从GPT-1的生成式预训练到GPT-3的稀疏注意力机制详细描述了GPT系列的架构演进； 6~8章从底层技术实现的角度讲解了大语言模型的训练策略、数据处理方法，以及如何利用策略优化和人类反馈来进一步提升模型的表现；第9~10章首先详细讲解了大语言模型在垂直领域的低算力迁移方法，并给出了医疗和司法领域的迁移案例，然后讲解了大模型的中间件编程；第11章对GPT的未来发展趋势进行预测，探讨数据资源、自回归模型的局限性，以及大语言模型时代具身智能的可行路线。

— 没有更多了 —

ChatGPT原理与架构:大模型的预训练、迁移和中间件编程

灵感书店

商品详情

相关推荐