• ChatGPT原理与架构:大模型的预训练、迁移和中间件编程9787111739562
21年品牌 40万+商家 超1.5亿件商品

ChatGPT原理与架构:大模型的预训练、迁移和中间件编程9787111739562

正版图书,可开发票,请放心购买。

74.25 7.5折 99 全新

库存3件

广东广州
认证卖家担保交易快速发货售后保障

作者程戈著

出版社机械工业出版社

ISBN9787111739562

出版时间2023-12

装帧平装

开本16开

定价99元

货号14554806

上书时间2025-01-05

哲仁书店

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
目录
目    录 前言 第1章  人工智能的新里程碑——ChatGPT  /  1 1.1  ChatGPT的发展历程  /  1 1.2  ChatGPT的能力  /  3 1.3  大语言模型的技术演化  /  6 1.3.1  从符号主义到连接主义  /  6 1.3.2  Transformer模型  /  7 1.3.3  无监督预训练  /  10 1.3.4  有监督微调  /  11 1.3.5  人类反馈强化学习  /  11 1.4  大语言模型的技术栈  /  12 1.5  大语言模型带来的影响  /  13 1.6  大语言模型复现的壁垒  /  16 1.6.1  算力瓶颈  /  16 1.6.2  数据瓶颈  /  17 1.6.3  工程瓶颈  /  18 1.7  大语言模型的局限性  /  19 1.8  小结  /  20 第2章  深入理解Transformer 模型  /  21 2.1  Transformer模型简介  /  21 2.2  自注意力机制  /  23 2.2.1  自注意力机制的计算 过程  /  23 2.2.2  自注意力机制的本质  /  26 2.2.3  自注意力机制的优势与局 限性  /  28 2.3  多头注意力机制  /  29 2.3.1  多头注意力机制的实现  /  29 2.3.2  多头注意力机制的作用  /  31 2.3.3  多头注意力机制的优化  /  32 2.4  前馈神经网络  /  33 2.5  残差连接  /  35 2.6  层归一化  /  36 2.7  位置编码  /  38 2.7.1  位置编码的设计与实现  /  38 2.7.2  位置编码的变体  /  40 2.7.3  位置编码的优势与 局限性  /  41 2.8  训练与优化  /  41 2.8.1  损失函数  /  41 2.8.2  优化器  /  42 2.8.3  学习率调整策略  /  42 2.8.4  正则化  /  43 2.8.5  其他训练与优化技巧  /  44 2.9  小结  /  46 第3章  生成式预训练  /  47 3.1  生成式预训练简介  /  47 3.2  GPT的模型架构  /  48 3.3  生成式预训练过程  /  50 3.3.1  生成式预训练的目标  /  52 3.3.2  生成式预训练的误差反向 传播过程  /  53 3.4  有监督微调  /  55 3.4.1  有监督微调的原理  /  55 3.4.2  有监督微调的特定任务  /  56 3.4.3  有监督微调的步骤  /  58 3.5  小结  /  59 第4章  无监督多任务与零样本 学习  /  61 4.1  编码器与解码器  /  61 4.2  GPT-2的模型架构  /  64 4.2.1  层归一化  /  65 4.2.2  正交初始化  /  66 4.2.3  可逆的分词方法  /  67 4.2.4  可学习的相对位置编码  /  71 4.3  无监督多任务  /  72 4.4  多任务学习与零样本学习的 关系  /  74 4.5  GPT-2的自回归生成过程  /  76 4.5.1  子词单元嵌入  /  76 4.5.2  自回归过程  /  77 4.6  小结  /  79 第5章  稀疏注意力与基于内容的 学习  /  80 5.1  GPT-3的模型架构  /  81 5.2  稀疏注意力模式  /  83 5.2.1  Sparse Transformer的 特点  /  83 5.2.2  局部带状注意力  /  85 5.2.3  跨层稀疏连接  /  85 5.3  元学习和基于内容的学习  /  86 5.3.1  元学习  /  87 5.3.2  基于内容的学习  /  87 5.4  概念分布的贝叶斯推断  /  90 5.4.1  隐式微调  /  90 5.4.2  贝叶斯推断  /  93 5.5  思维链的推理能力  /  95 5.6  小结  /  99 第6章  大语言模型的预训练 策略  /  100 6.1  预训练数据集  /  100 6.2  预训练数据的处理  /  102 6.3  分布式训练模式  /  104 6.3.1  数据并行  /  105 6.3.2  模型并行  /  106 6.4  分布式训练的技术路线  /  110 6.4.1  Pathways  /  111 6.4.2  Megatron-LM  /  113 6.4.3  ZeRO  /  116 6.5  训练策略案例  /  120 6.5.1  训练框架  /  120 6.5.2  参数稳定性  /  120 6.5.3  训练设置的调整  /  121 6.5.4  BF16优化  /  121 6.5.5  其他因素  /  122 6.6  小结  /  123 第7章  近端策略优化算法  /  124 7.1  传统的策略梯度方法  /  125 7.1.1  策略梯度方法的基本 原理  /  125 7.1.2  重要性采样  /  127 7.1.3  优势函数  /  128 7.2  Actor-Critic算法  /  129 7.2.1  Actor-Critic算法的基本 步骤  /  130 7.2.2  值函数与策略更新  /  131 7.2.3  Actor-Critic算法的问题与 挑战  /  131 7.3  信任域策略优化算法  /  132 7.3.1  TRPO算法的目标  /  132 7.3.2  TRPO算法的局限性  /  133 7.4  PPO算法的原理  /  134 7.5  小结  /  137 第8章  人类反馈强化学习  /  138 8.1  强化学习在ChatGPT迭代中的 作用  /  138 8.2  InstructGPT训练数据集  /  140 8.2.1  微调数据集的来源  /  141 8.2.2  标注标准  /  142 8.2.3  数据分析  /  143 8.3  人类反馈强化学习的训练 阶段  /  145 8.3.1  有监督微调阶段  /  145 8.3.2  奖励建模阶段  /  147 8.3.3  强化学习阶段  /  148 8.4  奖励建模算法  /  149 8.4.1  算法思想  /  149 8.4.2  损失函数  /  150 8.5  PPO算法在InstructGPT中的 应用  /  151 8.6  多轮对话能力  /  153 8.7  人类反馈强化学习的必要性  /  154 8.8  小结  /  156 第9章  大语言模型的低算力领域 迁移  /  157 9.1  指令自举标注  /  157 9.2  人工智能反馈  /  161 9.3  低秩自适应  /  163 9.3.1  模型训练与部署  /  164 9.3.2  秩的选择  /  165 9.4  量化:降低部署的算力要求  /  166 9.5  SparseGPT剪枝算法  /  168 9.6  开源大语言模型的低算力迁移 案例  /  170 9.6.1  基座模型  /  170 9.6.2  自举指令微调的羊驼 系列  /  171 9.6.3  中文解决方案  /  172 9.6.4  医疗领域的迁移实例  /  174 9.6.5  司法领域的迁移实例  /  175 9.7  小结  /  178 第10章  中间件编程  /  180 10.1  补齐短板—LangChain恰逢 其时  /  180 10.2  多模态融合中间件  /  184 10.2.1  任务规划  /  185 10.2.2  模型选择  /  187 10.2.3  任务执行  /  188 10.2.4  响应生成  /  189 10.3  AutoGPT自主代理与任务 规划  /  189 10.4  中间件框架的竞品  /  192 10.5  小结  /  194 第11章  大语言模型的未来 之路  /  195 11.1  强人工智能之路  /  195 11.2  数据资源枯竭  /  198 11.3  自回归模型的局限性  /  200 11.4  具身智能  /  202 11.4.1  具身智能的挑战  /  203 11.4.2  PaLM-E  /  204 11.4.3  ChatGPT for Robotics   /  205 11.5  小结  /  210

内容摘要
内容简介
这是一本深入阐述ChatGPT等大模型的工作原理、运行机制、架构设计和底层技术,以及预训练、迁移、微调和中间件编程的著作。它将帮助我们从理论角度全面理解大模型,从实践角度更好地应用大模型,是作者成功训练并部署大模型的过程复盘和经验总结。

第1章介绍了ChatGPT等大模型的发展历程、技术演化和技术栈等基础知识;
第2~5章深入讲解了Transformer的架构原理,并从GPT-1的生成式预训练到GPT-3的稀疏注意力机制详细描述了GPT系列的架构演进;
6~8章从底层技术实现的角度讲解了大语言模型的训练策略、数据处理方法,以及如何利用策略优化和人类反馈来进一步提升模型的表现;
第9~10章首先详细讲解了大语言模型在垂直领域的低算力迁移方法,并给出了医疗和司法领域的迁移案例,然后讲解了大模型的中间件编程;
第11章对GPT的未来发展趋势进行预测,探讨数据资源、自回归模型的局限性,以及大语言模型时代具身智能的可行路线。

主编推荐
(1)作者背景权威:作者是湘潭大学的博导,是科技部国家重点子课题(大模型相关)的负责人,是资深的大模型技术专家和布道者。 (2)作者经验丰富:对ChatGPT、Llama2等大模型有深入研究,带领团队成功训练并部署司法领域的大模型。 (3)全套技术原理:围绕ChatGPT,系统阐述了大模型的工作原理、运行机制、架构设计和底层技术等大模型工程师需要掌握的所有理论知识。 (4)关键应用主题:从大模型的数据处理、预训练到向垂直领域迁移、微调,再到中间件编程,涵盖当下大模型应用的各项关键技术主题。 (5)多位专家推荐:阿里、Google、ChatLaw等企业的多位大模型技术专家高度评价并推荐。

精彩内容
内容简介 这是一本深入阐述ChatGPT等大模型的工作原理、运行机制、架构设计和底层技术,以及预训练、迁移、微调和中间件编程的著作。它将帮助我们从理论角度全面理解大模型,从实践角度更好地应用大模型,是作者成功训练并部署大模型的过程复盘和经验总结。 第1章介绍了ChatGPT等大模型的发展历程、技术演化和技术栈等基础知识; 第2~5章深入讲解了Transformer的架构原理,并从GPT-1的生成式预训练到GPT-3的稀疏注意力机制详细描述了GPT系列的架构演进; 6~8章从底层技术实现的角度讲解了大语言模型的训练策略、数据处理方法,以及如何利用策略优化和人类反馈来进一步提升模型的表现; 第9~10章首先详细讲解了大语言模型在垂直领域的低算力迁移方法,并给出了医疗和司法领域的迁移案例,然后讲解了大模型的中间件编程; 第11章对GPT的未来发展趋势进行预测,探讨数据资源、自回归模型的局限性,以及大语言模型时代具身智能的可行路线。

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP