大语言模型:原理、应用与优化
正版保障 假一赔十 可开发票
¥
55.32
6.2折
¥
89
全新
库存5件
作者苏之阳 王锦鹏 姜迪 宋元峰 著
出版社机械工业出版社
ISBN9787111762768
出版时间2023-03
装帧平装
开本16开
定价89元
货号17662400
上书时间2024-12-03
商品详情
- 品相描述:全新
- 商品描述
-
目录
CONTENTS<br />目 录<br />前言<br />第1章 语言模型简介1<br />1.1 传统语言模型2<br />1.1.1 n-gram语言模型2<br />1.1.2 神经网络语言模型5<br />1.1.3 传统语言模型的应用7<br />1.2 大语言模型8<br />1.2.1 大模型的发展历程9<br />1.2.2 训练大模型的挑战11<br />1.2.3 大模型的应用12<br />1.3 大模型实例14<br />1.3.1 基座模型实例15<br />1.3.2 对齐模型实例16<br />1.4 小结18<br />第2章 大模型网络结构19<br />2.1 Seq2Seq结构19<br />2.2 注意力机制21<br />2.3 Transformer架构22<br />2.3.1 Transformer模型结构23<br />2.3.2 编码器单元24<br />2.3.3 解码器单元26<br />2.3.4 位置编码27<br />2.4 词元化29<br />2.4.1 BPE30<br />2.4.2 字节级BPE32<br />2.4.3 WordPiece32<br />2.4.4 Unigram语言模型33<br />2.4.5 SentencePiece34<br />2.5 解码策略34<br />2.5.1 贪心搜索35<br />2.5.2 集束搜索35<br />2.5.3 Top-k采样36<br />2.5.4 核采样38<br />2.5.5 温度采样39<br />2.6 小结41<br />第3章 大模型学习范式的演进43<br />3.1 预训练与微调的原理和<br /> 典型模型44<br />3.1.1 预训练与微调44<br />3.1.2 三个典型模型46<br />3.2 多任务学习的原理和典型模型51<br />3.2.1 多任务学习52<br />3.2.2 两个典型模型53<br />3.3 大规模模型的能力55<br />3.3.1 少样本学习55<br />3.3.2 提示学习57<br />3.3.3 上下文学习59<br />3.4 小结61<br />第4章 大模型对齐训练63<br />4.1 对齐63<br />4.1.1 对齐的定义63<br />4.1.2 对齐的衡量指标65<br />4.2 基于人类反馈的强化学习67<br />4.2.1 监督微调的原理68<br />4.2.2 训练奖励模型的原理71<br />4.2.3 强化学习的原理73<br />4.3 基于AI反馈的强化学习77<br />4.4 直接偏好优化79<br />4.5 超级对齐80<br />4.6 小结80<br />第5章 大模型评测与数据集83<br />5.1 大模型评测方法83<br />5.1.1 人工评测84<br />5.1.2 自动评测85<br />5.2 大模型评测指标86<br />5.2.1 准确率、精确率、召回<br /> 率与F1分数86<br />5.2.2 困惑度88<br />5.2.3 BLEU与ROUGE90<br />5.2.4 pass@k92<br />5.3 大模型能力评测基准92<br />5.3.1 MMLU93<br />5.3.2 GSM8K94<br />5.3.3 C-Eval95<br />5.3.4 HumanEval97<br />5.4 数据集及预处理方法98<br />5.4.1 预训练数据集98<br />5.4.2 指令微调数据集102<br />5.4.3 人工反馈数据集105<br />5.4.4 数据预处理方法106<br />5.5 小结107<br />第6章 分布式训练与内存优化109<br />6.1 大模型扩展法则110<br />6.2 分布式训练策略112<br />6.2.1 数据并行113<br />6.2.2 张量并行113<br />6.2.3 流水线并行114<br />6.2.4 混合并行116<br />6.3 大模型训练中的不稳定现象116<br />6.4 分布式训练集群架构117<br />6.4.1 中心化架构:参数<br /> 服务器118<br />6.4.2 去中心化架构:集合<br /> 通信119<br />6.5 内存优化策略127<br />6.5.1 混合精度训练127<br />6.5.2 梯度检查点131<br />6.5.3 梯度累积132<br />6.5.4 FlashAttention134<br />6.6 分布式训练框架135<br />6.7 小结137<br />第7章 大模型的垂直场景<br /> 适配方案139<br />7.1 从零开始训练新模型140<br />7.2 全量参数微调140<br />7.3 低参数量微调142<br />7.3.1 适配器方法142<br />7.3.2 提示词微调144<br />7.3.3 前缀微调146<br />7.3.4 LoRA147<br />7.4 超低参数量微调的探索149<br />7.5 小结150<br />第8章 知识融合与工具使用151<br />8.1 知识融合152<br />8.1.1 检索增强生成152<br />8.1.2 解码器融合154<br />8.1.3 提示融合156<br />8.2 工具使用157<br />8.2.1 WebGPT157<br />8.2.2 LaMDA162<br />8.2.3 Toolformer164<br />8.3 自主智能体170<br />8.3.1 自主智能体的组件172<br />8.3.2 自主智能体的工作<br />流程173<br />8.4 小结174<br />第9章 大模型的进阶优化175<br />9.1 模型小型化175<br />9.1.1 模型量化176<br />9.1.2 知识蒸馏179<br />9.1.3 参数剪枝182<br />9.2 推理能力及其延伸184<br />9.2.1 思维链185<br />9.2.2 零样本思维链188<br />9.2.3 最少到最多提示190<br />9.2.4 ReAct:推理能力+<br />行动能力191<br />9.3 代码生成193<br />9.3.1 Codex194<br />9.3.2 代码生成的要素197<br />9.4 多模态大模型198<br />9.4.1 BEiT-3199<br />9.4.2 CLIP202<br />9.4.3 Flamingo204<br />9.4.4 MiniGPT-4207<br />9.5 高质量数据的作用与构建208<br />9.5.1 LIMA209<br />9.5.2 教科书级数据212<br />9.6 模型能力“涌现”的原因216<br />9.7 小结220<br />第10章 大模型的局限性与未来<br /> 发展方向221<br />10.1 大模型的局限性222<br />10.1.1 事实性错误222<br />10.1.2 理解和推理缺陷223<br />10.1.3 知识更新问题224<br />10.1.4 安全性问题224<br />10.1.5 计算资源限制225<br />10.2 大模型的未来发展方向226<br />10.2.1 更强的记忆:从通用到<br /> 个性化226<br />10.2.2 装上“手脚”:赋予模<br /> 型使用工具的能力228<br />10.2.3 多模态交互:穿越文<br /> 本的边界229<br />10.3 小结230<br />参考文献231
内容摘要
本书系统地介绍了大语言模型的理论基础、技术架构、应用实践和发展趋势,旨在为读者深入了解大语言模型相关知识提供参考。本书共10章,从逻辑上分为四部分:第一部分(第1~4章)由语言模型的基本概念入手,介绍了大模型的基础构件、技术发展的脉络及范式,以及模型对齐的方法;第二部分(第5和6章)详细介绍了大模型的评测与分布式训练的基本原理;第三部分(第7~9章)着重介绍了大模型在垂直场景的应用、知识融合与工具使用的方法及大模型优化的高级话题;第四部分(第10章)展望了大模型未来的发展方向和挑战。
主编推荐
(1)作者背景资深:4位作者都是博士,现在或曾在国内微软、百度等大厂从事AI相关技术的研究与开发。 (2)作者经验丰富:4位作者在大厂工作多年,在自然语言处理、推荐搜索、对话系统等领域积累了丰富的项目经验。 (3)工程化视角:本书从工程化的角度讲解了大语言模型的核心技术、训练方法、在各领域的应用,展示了这一系统性工程的复杂性与实现路径。 (4)从入门到进阶:从大模型的原理和基础构件入手,到大模型的分布式训练和各场景应用,再到大模型的优化,零基础入门,成为大模型高手。 (5)从当下到前沿:既详细讲解了当下主流的大模型技术和实操方法,又梳理和盘点了大模型前沿技术理论和实战应用。
精彩内容
这是一本从工程化角度讲解大语言模型的核心技术、构建方法与前沿应用的著作。首先从语言模型的原理和大模型的基础构件入手,详细梳理了大模型技术的发展脉络,深入探讨了大模型预训练与对齐的方法;然后阐明了大模型训练中的算法设计、数据处理和分布式训练的核心原理,展示了这一系统性工程的复杂性与实现路径。
除了基座模型的训练方案,本书还涵盖了大模型在各领域的落地应用方法,包括低参数量微调、知识融合、工具使用和自主智能体等,展示了大模型在提高生产力和创造性任务中的卓越性能和创新潜力。此外,书中进一步介绍了大模型优化的高级话题和前沿技术,如模型小型化、推理能力和多模态大模型等。最后,本书讨论了大模型的局限性与安全性问题,展望了未来的发展方向,为读者提供了全面的理解与前瞻性的视角。
无论是人工智能领域的研究员、工程师,还是对前沿技术充满好奇的读者,本书都将是您了解和掌握大模型技术的必备指南。
— 没有更多了 —
以下为对购买帮助不大的评价