消息首页搜索举报

大语言模型：原理、应用与优化

正版保障假一赔十可开发票

55.32 6.2折 89 全新

库存5件

广东广州

认证卖家担保交易快速发货售后保障

作者苏之阳王锦鹏姜迪宋元峰著

出版社机械工业出版社

ISBN9787111762768

出版时间2023-03

装帧平装

开本16开

定价89元

货号17662400

上书时间2024-12-03

灵感书店

三年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 10小时
好评率暂无

最新上架

数字电路与系统课程精粹与题解 ¥21.76

现场电工 ¥22.38

建筑材料 ¥18.34

集璞轩藏玉选 ¥198.91

走近中医大家朱良春 ¥29.84

网页艺术设计 ¥22.38

中国古都北京:精装英文版 ¥422.69

中国景观设计年刊:2008:Ⅰ ¥179.02

机械制造技术 ¥26.11

商品详情

品相描述：全新

商品描述: 目录
CONTENTS 目录 前言 第1章语言模型简介1 1.1 传统语言模型2 1.1.1 n-gram语言模型2 1.1.2 神经网络语言模型5 1.1.3 传统语言模型的应用7 1.2 大语言模型8 1.2.1 大模型的发展历程9 1.2.2 训练大模型的挑战11 1.2.3 大模型的应用12 1.3 大模型实例14 1.3.1 基座模型实例15 1.3.2 对齐模型实例16 1.4 小结18 第2章大模型网络结构19 2.1 Seq2Seq结构19 2.2 注意力机制21 2.3 Transformer架构22 2.3.1 Transformer模型结构23 2.3.2 编码器单元24 2.3.3 解码器单元26 2.3.4 位置编码27 2.4 词元化29 2.4.1 BPE30 2.4.2 字节级BPE32 2.4.3 WordPiece32 2.4.4 Unigram语言模型33 2.4.5 SentencePiece34 2.5 解码策略34 2.5.1 贪心搜索35 2.5.2 集束搜索35 2.5.3 Top-k采样36 2.5.4 核采样38 2.5.5 温度采样39 2.6 小结41 第3章大模型学习范式的演进43 3.1 预训练与微调的原理和 典型模型44 3.1.1 预训练与微调44 3.1.2 三个典型模型46 3.2 多任务学习的原理和典型模型51 3.2.1 多任务学习52 3.2.2 两个典型模型53 3.3 大规模模型的能力55 3.3.1 少样本学习55 3.3.2 提示学习57 3.3.3 上下文学习59 3.4 小结61 第4章大模型对齐训练63 4.1 对齐63 4.1.1 对齐的定义63 4.1.2 对齐的衡量指标65 4.2 基于人类反馈的强化学习67 4.2.1 监督微调的原理68 4.2.2 训练奖励模型的原理71 4.2.3 强化学习的原理73 4.3 基于AI反馈的强化学习77 4.4 直接偏好优化79 4.5 超级对齐80 4.6 小结80 第5章大模型评测与数据集83 5.1 大模型评测方法83 5.1.1 人工评测84 5.1.2 自动评测85 5.2 大模型评测指标86 5.2.1 准确率、精确率、召回 率与F1分数86 5.2.2 困惑度88 5.2.3 BLEU与ROUGE90 5.2.4 pass@k92 5.3 大模型能力评测基准92 5.3.1 MMLU93 5.3.2 GSM8K94 5.3.3 C-Eval95 5.3.4 HumanEval97 5.4 数据集及预处理方法98 5.4.1 预训练数据集98 5.4.2 指令微调数据集102 5.4.3 人工反馈数据集105 5.4.4 数据预处理方法106 5.5 小结107 第6章分布式训练与内存优化109 6.1 大模型扩展法则110 6.2 分布式训练策略112 6.2.1 数据并行113 6.2.2 张量并行113 6.2.3 流水线并行114 6.2.4 混合并行116 6.3 大模型训练中的不稳定现象116 6.4 分布式训练集群架构117 6.4.1 中心化架构：参数 服务器118 6.4.2 去中心化架构：集合 通信119 6.5 内存优化策略127 6.5.1 混合精度训练127 6.5.2 梯度检查点131 6.5.3 梯度累积132 6.5.4 FlashAttention134 6.6 分布式训练框架135 6.7 小结137 第7章大模型的垂直场景 适配方案139 7.1 从零开始训练新模型140 7.2 全量参数微调140 7.3 低参数量微调142 7.3.1 适配器方法142 7.3.2 提示词微调144 7.3.3 前缀微调146 7.3.4 LoRA147 7.4 超低参数量微调的探索149 7.5 小结150 第8章知识融合与工具使用151 8.1 知识融合152 8.1.1 检索增强生成152 8.1.2 解码器融合154 8.1.3 提示融合156 8.2 工具使用157 8.2.1 WebGPT157 8.2.2 LaMDA162 8.2.3 Toolformer164 8.3 自主智能体170 8.3.1 自主智能体的组件172 8.3.2 自主智能体的工作 流程173 8.4 小结174 第9章大模型的进阶优化175 9.1 模型小型化175 9.1.1 模型量化176 9.1.2 知识蒸馏179 9.1.3 参数剪枝182 9.2 推理能力及其延伸184 9.2.1 思维链185 9.2.2 零样本思维链188 9.2.3 最少到最多提示190 9.2.4 ReAct：推理能力+ 行动能力191 9.3 代码生成193 9.3.1 Codex194 9.3.2 代码生成的要素197 9.4 多模态大模型198 9.4.1 BEiT-3199 9.4.2 CLIP202 9.4.3 Flamingo204 9.4.4 MiniGPT-4207 9.5 高质量数据的作用与构建208 9.5.1 LIMA209 9.5.2 教科书级数据212 9.6 模型能力“涌现”的原因216 9.7 小结220 第10章大模型的局限性与未来 发展方向221 10.1 大模型的局限性222 10.1.1 事实性错误222 10.1.2 理解和推理缺陷223 10.1.3 知识更新问题224 10.1.4 安全性问题224 10.1.5 计算资源限制225 10.2 大模型的未来发展方向226 10.2.1 更强的记忆：从通用到 个性化226 10.2.2 装上“手脚”：赋予模 型使用工具的能力228 10.2.3 多模态交互：穿越文 本的边界229 10.3 小结230 参考文献231

内容摘要
本书系统地介绍了大语言模型的理论基础、技术架构、应用实践和发展趋势，旨在为读者深入了解大语言模型相关知识提供参考。本书共10章，从逻辑上分为四部分：第一部分（第1~4章）由语言模型的基本概念入手，介绍了大模型的基础构件、技术发展的脉络及范式，以及模型对齐的方法；第二部分（第5和6章）详细介绍了大模型的评测与分布式训练的基本原理；第三部分（第7~9章）着重介绍了大模型在垂直场景的应用、知识融合与工具使用的方法及大模型优化的高级话题；第四部分（第10章）展望了大模型未来的发展方向和挑战。

主编推荐
（1）作者背景资深：4位作者都是博士，现在或曾在国内微软、百度等大厂从事AI相关技术的研究与开发。（2）作者经验丰富：4位作者在大厂工作多年，在自然语言处理、推荐搜索、对话系统等领域积累了丰富的项目经验。（3）工程化视角：本书从工程化的角度讲解了大语言模型的核心技术、训练方法、在各领域的应用，展示了这一系统性工程的复杂性与实现路径。（4）从入门到进阶：从大模型的原理和基础构件入手，到大模型的分布式训练和各场景应用，再到大模型的优化，零基础入门，成为大模型高手。（5）从当下到前沿：既详细讲解了当下主流的大模型技术和实操方法，又梳理和盘点了大模型前沿技术理论和实战应用。

精彩内容
这是一本从工程化角度讲解大语言模型的核心技术、构建方法与前沿应用的著作。首先从语言模型的原理和大模型的基础构件入手，详细梳理了大模型技术的发展脉络，深入探讨了大模型预训练与对齐的方法；然后阐明了大模型训练中的算法设计、数据处理和分布式训练的核心原理，展示了这一系统性工程的复杂性与实现路径。

除了基座模型的训练方案，本书还涵盖了大模型在各领域的落地应用方法，包括低参数量微调、知识融合、工具使用和自主智能体等，展示了大模型在提高生产力和创造性任务中的卓越性能和创新潜力。此外，书中进一步介绍了大模型优化的高级话题和前沿技术，如模型小型化、推理能力和多模态大模型等。最后，本书讨论了大模型的局限性与安全性问题，展望了未来的发展方向，为读者提供了全面的理解与前瞻性的视角。

无论是人工智能领域的研究员、工程师，还是对前沿技术充满好奇的读者，本书都将是您了解和掌握大模型技术的必备指南。

— 没有更多了 —

大语言模型：原理、应用与优化

灵感书店

商品详情

相关推荐