• 大语言模型:原理、应用与优化
21年品牌 40万+商家 超1.5亿件商品

大语言模型:原理、应用与优化

正版保障 假一赔十 可开发票

55.32 6.2折 89 全新

库存5件

广东广州
认证卖家担保交易快速发货售后保障

作者苏之阳 王锦鹏 姜迪 宋元峰 著

出版社机械工业出版社

ISBN9787111762768

出版时间2023-03

装帧平装

开本16开

定价89元

货号17662400

上书时间2024-12-03

灵感书店

三年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
目录
CONTENTS<br />目    录<br />前言<br />第1章  语言模型简介1<br />1.1  传统语言模型2<br />1.1.1  n-gram语言模型2<br />1.1.2  神经网络语言模型5<br />1.1.3  传统语言模型的应用7<br />1.2  大语言模型8<br />1.2.1  大模型的发展历程9<br />1.2.2  训练大模型的挑战11<br />1.2.3  大模型的应用12<br />1.3  大模型实例14<br />1.3.1  基座模型实例15<br />1.3.2  对齐模型实例16<br />1.4  小结18<br />第2章  大模型网络结构19<br />2.1  Seq2Seq结构19<br />2.2  注意力机制21<br />2.3  Transformer架构22<br />2.3.1  Transformer模型结构23<br />2.3.2  编码器单元24<br />2.3.3  解码器单元26<br />2.3.4  位置编码27<br />2.4  词元化29<br />2.4.1  BPE30<br />2.4.2  字节级BPE32<br />2.4.3  WordPiece32<br />2.4.4  Unigram语言模型33<br />2.4.5  SentencePiece34<br />2.5  解码策略34<br />2.5.1  贪心搜索35<br />2.5.2  集束搜索35<br />2.5.3  Top-k采样36<br />2.5.4  核采样38<br />2.5.5  温度采样39<br />2.6  小结41<br />第3章  大模型学习范式的演进43<br />3.1  预训练与微调的原理和<br /> 典型模型44<br />3.1.1  预训练与微调44<br />3.1.2  三个典型模型46<br />3.2  多任务学习的原理和典型模型51<br />3.2.1  多任务学习52<br />3.2.2  两个典型模型53<br />3.3  大规模模型的能力55<br />3.3.1  少样本学习55<br />3.3.2  提示学习57<br />3.3.3  上下文学习59<br />3.4  小结61<br />第4章  大模型对齐训练63<br />4.1  对齐63<br />4.1.1  对齐的定义63<br />4.1.2  对齐的衡量指标65<br />4.2  基于人类反馈的强化学习67<br />4.2.1  监督微调的原理68<br />4.2.2  训练奖励模型的原理71<br />4.2.3  强化学习的原理73<br />4.3  基于AI反馈的强化学习77<br />4.4  直接偏好优化79<br />4.5  超级对齐80<br />4.6  小结80<br />第5章  大模型评测与数据集83<br />5.1  大模型评测方法83<br />5.1.1  人工评测84<br />5.1.2  自动评测85<br />5.2  大模型评测指标86<br />5.2.1  准确率、精确率、召回<br /> 率与F1分数86<br />5.2.2  困惑度88<br />5.2.3  BLEU与ROUGE90<br />5.2.4  pass@k92<br />5.3  大模型能力评测基准92<br />5.3.1  MMLU93<br />5.3.2  GSM8K94<br />5.3.3  C-Eval95<br />5.3.4  HumanEval97<br />5.4  数据集及预处理方法98<br />5.4.1  预训练数据集98<br />5.4.2  指令微调数据集102<br />5.4.3  人工反馈数据集105<br />5.4.4  数据预处理方法106<br />5.5  小结107<br />第6章  分布式训练与内存优化109<br />6.1  大模型扩展法则110<br />6.2  分布式训练策略112<br />6.2.1  数据并行113<br />6.2.2  张量并行113<br />6.2.3  流水线并行114<br />6.2.4  混合并行116<br />6.3  大模型训练中的不稳定现象116<br />6.4  分布式训练集群架构117<br />6.4.1  中心化架构:参数<br /> 服务器118<br />6.4.2  去中心化架构:集合<br /> 通信119<br />6.5  内存优化策略127<br />6.5.1  混合精度训练127<br />6.5.2  梯度检查点131<br />6.5.3  梯度累积132<br />6.5.4  FlashAttention134<br />6.6  分布式训练框架135<br />6.7  小结137<br />第7章  大模型的垂直场景<br /> 适配方案139<br />7.1  从零开始训练新模型140<br />7.2  全量参数微调140<br />7.3  低参数量微调142<br />7.3.1  适配器方法142<br />7.3.2  提示词微调144<br />7.3.3  前缀微调146<br />7.3.4  LoRA147<br />7.4  超低参数量微调的探索149<br />7.5  小结150<br />第8章  知识融合与工具使用151<br />8.1  知识融合152<br />8.1.1  检索增强生成152<br />8.1.2  解码器融合154<br />8.1.3  提示融合156<br />8.2  工具使用157<br />8.2.1  WebGPT157<br />8.2.2  LaMDA162<br />8.2.3  Toolformer164<br />8.3  自主智能体170<br />8.3.1  自主智能体的组件172<br />8.3.2  自主智能体的工作<br />流程173<br />8.4  小结174<br />第9章  大模型的进阶优化175<br />9.1  模型小型化175<br />9.1.1  模型量化176<br />9.1.2  知识蒸馏179<br />9.1.3  参数剪枝182<br />9.2  推理能力及其延伸184<br />9.2.1  思维链185<br />9.2.2  零样本思维链188<br />9.2.3  最少到最多提示190<br />9.2.4  ReAct:推理能力+<br />行动能力191<br />9.3  代码生成193<br />9.3.1  Codex194<br />9.3.2  代码生成的要素197<br />9.4  多模态大模型198<br />9.4.1  BEiT-3199<br />9.4.2  CLIP202<br />9.4.3  Flamingo204<br />9.4.4  MiniGPT-4207<br />9.5  高质量数据的作用与构建208<br />9.5.1  LIMA209<br />9.5.2  教科书级数据212<br />9.6  模型能力“涌现”的原因216<br />9.7  小结220<br />第10章  大模型的局限性与未来<br />  发展方向221<br />10.1  大模型的局限性222<br />10.1.1  事实性错误222<br />10.1.2  理解和推理缺陷223<br />10.1.3  知识更新问题224<br />10.1.4  安全性问题224<br />10.1.5  计算资源限制225<br />10.2  大模型的未来发展方向226<br />10.2.1  更强的记忆:从通用到<br />  个性化226<br />10.2.2  装上“手脚”:赋予模<br />   型使用工具的能力228<br />10.2.3  多模态交互:穿越文<br />   本的边界229<br />10.3  小结230<br />参考文献231

内容摘要
本书系统地介绍了大语言模型的理论基础、技术架构、应用实践和发展趋势,旨在为读者深入了解大语言模型相关知识提供参考。本书共10章,从逻辑上分为四部分:第一部分(第1~4章)由语言模型的基本概念入手,介绍了大模型的基础构件、技术发展的脉络及范式,以及模型对齐的方法;第二部分(第5和6章)详细介绍了大模型的评测与分布式训练的基本原理;第三部分(第7~9章)着重介绍了大模型在垂直场景的应用、知识融合与工具使用的方法及大模型优化的高级话题;第四部分(第10章)展望了大模型未来的发展方向和挑战。

主编推荐
(1)作者背景资深:4位作者都是博士,现在或曾在国内微软、百度等大厂从事AI相关技术的研究与开发。 (2)作者经验丰富:4位作者在大厂工作多年,在自然语言处理、推荐搜索、对话系统等领域积累了丰富的项目经验。 (3)工程化视角:本书从工程化的角度讲解了大语言模型的核心技术、训练方法、在各领域的应用,展示了这一系统性工程的复杂性与实现路径。 (4)从入门到进阶:从大模型的原理和基础构件入手,到大模型的分布式训练和各场景应用,再到大模型的优化,零基础入门,成为大模型高手。 (5)从当下到前沿:既详细讲解了当下主流的大模型技术和实操方法,又梳理和盘点了大模型前沿技术理论和实战应用。

精彩内容
这是一本从工程化角度讲解大语言模型的核心技术、构建方法与前沿应用的著作。首先从语言模型的原理和大模型的基础构件入手,详细梳理了大模型技术的发展脉络,深入探讨了大模型预训练与对齐的方法;然后阐明了大模型训练中的算法设计、数据处理和分布式训练的核心原理,展示了这一系统性工程的复杂性与实现路径。

 除了基座模型的训练方案,本书还涵盖了大模型在各领域的落地应用方法,包括低参数量微调、知识融合、工具使用和自主智能体等,展示了大模型在提高生产力和创造性任务中的卓越性能和创新潜力。此外,书中进一步介绍了大模型优化的高级话题和前沿技术,如模型小型化、推理能力和多模态大模型等。最后,本书讨论了大模型的局限性与安全性问题,展望了未来的发展方向,为读者提供了全面的理解与前瞻性的视角。

 无论是人工智能领域的研究员、工程师,还是对前沿技术充满好奇的读者,本书都将是您了解和掌握大模型技术的必备指南。

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP