• 揭秘大模型:从原理到实战
21年品牌 40万+商家 超1.5亿件商品

揭秘大模型:从原理到实战

全新正版 极速发货

48.01 6.0折 79.8 全新

库存47件

广东广州
认证卖家担保交易快速发货售后保障

作者文亮 江维 著

出版社人民邮电出版社

ISBN9787115653352

出版时间2025-01

装帧平装

开本16开

定价79.8元

货号1203467236

上书时间2024-12-20

徐小智的书店

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
作者简介
文亮
硕士毕业于电子科技大学,奇虎360智脑团队资深算法专家,参与过千亿参数级别大模型的训练与优化,拥有超过8年的人工智能模型优化经验,目前主要负责大模型后训练、COT优化以及通用技能优化等工作,著有《推荐系统技术原理与实践》一书。
江维
电子科技大学教授、博士生导师,主要研究可信人工智能、安全关键嵌入式系统、移动智能、大数据加速等领域,发表相关高水平论文100余篇。

目录
第 1章  大模型简介  1 
11 大模型初探  1 
111  OpenAI大模型ChatGPT  1 
112  国内大模型—360智脑  8 
12  大模型的概念  9 
13  百花齐放—大模型发展现状  9 
14  压缩即智能—为什么ChatGPT拥有智能  11 
141  直观理解通用人工智能  12 
142  如何实现无损压缩  13 
143  GPT是对数据的无损压缩  16 
15  小结  19 
16  参考文献  19 
第 2章  大模型理论基础  20 
21  什么是语言模型  20 
22  传统语言模型  21 
221  循环神经网络(RNN)  21 
222  长短期记忆(LSTM)网络  22 
223  门控循环单元(GRU)  24 
23  大模型基础结构—Transformer 25 
231  Transformer的模型结构  25 
232  Transformer输入表示  29 
233  多头注意力  30 
234  编码器结构  36 
235  解码器结构  40 
236  Softmax输出  44 
24 Transformer应用实践—机器 翻译  46 
241  葡萄牙文翻译为英文  46 
242  英文翻译为中文  51 
25 小结  52 
26 参考文献  53 
第3章  OpenAI GPT系列大模型  54 
31 GPT发展历史— 从GPT-1到GPT-4  54 
32 GPT-1技术原理  55 
321  GPT-1的模型结构  56 
322  GPT-1应用实践—中文文本 分类  58 
33 GPT-2技术原理  63 
331  GPT-2的模型结构  64 
332  GPT-2应用实践—文本分类和 文本生成  66 
34 GPT-3技术原理  69 
341  GPT-3的模型结构  70 
342  GPT-3多项任务评估  71 
35 横空出世—ChatGPT  74 
351  真正的通用人工智能— ChatGPT  74 
352  有监督微调  75 
353  训练奖励模型  77 
354  使用强化学习微调预训练 模型  78 
355  ChatGPT应用  79 
36 GPT-4  80 
361  GPT-4的涌现能力  80 
362  大模型预测扩展  81 
363  GPT-4性能分析  82 
364  GPT-4应用 84 
37 小结  84 
38 参考文献  84 
第4章  清华大学通用预训练       模型—GLM  86 
41 GLM简介  87 
42 GLM技术原理  89 
421  预训练目标  91 
422  GLM的模型结构  92 
423  微调GLM  93 
424  效果评估  94 
43 ChatGLM-6B全参数微调实践  94 
431  环境搭建  95 
432  全参数微调  96 
433  效果评估  101 
44 GLM-10B全参数微调实践  101 
441  代码结构  102 
442  全参数微调  103 
443  效果评估  108 
45 小结  109 
46 参考文献  109 
第5章  Meta开源大模型       —Llama  110 
51 Llama简介  110 
52 Llama技术原理 111 
521  Llama预训练数据  111 
522  Llama的模型结构  113 
523  Llama优化器  114 
53 Llama改进版—Llama 2  114 
531  Llama 2简介  115 
532  Llama 2预训练  116 
533  Llama 2有监督微调  118 
534  基于人类反馈的强化学习  119 
54 Llama 2应用实践  121 
541  Hugging Face玩转Llama 2  122 
542  微调Llama 2  122 
55 小结  124 
56 参考文献  124 
第6章  大模型参数高效       微调 125 
61 LoRA—低秩矩阵分解  125 
611  LoRA基本原理  125 
612  LoRA低秩矩阵初始化  127 
613  LoRA开源实现  127 
62 谷歌参数高效微调— Adapter Tuning  128 
63 斯坦福轻量级微调— Prefix-Tuning  129 
64 谷歌微调方法— Prompt Tuning  130 
65 清华大学参数微调— P-Tuning  131 
66 P-Tuning改进版— P-Tuning v2  132 
67 大模型参数高效微调实践  134 
671  安装ChatGLM2-6B环境依赖  134 
672  安装P-Tuning v2环境依赖  135 
68 小结  136 
69 参考文献  137 
第7章  大模型指令微调  138 
71 指令微调  138 
72 指令微调和提示的异同  139 
73 大模型思维链—优化模型 推理能力  139 
731  思维链的开山之作— 思维链提示  140 
732  零样本提示思维链  142 
733  多数投票—自洽性  144 
734  最少到最多提示过程  144 
735  大模型微调  146 
736  微调思维链  148 
737  思维链的局限  149 
 74 谷歌指令微调数据集—Flan 2022  150 
75 小结  152 
76 参考文献  152 
第8章  大模型训练优化  153 
81 稀疏Transformer  153 
811  稀疏Transformer提出背景  154 
812  稀疏Transformer实现原理  155 
82 旋转位置编码  159 
821  传统位置编码—绝对位置 编码  160 
822  二维旋转位置编码  160 
823  多维旋转位置编码  161 
824  旋转位置编码的高效计算  161 
825  旋转位置编码的远程衰减  162 
826  Llama和ChatGLM中的旋转位置编码实现  164 
827  旋转位置编码的外推性  167 
83 大模型混合精度训练  168 
831  浮点数据类型  168 
832  使用FP16训练神经网络的 问题  169 
833  混合精度训练相关技术  170 
84 样本拼接  173 
85 大模型并行训练  175 
86 小结  175 
87 参考文献  176 
第9章  大模型推理优化  177 
91 大模型量化  177 
911  量化的优势  178 
912  对称量化和非对称量化  178 
92 大模型文本生成的解码策略  180 
921  束搜索  182 
922  top-k采样  183 
923  top-p采样  184 
924  温度采样  186 
925  联合采样  187 
93 小结  188 
第 10章  AIGC和大模型         结合  189 
101 AIGC引来新一轮投资热  189 
102 生成对抗网络  191 
1021  生成对抗网络的模型结构  191 
1022  生成对抗网络的训练过程  193 
1023  生成对抗网络实战—生成   手写体数字图像  194 
103 AIGC主流模型—去噪扩散   概率模型  198 
1031  去噪扩散概率模型的原理  198 
1032  去噪扩散概率模型的训练   过程  200 
1033  去噪扩散概率模型实战—生成    手写体数字图像  201 
104 引入文字的去噪扩散概率模型 214 
1041  去噪扩散概率模型的文字生成   图像过程  215 
1042  利用CLIP模型生成文本   向量  216 
1043  在U-Net模型中使用文本   向量  217 
1044  引入文字的去噪扩散概率模型的   训练过程  218 
105 去噪扩散概率模型改进版—   Stable Diffusion  220 
1051  Stable Diffusion的文字生成图像过程  221 
1052  Stable Diffusion前向扩散过程优化  221 
1053  Stable Diffusion反向去噪过程优化  222 
1054  Stable Diffusion的完整流程  224 
1055  Stable Diffusion应用场景  224 
106 小结  226 
107 参考文献  226 
第 11章  大模型和推荐系统结合  228 
111 大模型和推荐系统的异同  228 
112 大模型和推荐系统的3种不同结合方法  229 
1121  基于大模型构建特征  229 
1122  基于大模型建模行为序列  230 
1123  基于行为序列微调大模型  231 
113 大模型和推荐系统的结合效果  232 
1131  两阶段模式  232 
1132  端到端模式  233 
1133  预训练+两阶段/端到端模式  233 
1134  预训练+两阶段/端到端+ID特征模式  234 
114 小结  235 
115 参考文献  235 
第 12章  构建私有大模型  236 
121 大模型百花齐放  236 
122 选择基座模型  238 
123 环境安装  238 
124 模型加载  239 
1241  代码调用  239 
1242  网页版示例  240 
1243  命令行示例  241 
125 低成本部署  242 
1251  模型量化  242 
1252  CPU部署  242 
1253  Mac部署  242 
1254  多卡部署  242 
126 构建自己的私有大模型  243 
1261  数据准备  244 
1262  有监督微调  244 
1263  部署私有大模型  248 
1264  灾难性遗忘问题  249 
1265  程序思维提示—解决复杂数值推理  252 
127 小结  258 
128 参考文献  258

内容摘要
本书从技术角度深度解析大模型的原理,从大模型的基础概念及领域发展现状入手,概述大模型的理论基础,介绍OpenAI GPT、清华大学GLM、Meta Llama等主流大模型的技术原理,并从大模型参数高效微调、大模型指令微调、大模型训练优化和大模型推理优化等多角度解析大模型背后的技术,带领读者全方位掌握大模型的原理和实践方法。本书最后介绍私有大模型的构建,手把手指导读者做技术选型并搭建自己的私有大模型。 
本书适合人工智能领域有大模型开发需求或对大模型技术感兴趣的技术人员阅读,也适合普通用户扩展了解大模型的前沿应用。

主编推荐
·涵盖AIGC、大模型、扩散模型等热点话题;
·以技术视角透彻解读大模型底层技术;
·系统介绍GPT、LLaMa、GLM等主流大模型的技术原理;
·给出GPT的基本代码实现,帮助读者深入理解技术原理;
·介绍如何构建私有大模型,带领读者动手构建私有大模型。

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP