大语言模型:基础与前沿
¥
59
5.0折
¥
118
全新
仅1件
作者熊涛
出版社人民邮电出版社
出版时间2020
版次1
装帧平装
货号59406961
上书时间2024-12-19
商品详情
- 品相描述:全新
图书标准信息
-
作者
熊涛
-
出版社
人民邮电出版社
-
出版时间
2020
-
版次
1
-
ISBN
9787115634887
-
定价
118.00元
-
装帧
平装
-
开本
16开
-
页数
260页
-
字数
409千字
- 【内容简介】
-
本书深入阐述了大语言模型的基本概念和算法、研究前沿以及应用,涵盖大语言模型的广泛主题,从基础到前沿,从方法到应用,涉及从方到应用场景方方面面的内容。首先,本书介绍了人工智能领域的进展和趋势;其次,探讨了语言模型的基本概念和架构、tranformer、预训练目标和解码策略、上下文学和轻量级微调、稀疏专家模型、检索增强型语言模型、对齐语言模型与人类偏好、减少偏见和有害以及视觉语言模型等内容;后,讨论了语言模型对环境的影响。
本书内容全面、系统强,适合高年级本科生和、博士后研究人员、讲师以及行业从业者阅读与参。
- 【作者简介】
-
熊涛,美国明尼苏达大学双城分校电子与计算机工程博士。曾在多家中美知名高科技公司担任管理职位和首席科学家,在人工智能的多个领域,包括大语言模型、图神经网络等从事研发和管理工作多年。
精彩书评:
尽管市面上关于大语言模型的文章和图书已有很多,但大多流于碎片化或应用技术介绍,很少能系统地阐释大语言模型的基础。这本书很好地补充了这方面的内容。同时这本书还介绍了moe、多模态模型等前沿技术,实为相关从业者的学佳作。
——陈文光,清华大学教授,技术研究院院长
作为近期人工智能领域的关键进展之一,大语言模型引起了行业和社会的广泛关注。这本书系统地讲述了大语言模型的训练目标、模型架构、使用方法、并行训练,以及检索增强、稀疏模型设计、基于人的反馈的微调、视觉语言模型等话题。对于想要了解或掌握大语言模型的科研人员来说,这本书极具学和参价值。
——漆远,复旦大学浩清特聘教授,复旦大学人工智能创新与产业研究院院长
作为一部阐述大语言模型及其进展的著作,这本书既有广度又有深度,旨在为科学家、工程师以及对大语言模型感兴趣的高校提供一份全面且深入的学和参资料。鉴于大语言模型所的革潮正以靠前的力度进入众多学科和行业,并展现出对未来长远影响的潜力,每一个渴求掌握优选技术动态并应用于实践的读者,均应当密切关注这一领域的进展,并积极探寻将大语言模型的前沿应用转化为实际价值的可能。
——叶杰,阿里巴巴集团阿里云副裁
在数字化时代,这本书显得尤为重要。作者凭借深厚的学术背景和丰富的实践经验,深入探讨了大语言模型的理论基础、技术细节、研究成果,以及未来可能的发展方向。这本书不仅系统地介绍了大语言模型的基本概念和关键技术,而且深入分析了大语言模型在自然语言处理、机器翻译、内容生成等多个应用场景中的实际效果和潜在挑战。
对于希望深入了解人工智能和机器学领域的人士而言,这本书是一份的参资料。它不仅适合作为学术研究和专业开发的指南,也适合任何对未来科技发展充满好奇心的读者阅读。无论是这一领域的新手还是专家,你都将从中获益。
——赵闻飙,集团副裁、大安全事业群裁
- 【目录】
-
章大语言模型:辩论、争议与未来发展方向1
1.1新时代的曙光1
1.2llm有意识吗3
1.2.1理解llm的层次结构3
1.2.2意识是否需要碳基生物学4
1.2.3具身化与落地4
1.2.4世界模型7
1.2.5沟通意图8
1.2.6系统和全面泛化9
1.3未来发展方向10
1.4小结13
第2章语言模型和分词15
2.1语言建模的挑战16
2.2统计语言建模16
2.3神经语言模型18
2.4评估语言模型19
2.5分词19
2.5.1按空格分割20
2.5.2字符分词21
2.5.3子词分词21
2.5.4无分词器24
2.5.5可学的分词25
2.6小结27
第3章transformer29
3.1transformer模块29
3.2-架构31
3.3位置嵌入32
3.3.1位置编码32
3.3.2相对位置编码34
3.4更长的上下文38
3.5外部记忆42
3.6更快、更小的transformer45
3.6.1高效注意力45
3.6.2条件计算47
3.6.3搜索高效transformer48
3.6.4在单个gpu上内训练一个语言模型49
3.7推理优化49
3.7.1推测解码49
3.7.2简化transformer51
3.7.3修剪52
3.7.4蒸馏53
3.7.5混合精度54
3.7.6高效扩展transformer推理54
3.8小结56
第4章预训练目标和解码策略57
4.1模型架构57
4.2预训练目标60
4.3具有代表的语言模型62
4.4解码策略67
4.5小结72
第5章上下文学和轻量级微调73
5.1上下文学74
5.1.1示范样本选择75
5.1.2样本排序82
5.1.3指令生成82
5.1.4思维链84
5.1.5递归提示87
5.1.6为什么icl有效90
5.1.7评估93
5.2提示语言模型的校准94
5.3轻量级微调97
5.3.1基于添加的方法98
5.3.2基于规范的方法100
5.3.3基于重新参数化的方法101
5.3.4混合方法103
5.4小结104
第6章训练更大的模型107
6.1扩大尺度法则107
6.1.1预训练transformer扩大尺度的启示107
6.1.2预训练和微调transformer带来的新启示110
6.1.3k比特推理扩大尺度法则111
6.1.4挑战与机遇112
6.2涌现能力113
6.3人工智能加速器115
6.4并行117
6.4.1数据并行119
6.4.2流水线并行126
6.4.3张量/模型并行131
6.4.4专家混合133
6.5混合训练和低精度训练133
6.5.1单位缩放133
6.5.2fp8与int8135
6.6其他节省内存的设计136
6.7小结137
第7章稀疏专家模型139
7.1为什么采用稀疏专家模型139
7.2路由算法142
7.2.1每个词元选择top-k个专家142
7.2.2每个专家选择top-k个词元144
7.2.3全局很优分配145
7.2.4路由148
7.2.5双层路由149
7.2.6针对不同预训练领域的不同专家149
7.3其他改进措施152
7.3.1加快训练速度152
7.3.2高效的moe架构153
7.3.3生产规模部署154
7.3.4通过稀疏moe扩展视觉语言模型154
7.3.5moe与集成155
7.4小结156
第8章检索增强型语言模型157
8.1预训练检索增强型语言模型158
8.2词元级检索161
8.3通过高效和精简检索进行问答和多跳推理163
8.4检索增强型transformer166
8.5检索增强型黑盒语言模型168
8.6视觉增强语言建模169
8.7小结170
第9章对齐语言模型与人类偏好171
9.1基于人类反馈进行微调172
9.1.1基于人类反馈的强化学172
9.1.2kl散度:前向与反向174
9.1.3reinforce、trpo和ppo174
9.1.4带有kl惩罚的强化学:贝叶斯推理观点178
9.1.5通过分布控制生成进行语言模型对齐180
9.1.6通过f散度小化统一rlhf和gdc方法182
9.2基于语言反馈进行微调183
9.3基于监督学进行微调184
9.4基于人工智能反馈的强化学185
9.5基于自我反馈进行迭代优化188
9.6基于人类偏好进行预训练190
9.7小结193
0章减少偏见和有害195
10.1偏见196
10.2有害199
10.3偏见和有害的检测与减少200
10.3.1基于解码的策略201
10.3.2基于提示的脱毒202
10.3.3基于数据的策略204
10.3.4基于投影和正则化的方法205
10.3.5基于风格转换的方法205
10.3.6基于强化学的微调和基于人类偏好的预训练206
10.4小结206
1章视觉语言模型207
11.1语言处理的多模态落地207
11.2不需要额外训练即可利用预训练模型208
11.2.1视觉引导解码策略208
11.2.2作为大语言模型提示的视觉输入209
11.2.3基于相似搜索的多模态对齐212
11.3轻量级适配213
11.3.1锁定图像调优213
11.3.2作为(冻结)语言模型前缀的学视觉嵌入214
11.3.3视觉-文本交注意力融合216
11.4图文联合训练219
11.5检索增强视觉语言模型222
11.6视觉指令调整225
11.7小结227
2章环境影响229
12.1能源消耗和温室气体排放229
12.2估算训练模型的排放量230
12.3小结231
参文献232
点击展开
点击收起
— 没有更多了 —
以下为对购买帮助不大的评价