批量上传,套装书可能不全,下单前咨询在线客服!有特殊要求,下单前请咨询客服!
¥ 73.65 7.5折 ¥ 98 全新
库存25件
作者宗成庆、 赵阳、飞桨教材编写组
出版社清华大学出版社
ISBN9787302651550
出版时间2024-01
装帧平装
开本16开
定价98元
货号29696623
上书时间2024-11-04
近年来,自然语言处理技术备受瞩目,一方面受益于计算机硬件和机器学习等相关技术的快速发展,自然语言处理的技术性能得到了快速提高,让人们真实地看到和切身感受到了该技术所带来的便利; 另一方面,随着计算机网络和移动通讯技术的快速发展和普及应用,人们对自然语言处理技术的需求愈加迫切,对技术性能和服务方式的要求也越来越高,从机器翻译、问答系统和人机对话系统,到自动文摘、情感分析和观点挖掘等,再从舆论监督、社会管理和国家安全,到工商业界的业务需求和普通百姓的日常生活服务,自然语言处理技术都以其不可替代的地位和作用得到了广泛关注和重视。尤其2022年底大规模语言模型腾空出世,彻底刷新了人们对自然语言处理技术的传统认知,甚至颠覆和改变了整个人工智能领域的研究范式和发展方向。自然语言处理学科方向从鲜为人知的“丑小鸭”一跃而成为备受追捧的“白天鹅”,这门课程也在大多数高校的人工智能学院或人工智能专业中理所当然地成为专业必修课。自然语言处理的春天来到了。
在春暖花开的季节里,不同模态数据之间的边界变得越来越模糊,自然语言文本、语音、图像和视频处理几乎进入了同一种范式。与此同时,学术界和工业界研发机构所从事的工作越来越趋于同质化。越来越多的共享数据、技术和平台,为该领域的迅速成长和壮大提供了强有力的支持。这对于技术初学者来说,何尝不是一件幸事!但是,面对蜂拥而出的各类算法和模型,如何为初学者提供一个快速入门的切入点呢?大语言模型席卷全球,其最基本的理论方法和实现技术是什么?通过一种什么样的方式让初学者快速地了解每一种算法和模型是如何实现的,数据应如何处理,参数该如何配置和优化,系统要如何搭建,平台可如何使用?这些基本问题和需求像线虫一样蠕动在我的心里,让我时不时地产生要撰写一部介绍技术实现方法著作的冲动,有时候这种蠕动如芒刺在背让我坐卧不安。当百度飞桨技术团队通过清华大学出版社联系我,有意合作撰写本书时,让我顿时眼前一亮,因为我知道飞桨团队有足够的实力协助我完成这一任务,他们不仅有经验丰富的专业技术人员,而且有成熟可靠的飞桨平台。我自己团队得力干将赵阳博士(副研究员)的加盟更让我信心倍增。于是,我们一拍即合。自那一刻起,我便坚信芒刺将不复存在。
本书默认读者对自然语言处理的基础理论和方法有一定的了解,所以理论部分仅点到为止,而主要笔墨用于介绍技术具体实现方法。在内容分配上,以当前主流的神经网络和深度学习方法为主,适当涉及n元文法模型和条件随机场等统计自然语言处理的经典方法; 既有关键技术,也有应用系统,通过具体案例从不同层面全方位地贯穿整个自然语言处理全域。书中提供的每个代码都已经通过调试,并以Jupyter Notebook形式托管在百度AI Studio星河社区上。读者按照书中的说明就可以直接使用AI Studio星河社区提供的免费GPU算力卡在线编译运行书中的程序代码,为读者实践、练习提供了极大的便利。
作为共同作者的赵阳博士和飞桨技术团队为本书的写作给予了最有力的支持和帮助,如果没有他们的鼎力相助和友好合作,恐怕一切还只会停留在我的空想和冲动之中。在此向他们表示最诚挚的谢意!
本书的撰写工作得到了中国科学院大学教材出版中心的资助。学校教务处的田晨晨老师、人工智能学院的肖俊副院长和屈晓春老师给予了大力帮助和支持。同行专家赵铁军、王厚峰、王小捷、黄民烈和张家俊等对本书的初始结构提出了宝贵的修改建议。中国科学院自动化研究所自然语言处理团队的向露博士对书中的部分内容进行了审阅和补充。清华大学出版社的孙亚楠编辑和王倩编辑给予了最贴心的帮助。一并向他们表示衷心的感谢!
本书从2021年6月开始策划,基本内容确定之后实施代码编写、调试和优化工作,在组织准备过程中对部分内容进行了微调,至2022年初基本完成。2022年底大模型出现之后,根据最新技术发展我们又对书中部分内容重新作了调整。由于时间十分仓促,再加上作者的水平有限,书中难免有不妥之处,甚至可能存在疏漏或错误。作者真诚地欢迎读者给予批评指正,或提出修改建议。谢谢!
宗成庆
2023年12月
《自然语言处理基础与大模型 案例与实践》在简要介绍自然语言处理代表性模型和方法的基础上,通过具体案例详细展现了相关模型和算法的实现过程,并给出了可执行的程序代码、数据集和运行结果。全书内容既有经典的统计语言模型,也有神经网络基础模型和大语言模型前沿技术。应用案例从情感分析、信息抽取、自动摘要和文本语义匹配,到阅读理解、意图理解、文本生成和机器翻译,全方位地展示自然语言处理从理论到实践的全貌。书中提供的所有代码都已通过调试,并以Jupyter Notebook形式托管在百度AI Studio星河社区上。读者按照书中的说明就可以直接使用AI Studio提供的免费计算资源在线编译运行书中的程序代码,为读者实践、练习提供了极大的便利 。
《自然语言处理基础与大模型 案例与实践》可作为高等院校相关专业高年级本科生和研究生学习自然语言处理课程的教学辅导书,也可供对自然语言处理技术感兴趣的初学者或者从事相关技术研发的工程技术人员参考。
宗成庆,中国科学院自动化所研究员、博士生导师,中国科学大学岗位教授,ACL/ CAAI/ CCF Fellow,主要从事自然语言处理、机器翻译和语言认知计算等研究,主持国家项目10余项,发表论文200余篇,出版《统计自然语言处理》、《文本数据挖掘》和Text Data Mining三部专著及两部译著。现任国际计算语言学委员会(ICCL)委员,中国中文信息学会副理事长,荣获国家科技进步奖二等奖和多个省部级及国家一级学会的科技奖励,获得北京市优秀教师、中科院优秀导师和国科大李佩教学名师等若干荣誉。
赵阳,中国科学院自动化研究所助理研究员,中国中文信息学会开源情报技术专业委员会委员,研究方向为自然语言处理与机器翻译,作为负责人和参与人员,主持和承担国家自然基金、科技部重点研发计划和中国科学院先导计划等多项国家项目。
飞桨教材编写组,专注数据分析、商业战略、机器学习和人工智能等领域,出品过《大数据分析的道与术》《机器学习的思考故事》《零基础实践深度学习》和《如何系统化的分析业务和战略》等系列课程。
第1章绪论
1.1自然语言处理方法概述
1.2本书的内容组织
1.3本书的实践平台
1.3.1本地运行
1.3.2AI Studio星河社区运行
1.3.3本书使用的API
1.3.4本书使用的数据集
第2章神经网络基础
2.1概述
2.2神经元与感知机
2.2.1神经元
2.2.2感知机
2.2.3常见的激活函数
2.3前馈神经网络
2.4卷积神经网络
2.4.1卷积
2.4.2池化
2.4.3卷积神经网络
2.5循环神经网络
2.5.1简单循环神经网络
2.5.2长短时记忆网络
2.5.3门控循环单元
2.5.4循环神经网络拓展知识
第3章分布式表示
3.1词的分布式表示
3.1.1静态词向量
3.1.2动态词向量
3.2短语的分布式表示
3.3句子的分布式表示
3.3.1基于循环神经网络的表示方法
3.3.2基于预训练语言模型的表示方法
第4章序列生成模型
4.1基于循环神经网络的Seq2Seq模型
4.1.1基于RNN的Seq2Seq模型原理
4.1.2解码策略
4.2融合注意力机制的Seq2Seq模型
4.3基于Transformer的Seq2Seq模型
4.3.1自注意力模型
4.3.2Transformer的网络结构
4.3.3Transformer编码器
4.3.4Transformer解码器
4.3.5知识延伸: 基于Transformer结构的模型
第5章基础语言模型
5.1统计语言模型
5.1.1模型定义
5.1.2数据平滑方法
5.1.3语言模型评价
5.2神经网络语言模型
5.2.1前馈神经网络语言模型
5.2.2循环神经网络语言模型
5.2.3语言模型与词向量
第6章预训练大模型
6.1GPT语言模型
6.1.1GPT模型预训练
6.1.2GPT在下游任务中的应用
6.2BERT语言模型
6.2.1BERT模型的预训练任务
6.2.2BERT在下游任务中的应用
6.3ERNIE 语言模型
6.4预训练大模型
6.4.1基础大模型
6.4.2指令微调
6.4.3基于人类反馈的强化学习
第7章词语切分
7.1基于BERT实现中文分词
7.1.1任务目标
7.1.2实现思路及流程
7.1.3数据处理
7.1.4模型构建
7.1.5训练配置
7.1.6模型训练
7.1.7模型评估
7.1.8模型预测
7.2基于BPE算法实现子词切分
7.2.1任务目标
7.2.2实现思路及流程
7.2.3构建BPE词表
7.2.4文本子词切分
7.2.5语料还原
7.3实验思考
第8章文本情感分类方法实践
8.1基于LSTM模型的情感分类方法
8.1.1任务目标
8.1.2实现思路及流程
8.1.3数据处理
8.1.4模型构建
8.1.5训练配置
8.1.6模型训练
8.1.7模型评估
8.1.8模型预测
8.2基于BERT模型实现情感分类
8.2.1数据处理
8.2.2模型构建
8.2.3训练配置
8.2.4模型训练
8.2.5模型评估
8.2.6模型预测
8.3基于BERT的属性级情感分类
8.3.1任务目标
8.3.2实现思路及流程
8.3.3属性和观点抽取
8.3.4属性级情感分类
8.3.5全流程模型推理
8.4实验思考
第9章信息抽取实践
9.1基于Bi-LSTM和CRF的命名实体识别方法
9.1.1任务目标和实现流程
9.1.2数据处理
9.1.3模型构建
9.1.4训练配置
9.1.5模型训练
9.1.6模型评估
9.1.7模型预测
9.2基于ERNIE-UIE实现实体关系抽取
9.2.1任务目标和实现流程
9.2.2数据处理
9.2.3模型构建
9.2.4训练配置
9.2.5模型训练
9.2.6模型评估
9.2.7模型预测
9.3实验思考
第10章文本语义匹配实践
10.1基于SimNet的文本语义匹配
10.1.1任务目标和实现流程
10.1.2数据处理
10.1.3模型构建
10.1.4训练配置
10.1.5模型训练
10.1.6模型评估
10.1.7模型预测
10.2基于RocketQA的文本语义匹配
10.2.1任务目标和实现流程
10.2.2数据处理
10.2.3模型构建
10.2.4训练配置
10.2.5模型训练
10.2.6模型评估
10.2.7模型预测
10.3实验思考
第11章基于PEGASUS的中文文本摘要实践
11.1任务目标和实现流程
11.2数据处理
11.2.1数据集确定
11.2.2数据加载
11.2.3将数据转换成特征形式
11.2.4构造DataLoader
11.3模型构建
11.4训练配置
11.4.1BLEU算法
11.4.2ROUGE算法
11.5模型训练
11.6模型评估
11.7模型预测
11.8实验思考
第12章基于ERNIE 3.0实现意图识别
12.1任务目标和实现流程
12.2数据处理
12.2.1数据集确定
12.2.2数据加载
12.2.3将数据转换成特征形式
12.2.4构造DataLoader
12.3模型构建
12.4训练配置
12.5模型训练
12.6模型评估
12.7模型预测
12.8实验思考
第13章机器阅读理解实践
13.1任务目标
13.2实现流程
13.3数据处理
13.3.1数据集确定
13.3.2数据加载
13.3.3将数据转换成特征形式
13.3.4构造DataLoader
13.4模型构建
13.5训练配置
13.6模型训练
13.7模型评估
13.8模型预测
13.9实验思考
第14章机器翻译实践
14.1任务目标和实现流程
14.2数据处理
14.2.1数据集确定
14.2.2数据加载
14.2.3将数据转换成特征形式
14.2.4构建DataLoader
14.2.5后处理
14.3模型构建
14.3.1嵌入层的代码实现
14.3.2组装Transformer模型
14.4训练配置
14.5模型训练
14.6模型评估
14.6.1数据读取
14.6.2权重加载
14.6.3模型评估
14.7模型预测
14.8实验思考
第15章基于大模型的自动问答实践
15.1任务目标和设计方案
15.2通过飞桨零代码开发工具实现
15.3通过PaddleNLP实现
15.3.1代码实现逻辑
15.3.2配置大模型
15.3.3配置向量检索模型
15.3.4定义document store
15.3.5构建文档索引
15.3.6构建问答应用
15.3.7(可选)在线推理部署
15.4实验思考
附录 术语与缩略语
参考文献
《自然语言处理基础与大模型 案例与实践》在简要介绍自然语言处理代表性模型和方法的基础上,通过具体案例详细展现了相关模型和算法的实现过程,并给出了可执行的程序代码、数据集和运行结果。全书内容既有经典的统计语言模型,也有神经网络基础模型和大语言模型前沿技术。应用案例从情感分析、信息抽取、自动摘要和文本语义匹配,到阅读理解、意图理解、文本生成和机器翻译,全方位地展示自然语言处理从理论到实践的全貌。书中提供的所有代码都已通过调试,并以Jupyter Notebook形式托管在百度AI Studio星河社区上。读者按照书中的说明就可以直接使用AI Studio提供的免费计算资源在线编译运行书中的程序代码,为读者实践、练习提供了极大的便利 。
《自然语言处理基础与大模型 案例与实践》可作为高等院校相关专业高年级本科生和研究生学习自然语言处理课程的教学辅导书,也可供对自然语言处理技术感兴趣的初学者或者从事相关技术研发的工程技术人员参考。
宗成庆,中国科学院自动化所研究员、博士生导师,中国科学大学岗位教授,ACL/ CAAI/ CCF Fellow,主要从事自然语言处理、机器翻译和语言认知计算等研究,主持国家项目10余项,发表论文200余篇,出版《统计自然语言处理》、《文本数据挖掘》和Text Data Mining三部专著及两部译著。现任国际计算语言学委员会(ICCL)委员,中国中文信息学会副理事长,荣获国家科技进步奖二等奖和多个省部级及国家一级学会的科技奖励,获得北京市优秀教师、中科院优秀导师和国科大李佩教学名师等若干荣誉。
赵阳,中国科学院自动化研究所助理研究员,中国中文信息学会开源情报技术专业委员会委员,研究方向为自然语言处理与机器翻译,作为负责人和参与人员,主持和承担国家自然基金、科技部重点研发计划和中国科学院先导计划等多项国家项目。
飞桨教材编写组,专注数据分析、商业战略、机器学习和人工智能等领域,出品过《大数据分析的道与术》《机器学习的思考故事》《零基础实践深度学习》和《如何系统化的分析业务和战略》等系列课程。
— 没有更多了 —
以下为对购买帮助不大的评价