数据科学技术 文本分析和知识图谱
全新正版 极速发货
¥
82.93
6.4折
¥
129
全新
库存3件
作者苏海波 等
出版社清华大学出版社
ISBN9787302649700
出版时间2024-01
装帧平装
开本16开
定价129元
货号1203177002
上书时间2024-09-05
商品详情
- 品相描述:全新
- 商品描述
-
作者简介
"苏海波,清华大学电子工程系博士,副研究员,百分点科技首席算法科学家。擅长人工智能领域的自然语言理解、知识图谱、深度学习、个性化推荐以及计算广告技术,有丰富的研发实践经验;曾就职于新浪微博,负责广告系统的算法效果优化,以及信息流产品整体算法策略的设计及研发;现负责百分点大数据与人工智能核心算法,带领团队研发智能校对系统、智能问答系统、知识图谱系统等多款认知智能产品,荣获业界多项奖项,并获得不错的商业化落地效果。
多篇SCI和EI论文发表于 GLOBECOM、ICC、IEICE Transactions 等国外很好学术会议和期刊,获得国家发明专利20余项,曾担任科技部重点研发计划子课题负责人。获得2019年和2020年北京市科学技术进步奖,获得2019年全球人工智能与机器学习大会(AiCon)明星讲师,指导团队获得2021 CCKS(全国知识图谱与语义计算大会)知识图谱问答大赛的季军。"
目录
第1章什么是数据科学1
1.1数据科学的定义1
1.1.1数据科学的背景1
1.1.2数据科学的定义1
1.2数据科学的关键技术3
1.2.1数据存储计算5
1.2.2数据治理12
1.2.3结构化数据分析28
1.2.4语音分析44
1.2.5视觉分析55
1.2.6文本分析61
1.2.7知识图谱65
1.3本章小结65
1.4习题66
1.5本章参考文献66
第2章文本预训练模型68
2.1文本分析技术的发展史68
2.2Transformer模型结构70
2.3预训练模型的结构和变种75
2.4加速处理器GPU和TPU79
2.4.1GPU的介绍79
2.4.2GPU产品命名80
2.4.3TPU和GPU的区别83
2.4.4TPU的使用总结84
2.5预训练模型的常见问题87
2.5.1模型输入的常见问题87
2.5.2模型原理的常见问题90
2.5.3模型进化的常见问题94
2.6预训练模型的源码解读96
2.6.1模型架构96
2.6.2BertModel96
2.6.3BERT预训练任务107
2.6.4BERT微调112
2.7本章小结114
2.8习题114
2.9本章参考文献115
第3章多语种文本分析116
3.1多语种文本分析背景介绍116
3.2多语种文本分析技术116
3.2.1Polyglot技术116
3.2.2MultilingualBERT117
3.2.3XLM多语言模型117
3.2.4XLMR多语言模型119
3.2.5模型实验效果120
3.3多语种文本分析源码解读121
3.4本章小结125
3.5习题126
3.6本章参考文献126
第4章文本情感分析127
4.1情感分析背景介绍127
4.2情感分析技术127
4.2.1目标和挑战127
4.2.2技术发展历程129
4.2.3情感分析的需求分析133
4.2.4情感分析的落地实践134
4.2.5模型开发平台的构建137
4.3情感分析比赛和方案144
4.3.1背景介绍144
4.3.2方案介绍146
4.3.3数据清洗和增广147
4.3.4多模态融合147
4.3.5机器学习技巧148
4.4情感分析源码解读151
4.4.1F1值适应优化技巧代码151
4.4.2对抗训练代码152
4.5本章小结154
4.6习题154
4.7本章参考文献155
第5章文本机器翻译156
5.1机器翻译背景介绍156
5.2机器翻译技术157
5.2.1基于规则的机器翻译157
5.2.2统计机器翻译158
5.2.3神经网络机器翻译159
5.2.4Encoder-Decoder模型161
5.2.5注意力机制模型162
5.2.6工业级神经网络实践164
5.3机器翻译比赛和方案167
5.3.1WMT21翻译任务167
5.3.2WMT22翻译任务168
5.4机器翻译源码解读169
5.4.1通用框架介绍169
5.4.2翻译模型实现170
5.5本章小结180
5.6习题181
5.7本章参考文献181
第6章文本智能纠错183
6.1文本纠错背景介绍183
6.2文本智能纠错技术184
6.2.1智能纠错的意义和难点185
6.2.2智能纠错解决的问题185
6.2.3业界主流解决方案186
6.2.4技术方案实践190
6.3文本智能纠错技术193
6.3.1比赛介绍193
6.3.2校对问题思考194
6.4纠错方案和源码解读195
6.4.1GECToR原理解读195
6.4.2MacBERT原理解读199
6.4.3PERT原理解读200
6.4.4PLOME原理解读202
6.4.5比赛方案203
6.5本章小结204
6.6习题205
6.7本章参考文献205
第7章知识图谱构建206
7.1知识图谱背景介绍206
7.1.1知识和知识图谱206
7.1.2知识获取、知识抽取与信息抽取的区别207
7.1.3知识图谱构建范式208
7.2非结构化信息抽取技术211
7.2.1信息抽取框架211
7.2.2命名实体识别212
7.2.3关系识别213
7.2.4事件抽取215
7.3生成式统一模型抽取技术216
7.4模型源码解读220
7.5本章小结224
7.6习题224
7.7本章参考文献225
第8章知识图谱问答226
8.1背景介绍226
8.2知识图谱问答技术229
8.2.1信息检索方法229
8.2.2语义解析方法231
8.3方案和源码解读233
8.3.1NL2SPARQL233
8.3.2NL2SPARQL语义解析方案234
8.3.3T5、BART、UniLM模型简介234
8.3.4T5、BART、UniLM方案236
8.3.5训练T5、BART、UniLM生成模型237
8.3.6语义排序方案和代码239
8.3.7SPARQL修正代码241
8.4本章小结245
8.5习题245
第9章结构化知识NL2SQL问答246
9.1NL2SQL背景介绍246
9.2NL2SQL技术249
9.2.1NL2SQL技术路线249
9.2.2NL2SQL项目实践255
9.3NL2SQL比赛和方案256
9.4NL2SQL源码解读259
9.5本章小结269
9.6习题269
9.7本章参考文献270
第10章ChatGPT大语言模型271
10.1ChatGPT介绍271
10.1.1ChatGPT的定义和背景271
10.1.2ChatGPT的发展历程272
10.2GPT模型概述272
10.2.1GPT-1模型的原理272
10.2.2GPT-2模型的原理273
10.2.3GPT-3模型的原理275
10.3ChatGPT的实现原理277
10.3.1大模型的微调技术277
10.3.2ChatGPT的能力来源278
10.3.3ChatGPT的预训练和微调279
10.4ChatGPT的应用282
10.4.1ChatGPT提示工程282
10.4.2ChatGPT应用场景283
10.4.3ChatGPT的优缺点284
10.5开源大模型285
10.5.1ChatGLM大模型285
10.5.2LLaMA大模型288
10.6本章小结294
10.7习题294
10.8本章参考文献295
第11章行业实践案例296
11.1智慧政务实践案例296
11.1.1案例背景296
11.1.2解决方案297
11.1.3系统架构和实现299
11.1.4案例总结307
……
内容摘要
数据科学的关键技术包括数据存储计算、数据治理、结构化数据分析、语音分析、视觉分析、文本分析和知识图谱等方面。本书的重点是详细介绍文本分析和知识图谱方面的技术。文本分析技术主要包括文本预训练模型、多语种文本分析、文本情感分析、文本机器翻译、文本智能纠错、NL2SQL问答以及ChatGPT大语言模型等。知识图谱技术主要包括知识图谱构建和知识图谱问答等。本书将理论介绍和实践相结合,详细阐述各个技术主题的实现路线,并对应用于业界算法大赛中的技术方案和技巧进行源代码解读,帮助读者深入理解技术原理。最后,本书还介绍了文本分析和知识图谱技术在政务、公共安全、应急等多个行业中的智能应用实践案例。
《数据科学技术:文本分析和知识图谱》适合具备Python和机器学习技术基础的高等院校学生、文本分析(或者自然语言处理)以及知识图谱领域的算法工程师和研究机构的研究者阅读,也适合数据科学和人工智能领域的研究者作为参考书。
主编推荐
《数据科学技术:文本分析和知识图谱》是一本深入浅出的数据科学技术指南。书中详细介绍了文本分析和知识图谱等关键技术,结合典型案例展示了数据科学在安全、应急等行业的应用实践。无论你是数据科学领域的专业人士还是对数据科学感兴趣的读者,这本书都能帮助你深入了解数据科学的基本概念、方法和近期新技术。通过学习《数据科学技术:文本分析和知识图谱》,你将能够掌握数据科学的核心知识,为自己的职业发展和创新项目提供有力支持。
— 没有更多了 —
以下为对购买帮助不大的评价