内容理解:技术、算法与实践
¥
888
九品
仅1件
作者孙子荀
出版社机械工业出版社
出版时间2023-10
版次1
装帧其他
货号37-21
上书时间2024-12-31
商品详情
- 品相描述:九品
图书标准信息
-
作者
孙子荀
-
出版社
机械工业出版社
-
出版时间
2023-10
-
版次
1
-
ISBN
9787111735137
-
定价
99.00元
-
装帧
其他
-
开本
16开
-
纸张
胶版纸
-
页数
296页
-
字数
378千字
- 【内容简介】
-
这是一本在AI大模型技术背景下深入讲解内容理解的技术原理、算法实现与业务实践的著作,由腾讯的高级总监和资深内容专家领衔撰写,全面融入了工业界在内容业务方面积累的先进技术和成熟经验。
全书围绕内容理解、内容生成、内容质量3大关键领域展开,从内容产业的发展趋势与挑战到各种技术和算法,从行业的先进的研究成果到各种典型的应用案例,应有尽有。
第一部分 内容理解(第1~7章)
首先,详细介绍了内容理解的各个模块,包括文本、图像、语音等单模态内容的理解以及多场景文本、视频等多模态内容的理解,帮助读者全面了解内容理解的核心概念、技术细节和研究进展。接着,讲解了多模态学习在内容理解中的应用、多模态内容理解的理论框架和大规模预训练技术。最后,介绍了两个主流的内容理解框架,并结合一个自研的多模态内容理解框架,阐述了解决内容理解问题的流程和具体方案。
第二部分 内容生成(第8~11章)
详细讲解了内容生成的技术细节,结合作者团队在业务实践中探索的应用案例,从图片生成、文本生成、AI素材合成到AI创作,介绍了内容创作的全栈技术,能帮助读者由浅入深地理解内容生成的技术原理与业务实践。
第三部分 内容质量(第12~14章)
详细讲解了信息流产品常见的内容质量问题,比如标题党、假新闻、低俗图片等,介绍了如何对这些与内容质量相关的业务场景进行拆解和定义,将抽象的业务场景转化为可以建模的问题。此外,还介绍了作者团队采用的业务建模流程以及业界常用的解决方案和研究进展。
- 【作者简介】
-
:
孙子荀,内容理解与生成领域的资深专家,腾讯高级总监和专家研究员,负责腾讯游戏用户增长与内容生态技术相关的工作。2012年加入腾讯,十多年来一直从事内容理解、内容生成以及数据科学技术的研究和落地工作,带领团队获得十几项公司级业务奖和技术奖。在内容生态增长、创意营销等领域有丰富的落地经验。带领团队从0到1构建了首个内容技术中台;打造了腾讯游戏全域营销科学体系,帮助多个业务实现降本增效。与团队一起在人工智能顶级学术会议上发表了多篇论文和报告,在相关领域拥有几十项发明专利。
- 【目录】
-
Contents 目 录
作者简介
前 言
第一部分 内容理解
第1章 文本内容理解2
1.1 文本表示2
1.1.1 文本表示的研究背景2
1.1.2 文本表示的方法3
1.2 文本分类9
1.2.1 文本分类的研究背景9
1.2.2 文本分类的方法9
1.3 本章小结17
第2章 图像理解19
2.1 图像分类20
2.1.1 传统图像分类算法20
2.1.2 深度学习图像分类算法23
2.2 图像检测25
2.2.1 图像匹配算法26
2.2.2 基于OpenCV的模板匹配实现27
2.2.3 目标检测算法28
2.3 实际应用:通用元素检测框架30
2.4 本章小结31
第3章 语音理解32
3.1 语音表征32
3.1.1 基于传统方法的语音表征33
3.1.2 基于深度学习的语音表征34
3.2 基于深度学习的音乐分类34
3.2.1 基于CNN的音乐分类35
3.2.2 基于RNN的音乐分类38
3.2.3 基于领域知识的CNN38
3.2.4 基于注意力机制的后端模块
算法41
3.3 本章小结43
第4章 场景文字检测与识别44
4.1 场景文字的研究方向44
4.1.1 研究问题44
4.1.2 研究难点45
4.1.3 未来趋势45
4.2 场景文本算法的现状46
4.2.1 基于传统机器学习的文本检测46
4.2.2 基于传统机器学习的文本识别46
4.2.3 基于深度学习的文本检测47
4.2.4 基于深度学习的文本识别52
4.2.5 基于深度学习的端到端系统53
4.3 场景文本算法辅助技术55
4.3.1 不规则文本识别问题55
4.3.2 文本图像合成技术56
4.3.3 半监督技术57
4.4 数据集和评估标准58
4.4.1 基准数据集58
4.4.2 文本检测评估标准60
4.4.3 文本识别评估标准61
4.5 文本检测和识别的应用、现状
与未来61
4.5.1 应用61
4.5.2 现状62
4.5.3 挑战与未来趋势62
4.6 本章小结64
第5章 视频理解65
5.1 视频表征66
5.1.1 研究目标与意义66
5.1.2 研究进展67
5.2 视频动作识别71
5.2.1 研究目标与意义71
5.2.2 研究难点71
5.2.3 研究进展71
5.3 视频时序动作定位74
5.3.1 研究目标与意义74
5.3.2 研究难点74
5.3.3 研究进展75
5.4 视频结构化分析79
5.4.1 研究目标与意义80
5.4.2 研究难点80
5.4.3 基于视频结构化的数据集80
5.4.4 视频结构的划分方法81
5.4.5 研究进展84
5.5 本章小结89
第6章 多模态学习与内容理解91
6.1 多模态内容理解的研究方向91
6.1.1 研究问题91
6.1.2 研究意义与挑战92
6.1.3 研究方向与应用93
6.2 多模态表征94
6.2.1 因果表征94
6.2.2 联合表征98
6.3 多模态内容理解框架99
6.3.1 模态间推理99
6.3.2 模态间协同101
6.3.3 模态间推理:零样本图像
分类103
6.3.4 模态间协同:虚假新闻识别105
6.4 大规模预训练技术108
6.4.1 文本预训练108
6.4.2 图像预训练110
6.4.3 音频预训练111
6.4.4 多模态预训练112
6.5 本章小结114
第7章 内容理解框架115
7.1 常见的内容理解框架115
7.1.1 Tensor2Tensor115
7.1.2 OmniNet 120
7.2 自研多模态内容理解框架121
7.2.1 框架设计背景121
7.2.2 contentAI框架介绍125
7.2.3 高度配置化125
7.2.4 高度组件化127
7.2.5 开发者模式与用户模式130
7.2.6 计算式网络搭建131
7.2.7 计算图网络搭建 132
7.2.8 自动化数据集构建 133
7.2.9 能力优化133
7.2.10 快速服务化134
7.2.11 内容理解能力135
7.2.12 代码编写范例136
7.3 本章小结141
第二部分 内容生成
第8章 图片生成144
8.1 基于GAN的图片生成144
8.1.1 生成对抗网络144
8.1.2 条件图片生成146
8.1.3 文本转图片147
8.1.4 图片迁移147
8.1.5 高分辨率图片生成149
8.2 基于扩散模型的图片生成151
8.2.1 扩散模型152
8.2.2 扩散模型生成图片153
8.3 图片设计155
8.3.1 智能裁剪155
8.3.2 智能布局156
8.4 本章小结157
第9章 文本生成158
9.1 文本生成的背景知识158
9.1.1 语言模型158
9.1.2 CFG文法159
9.1.3 Encoder-Decoder框架160
9.1.4 文本生成质量量化 161
9.2 文本生成算法162
9.2.1 基于统计的文本生成模型162
9.2.2 基于神经网络的文本生成技术164
9.3 本章小结172
第10章 AI素材合成173
10.1 AI人脸属性编辑173
10.1.1 研究目标与意义173
10.1.2 研究难点175
10.1.3 研究进展176
10.2 AI语音合成181
10.2.1 研究目标与意义181
10.2.2 基本的语音合成系统简介182
10.2.3 端到端的语音合成系统183
10.2.4 基于深度学习的算法介绍185
10.3 AI虚拟人技术195
10.3.1 研究目标与意义195
10.3.2 二维多目标人体姿态估计197
10.3.3 二维-三维人体姿态转换203
10.4 AI表情包合成205
10.4.1 表情包特性206
10.4.2 表情包自动合成的意义及
挑战207
10.4.3 表情包合成算法208
10.4.4 表情包合成应用212
10.5 本章小结213
第11章 视频编辑214
11.1 结构化数据视频编辑215
11.1.1 基于模板的电视报道视频编辑215
11.1.2 基于剪辑元素属性约束的
视频编辑216
11.1.3 视频特效合成系统实践217
11.2 文本驱动视频编辑
点击展开
点击收起
— 没有更多了 —
以下为对购买帮助不大的评价