商品简介
人工智能相比于人力而言具有低成本、高效率和全天候等巨大优势,但其发展往往不能全面满足实际场景的旺盛需求。近年来人工智能与计算机视觉的结合日益紧密,基于深度学习研究计算机视觉成为一个新方向。深度学习的特点是层次化的特征提取、规模更大、数据更多、计算更复杂。本书从介绍计算机视觉的任务入手,总结从传统手工提取特征方法到深度学习的发展历程。然后,针对不同层次的计算机视觉任务,结合作者团队近年来的研究成果,以及部分学界公认的里程碑式成果,从理论层面论述深度学习在具体计算机视觉任务中的应用。本书作者来自北京邮电大学长期从事多媒体技术教学和研究的一线教师。本书适合从事图像和视频的处理和理解的研究人员、相关领域软件开发人员或研究生阅读。
作者简介
"姜竹青,讲师,硕士生导师,现任职于北京邮电大学人工智能学院智能媒体计算中心。。专门从事多媒体技术、视频编码、模式识别和计算机视觉技术的研究。针对深度学习在计算机视觉任务中的应用,以第一作者/通讯作者发表高水平SCI期刊和学术会议发表论文5篇,参与发表国际会议论文与SCI论文50余篇。
门爱东,教授,博士生导师,现为北京邮电大学人工智能学院智能媒体计算中心责任教授,承担完成了包括国家重点研发、国家自然科学基金等几十项国家、省部和企业科研项目,获得国家科技进步三等奖 1 次、部级科技进步一等奖 2 次、部级科技进步二等奖 1 次等。研究领域是音视频处理、数字广播和多媒体通信、人工智能等。
王海婴,副教授,硕士生导师,现任职于北京邮电大学人工智能学院智能媒体计算中心。主持及参加完成了国家、省部级、军队及企事业科研项目数十项,发表重要国际会议及期刊论文数十篇。出版著作1部,授权发明专利3项。研究领域包括音视频处理、多媒体通信和人工智能等。
"
目录
第1章计算机视觉及其任务1
1.1计算机视觉的定义1
1.2计算机视觉的发展沿革1
1.3计算机视觉的主要任务及其应用2
1.3.1图像恢复2
1.3.2图像识别3
1.3.3动作分析4
1.3.4场景重建5
1.3.5行人再识别6
1.4本章小结7
本章参考文献7
第2章手工特征8
2.1初级图像特征8
2.1.1颜色特征8
2.1.2纹理特征11
2.1.3形状特征12
2.2中级图像特征13
2.2.1Haar-like特征14
2.2.2SIFT特征16
2.2.3SURF特征19
2.3本章小结21
本章参考文献21
第3章神经网络基础理论23
3.1神经元概述23
3.1.1感知器23
3.1.2激活函数24
3.1.3神经元模型28
3.2神经网络基础结构28
3.2.1两层神经网络模型28
3.2.2前馈神经网络和循环神经网络29
3.2.3神经网络中的参数30
3.3神经网络训练31
3.3.1权重初始化31
3.3.2偏置初始化32
3.3.3前向传播32
3.3.4损失函数32
3.3.5反向传播33
3.3.6参数更新35
3.3.7批归一化37
3.3.8正则化38
3.4常见的神经元模型40
3.4.1空间信息处理单元40
3.4.2时间信息处理单元41
3.5本章小结43
本章参考文献44
第4章神经网络结构46
4.1LENET546
4.2ALEXNET48
4.3VGGNET50
4.4INCEPTION53
4.5RESNET55
4.6DENSENET57
4.7MOBILENET60
4.8FCN63
4.9本章小结71
本章参考文献71
第5章目标分割73
5.1目标分割技术概述73
5.1.1目标分割技术基本理论与模型73
5.1.2目标分割技术概述74
5.1.3评价标准77
5.2基于深度学习多路径特征融合的图像语义分割79
5.2.1特点79
5.2.2基于VGGNet的多路径特征融合算法80
5.2.3基于ResNet的多路径特征融合算法85
5.3基于模糊逻辑的多特征视频运动目标分割88
5.3.1特点88
5.3.2算法88
5.3.3实验96
5.4目标分割未来趋势98
本章参考文献99
第6章目标检测102
6.1目标检测算法概述102
6.1.1算法概述102
6.1.2评价指标104
6.2传统目标检测方法106
6.2.1区域选择算法106
6.2.2典型人工图像特征106
6.2.3分类器类型及训练106
6.3基于候选区域的目标检测方法110
6.3.1R-CNN的实现110
6.3.2SPP-net的实现111
6.3.3FastR-CNN的实现112
6.3.4FasterR-CNN的实现113
6.4基于回归的目标检测115
6.4.1YOLO的实现115
6.4.2SSD的实现117
6.4.3YOLOv2的改进119
6.5改进算法拾萃122
6.5.1困难样本挖掘122
6.5.2YOLOv2损失函数123
6.5.3基于上下文信息的SSD改进124
6.5.4多特征多尺度融合126
6.6目标检测未来趋势129
本章参考文献130
第7章目标跟踪132
7.1目标跟踪技术概述132
7.1.1目标跟踪算法基本理论与模型132
7.1.2目标跟踪算法概述133
7.1.3评价标准135
7.2平衡正负样本权重的多示例学习跟踪算法136
7.2.1MIL跟踪算法136
7.2.2平衡正负样本权重138
7.3基于核化相关滤波器的视觉目标跟踪算法研究与改进143
7.3.1基于相关滤波器的目标跟踪算法143
7.3.2自适应模板更新的目标跟踪算法150
7.3.3CNN和相关滤波结合的跟踪算法158
7.4基于中心对比CNN的目标跟踪算法研究169
7.4.1逐任务驱动的CNN目标跟踪算法169
7.4.2中心对比CNN目标跟踪算法170
7.4.3小运动优先的视觉目标跟踪算法175
7.5目标跟踪未来趋势180
本章参考文献180
第8章行人再识别183
8.1行人再识别技术概述183
8.1.1行人再识别技术基本理论与模型183
8.1.2行人再识别技术简介184
8.1.3评价标准186
8.2基于ADARANK进行特征集成的行人再识别算法188
8.2.1算法特点188
8.2.2算法细节188
8.2.3实验结果200
8.3基于增强深度特征的行人再识别算法206
8.3.1算法特点206
8.3.2引入注意力机制的网络模型207
8.3.3引入手工特征:LOMO特征融合到多级注意力识别―验证网络215
8.4基于属性和身份特征融合的行人再识别算法221
8.4.1特点221
8.4.2算法222
8.4.3实验230
8.5行人再识别未来趋势236
本章参考文献237
第9章图像压缩242
9.1有损压缩和无损压缩242
9.1.1无损压缩242
9.1.2有损压缩243
9.2经典的有损图像压缩方法243
9.2.1JPEG243
9.2.2JPEG2000243
9.2.3BPG244
9.3基于深度学习的图像压缩技术244
9.4基于空间能量压缩的图像压缩244
9.4.1算法特点244
9.4.2算法细节245
9.4.3实验结果249
9.5利用卷积神经网络进行内容加权的图像压缩249
9.5.1算法特点249
9.5.2算法细节250
9.5.3实验结果254
9.6基于生成式对抗网络的图像压缩255
9.6.1算法特点255
9.6.2算法细节255
9.6.3实验结果257
9.7图像压缩未来趋势257
本章参考文献258
第10章超分辨率重建259
10.1超分辨率技术概述259
10.1.1超分辨率技术的基本理论与模型259
10.1.2超分辨率技术概述261
10.2基于深度残差网络注意力机制的图像超分辨率重建263
10.2.1存在的问题263
10.2.2提出的解决方案264
10.2.3具体实现细节264
10.2.4实验结果比较分析267
10.3基于增强的可变形卷积网络的视频超分辨率271
10.3.1视频超分辨率271
10.3.2存在的问题272
10.3.3针对存在的问题提出的解决方案272
10.3.4具体实现274
10.3.5实验对比277
10.4真实原始传感器数据的超分辨率重建278
10.4.1存在的问题278
10.4.2针对问题提出的解决方案279
10.4.3具体实现细节279
10.4.4实验对比281
10.5超分辨率重建未来趋势283
本章参考文献284
第11章图像去噪技术287
11.1图像去噪技术概述287
11.1.1图像去噪基本理论与模型287
11.1.2图像去噪算法287
11.1.3评价标准292
11.2去噪卷积神经网络293
11.2.1算法特点293
11.2.2存在问题294
11.2.3算法细节294
11.2.4实验结果295
11.3盲去噪卷积神经网络299
11.3.1算法特点299
11.3.2存在问题299
11.3.3算法细节299
11.3.4实验302
11.4真实图像去噪神经网络307
11.4.1特点307
11.4.2存在问题307
11.4.3算法细节307
11.4.4实验310
11.4.5总结312
11.5图像去噪未来趋势312
本章参考文献312
附录A术语与缩略词表313
内容摘要
人工智能相比于人力而言具有低成本、高效率和全天候等巨大优势,但其发展往往不能全面满足实际场景的旺盛需求。近年来人工智能与计算机视觉的结合日益紧密,基于深度学习研究计算机视觉成为一个新方向。深度学习的特点是层次化的特征提取、规模更大、数据更多、计算更复杂。本书从介绍计算机视觉的任务入手,总结从传统手工提取特征方法到深度学习的发展历程。然后,针对不同层次的计算机视觉任务,结合作者团队近年来的研究成果,以及部分学界公认的里程碑式成果,从理论层面论述深度学习在具体计算机视觉任务中的应用。本书作者来自北京邮电大学长期从事多媒体技术教学和研究的一线教师。本书适合从事图像和视频的处理和理解的研究人员、相关领域软件开发人员或研究生阅读。
主编推荐
近年来人工智能与计算机视觉的结合日益紧密,基于深度学习研究计算机视觉成为一个新方向。深度学习的特点是层次化的特征提取、规模更大、数据更多、计算更复杂。
以下为对购买帮助不大的评价