• 多源视觉信息感知与识别/信息科学技术专著丛书
21年品牌 40万+商家 超1.5亿件商品

多源视觉信息感知与识别/信息科学技术专著丛书

正版保障 假一赔十 可开发票

28.76 6.0折 48 全新

仅1件

广东广州
认证卖家担保交易快速发货售后保障

作者明悦

出版社北京邮电大学出版社有限公司

ISBN9787563561780

出版时间2020-08

装帧平装

开本16开

定价48元

货号9888723

上书时间2024-09-05

灵感书店

三年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
作者简介

明悦,女,博士学位。北京邮电大学副教授,博士生导师。现就职于北京邮电大学电子工程学院信息电子技术与智能系统研究中心。长期从事图像视频处理、模式识别以及机器学习方面的研究工作,主持国家自然科学基金1项、曾参加过博士点基金、973国家重点基础研究发展计划等项目。近期以第一作者身份发表相关论文30余篇,其中SCI检索10篇,申请发明专利10项,其中已授权3项。担任IEEE Transactions on Image Processing, Neurocomputing, IEEE Signal Process Letters, International Journal of Computer Systems Science and Engineering等国际期刊审稿人。



目录
第1章  绪论
  1.1  概述
  1.2  人类视觉感知系统
    1.2.1  人类视觉感知系统的生理结构
    1.2.2  视觉感知
  1.3  多源视觉传感机理
    1.3.1  激光扫描成像
    1.3.2  动态视觉传感器
    1.3.3  位姿成像感知
  1.4  多源视觉感知系统框架和基本组成
  1.5  本章小结
  本章参考文献
第2章  多源视觉感知与识别——人脸识别
  2.1  人脸识别问题
  2.2  人脸图像去模糊算法
    2.2.1  图像去模糊的基本原理
    2.2.2  基于权重的非局部自相似人脸去模糊算法
    2.2.3  实验及结果分析
  2.3  基于二值特征的人脸识别算法
    2.3.1  现有二值特征学习框架
    2.3.2  基于迭代量化的二值编码人脸识别算法
    2.3.3  基于球哈希的二值编码人脸识别算法
    2.3.4  基于稀疏投影矩阵的二值描述子人脸识别算法
    2.3.5  实验及结果分析
  2.4  基于子空间学习的深度学习人脸识别算法
    2.4.1  卷积神经网络模型
    2.4.2  谱回归判别分析深度网络人脸识别算法
    2.4.3  多尺度融合的主成分分析网络人脸识别算法
    2.4.4  实验及结果分析
  2.5  基于自动编码器的人脸生成与识别算法
    2.5.1  自动编码器原理
    2.5.2  基于稀疏渐进式堆叠自动编码器的姿态人脸矫正与识别
    2.5.3  基于深度二值自动编码器的人脸生成与识别
    2.5.4  基于对齐变分自动编码器的异质人脸生成与识别
    2.5.5  实验及结果分析
  2.6  本章小结
  本章参考文献
第3章  多源视觉信息感知与识别——运动目标分析
  3.1  运动目标分析问题
  3.2  基于循环神经网络的单目标检测与跟踪
    3.2.1  基于运动方向预测的单目标检测与跟踪
    3.2.2  基于自适应预测的单目标跟踪算法
    3.2.3  实验结果分析
  3.3  融合时空上下文的多目标跟踪
    3.3.1  多目标跟踪算法原理
    3.3.2  融合空间上下文的多目标跟踪量测生成方法
    3.3.3  融合时间上下文的多目标跟踪数据关联方法
    3.3.4  融合压缩描述的多目标跟踪算法
    3.3.5  实验结果分析
  3.4  本章小结
  本章参考文献
第4章  多源视觉信息感知与识别——行为识别
  4.1  行为识别问题
  4.2  行为视频输入处理
    4.2.1  基于片段—视频级特征融合的输入算法
    4.2.2  基于时域梯度的关键帧选取算法
    4.2.3  实验及结果分析
  4.3  基于耦合二值特征学习与关联约束的RGB-D行为识别特征
    4.3.1  基于耦合二值特征学习与关联约束的RGB-D行为特征
    4.3.2  基于局部二值特征的行为特征表达及识别
    4.3.3  实验结果分析
  4.4  基于图约束的RGB-D多模态特征联合表达
    4.4.1  稀疏图构造原理
    4.4.2  MSG-DNMF算法的设计与实现
    4.4.3  模型求解及收敛性
    4.4.4  RGB-D行为识别
    4.4.5  实验结果分析
  4.5  基于双流Siamese网络和中心对比损失的RGB-D行为识别
    4.5.1  Siamese网络结构
    4.5.2  基于双流Siamese网络的RGB-D行为识别
    4.5.3  推导及优化
    4.5.4  实验结果分析
  4.6  本章小结
  本章参考文献
第5章  多源视觉信息感知与识别——评测指标和数据集
  5.1  人脸识别算法的评测标准
    5.1.1  人脸识别评测指标
    5.1.2  人脸识别数据库
  5.2  目标跟踪评测指标
    5.2.1  目标跟踪评测指标
    5.2.2  目标跟踪数据库
  5.3  行为识别算法的评测标准
    5.3.1  行为识别评测指标
    5.3.2  行为识别数据库
  5.4  本章小结
  本章参考文献

内容摘要
第1章  绪论

多源视觉信息感知是指从模拟人类的思维模式和大脑皮层结构出发来指导模式识别的方法,使计算机能够具备类人化的视觉感知功能,实现与环境间不断学习、不断适应的演变过程。本章结合神经生理学、认知科学等学科的基本理论,首先介绍人类视觉感知系统的生理结构和功能特点。然后,提出基于计算机的视觉感知系统的框架和基本组成。为后续章节从策略到方法、从算法到模型的细致深入分析打下坚实的基础。

1.1  概述

人工智能在经历一个甲子的跌宕起伏之后,以深度神经网络为基础,大数据、云计算、智能终端为支撑,即将进入全面发展的新纪元。面对海量数据在存储和处理上超高速、移动化和普适化的迫切需求,基于单模态感知识别任务的专用人工智能已经成为掣肘该领域发展的重要瓶颈。2017年,美国白宫发表《为人工智能的未来做好准备》,英国发布《人工智能:未来决策制定的机遇和影响》,法国制定《国家人工智能战略》。我国更是将人工智能作为民族振兴和国家昌盛的重要技术保障写入了十九大报告,并先后刊发《人工智能标准化助力产业发展》《促进新一代人工智能产业发展三年行动计划(2018—2020)》《新一代人工智能发展规划》等政策文件,全面助力人工智能技术研究和产业化发展。

人脑认知中视觉信息占据70%以上。因此,计算机视觉被列为中国《人工智能标准化白皮书2018》中人工智能七大核心技术之一,而传统的单源感知识别无法满足人工智能背景下的通用化要求,以其中最有代表性的智慧城市建设中同时涉及的人脸识别、人体行为识别、运动目标检测跟踪等任务需求为例,视频采集摄像头种类繁多、规格各异,造成视频数据呈现海量多源异构性,亟需规整同构的视频特征描述方法和高效协同的识别机制,实现对目标、场景、行为、异常事件的准确识别。因此,面向多源视频信息的视觉感知识别机制可为未来智能信息推送和个性化控制服务的实现,奠定重要的理论基础。

所谓多源视频的感知识别研究是指基于生物视觉感知机理。提取多源异构视频数据的通用特征,结合适境理论进行特征关联学习和任务预测,建立具备长时记忆的深度感知识别网络,即实现语境层的视觉任务协同感知识别。例如:一段“食堂里小明向我打招呼”的视频片段中,达到识别多种视觉任务的效果,即识别场景(食堂)、目标(小明)、行为(打招呼)、表情(笑)等视觉任务,分别输出识别结果,实现实用化要求。然而,要实现真正意义上的强人工智能,首先要深入理解人脑认知机理,构建以视觉信息为基础、跨模态融合的多源视觉感知框架,结合脑认知机理更好地建设智能稳定的机器感知模型。

脑认知科学发现人类如何去看和理解所看到的事物,仅靠投射到视网膜上的光学刺激是非常有限的,人可以理解许多光学线条之外的信息,比如他发出什么声音、在什么地方出现、对人有什么功能,所有这些信息都存储在人脑中。因此,人们所关心的一个科学问题就是以视觉信息为主,同时包含声音、光照等环境信息的多源视频数据,如何能够模仿人在机器中紧致化地高效存储,实现对低层不同模态数据的完备性互补,提取蕴含环境信息的特征表达。

人脑的功能不仅能记忆信息,还能将人们所看到的事物作为知识进行理解。脑认知理论研究发现这些知识的产生源于人类感知和环境交互经验的累加。以所见牛为例,眼睛可以看到牛的形状和颜色源于视觉皮层对经验的存储,牛发出的声音放在听觉皮层,而牛的行为与环境动态变化密切相关。由此可见,一个简单的概念感知是分布在大脑不同区域的感官信息与环境持续交互反馈得到的结果,无法与环境隔离出来简单表达。因此,研究人类多源视觉感知机理,使计算机具备如人类般的识别和理解能力具有任重道远的重大意义。

不过,随着生物学、神经科学、认知科学等研究的逐步深入,从初级视皮层到高级视觉区域,从知识记忆到视觉功能相关的脑功能等,科学家均在相关领域取得了许多重要的研究成果,为多源视觉感知与识别的研究奠定了理论基础。本书将从计算机对视觉感知信息的预处理、特征提取和分类学习等方面研究人手,以提高感知信息的理解能力和海量异构信息的处理效率为目标,克服图像和视频处理所面临的困难,借助不同学科间的交叉优势,描述场景理解中基于多源视觉感知的热点技术问题及新的计算模型、方法及其典型应用。

在本章中,将简要介绍人类视觉感知系统框架和基本组成。

1.2人类视觉感知系统

视觉是人们感知外部世界最重要的途径之一。视觉信号通过视网膜接收后传递到大脑皮层进行加工处理,最终形成人们所意识的画面。目前为止,已有大量研究从不同水平角度探讨大脑如何对视觉信息进行加工和表征,但仍有很多未解的问题。视觉是人类感知外部世界获取信息最重要的途径之一。眼睛是接收视觉信息的“窗口”,事实上人类眼球的构造都相当于包含了镜头、感光芯片和图形处理器的数码相机,大脑则类似于对信息进行编码、解析、分类、整合、变换乃至赋予意义等操作的超级计算机。通常所说的视觉感知是指大脑对视觉信息进行加工处理的过程。视网膜接收到光的信息,转变为电信号后,再层层传递到大脑视觉皮层的各个脑区,进行更深入的加工处理,最终形成由神经活动表征的人们所意识的画面。                         

1.2.1  人类视觉感知系统的生理结构

人脑的视觉信息感知过程是一个层次化、递进式的完美阶段。神经生理学和解剖学的研究结果显示,视觉感知信息在人脑中有其特定的传递通路。首先,外界信息的信号通过视……




精彩内容
多源视觉信息感知是指从模拟人类的思维模式和大脑皮层结构出发来指导视觉模式识别任务的方法,使计算机能够具备类人化的视觉感知功能,实现与环境之间不断学习、不断适应的演变过程。本书结合神经生理学、认知科学等学科的基本理论,首先介绍人类视觉感知系统和多源视觉信息传感的生理结构及功能特点。然后,结合计算机视觉、机器学习、模式识别的相关理论,分析视觉感知识别中的人脸识别、运动目标分析、行为识别问题以及视觉感知任务的相关数据库及评测标准。本书适用于通信工程、信号与信息处理、计算机科学与技术、电子科学与技术等相关专业的硕士及博士研究生使用。

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP