全新正版现货,以书名为准,放心购买,购书咨询18931383650朱老师
¥ 28.3 5.9折 ¥ 48 全新
仅1件
作者明悦
出版社北京邮电大学出版社有限公司
ISBN9787563561780
出版时间2020-08
装帧平装
开本16开
定价48元
货号9888723
上书时间2024-09-12
明悦,女,博士学位。北京邮电大学副教授,博士生导师。现就职于北京邮电大学电子工程学院信息电子技术与智能系统研究中心。长期从事图像视频处理、模式识别以及机器学习方面的研究工作,主持国家自然科学基金1项、曾参加过博士点基金、973国家重点基础研究发展计划等项目。近期以第一作者身份发表相关论文30余篇,其中SCI检索10篇,申请发明专利10项,其中已授权3项。担任IEEE Transactions on Image Processing, Neurocomputing, IEEE Signal Process Letters, International Journal of Computer Systems Science and Engineering等国际期刊审稿人。
第1章 绪论
多源视觉信息感知是指从模拟人类的思维模式和大脑皮层结构出发来指导模式识别的方法,使计算机能够具备类人化的视觉感知功能,实现与环境间不断学习、不断适应的演变过程。本章结合神经生理学、认知科学等学科的基本理论,首先介绍人类视觉感知系统的生理结构和功能特点。然后,提出基于计算机的视觉感知系统的框架和基本组成。为后续章节从策略到方法、从算法到模型的细致深入分析打下坚实的基础。
1.1 概述
人工智能在经历一个甲子的跌宕起伏之后,以深度神经网络为基础,大数据、云计算、智能终端为支撑,即将进入全面发展的新纪元。面对海量数据在存储和处理上超高速、移动化和普适化的迫切需求,基于单模态感知识别任务的专用人工智能已经成为掣肘该领域发展的重要瓶颈。2017年,美国白宫发表《为人工智能的未来做好准备》,英国发布《人工智能:未来决策制定的机遇和影响》,法国制定《国家人工智能战略》。我国更是将人工智能作为民族振兴和国家昌盛的重要技术保障写入了十九大报告,并先后刊发《人工智能标准化助力产业发展》《促进新一代人工智能产业发展三年行动计划(2018—2020)》《新一代人工智能发展规划》等政策文件,全面助力人工智能技术研究和产业化发展。
人脑认知中视觉信息占据70%以上。因此,计算机视觉被列为中国《人工智能标准化白皮书2018》中人工智能七大核心技术之一,而传统的单源感知识别无法满足人工智能背景下的通用化要求,以其中最有代表性的智慧城市建设中同时涉及的人脸识别、人体行为识别、运动目标检测跟踪等任务需求为例,视频采集摄像头种类繁多、规格各异,造成视频数据呈现海量多源异构性,亟需规整同构的视频特征描述方法和高效协同的识别机制,实现对目标、场景、行为、异常事件的准确识别。因此,面向多源视频信息的视觉感知识别机制可为未来智能信息推送和个性化控制服务的实现,奠定重要的理论基础。
所谓多源视频的感知识别研究是指基于生物视觉感知机理。提取多源异构视频数据的通用特征,结合适境理论进行特征关联学习和任务预测,建立具备长时记忆的深度感知识别网络,即实现语境层的视觉任务协同感知识别。例如:一段“食堂里小明向我打招呼”的视频片段中,达到识别多种视觉任务的效果,即识别场景(食堂)、目标(小明)、行为(打招呼)、表情(笑)等视觉任务,分别输出识别结果,实现实用化要求。然而,要实现真正意义上的强人工智能,首先要深入理解人脑认知机理,构建以视觉信息为基础、跨模态融合的多源视觉感知框架,结合脑认知机理更好地建设智能稳定的机器感知模型。
脑认知科学发现人类如何去看和理解所看到的事物,仅靠投射到视网膜上的光学刺激是非常有限的,人可以理解许多光学线条之外的信息,比如他发出什么声音、在什么地方出现、对人有什么功能,所有这些信息都存储在人脑中。因此,人们所关心的一个科学问题就是以视觉信息为主,同时包含声音、光照等环境信息的多源视频数据,如何能够模仿人在机器中紧致化地高效存储,实现对低层不同模态数据的完备性互补,提取蕴含环境信息的特征表达。
人脑的功能不仅能记忆信息,还能将人们所看到的事物作为知识进行理解。脑认知理论研究发现这些知识的产生源于人类感知和环境交互经验的累加。以所见牛为例,眼睛可以看到牛的形状和颜色源于视觉皮层对经验的存储,牛发出的声音放在听觉皮层,而牛的行为与环境动态变化密切相关。由此可见,一个简单的概念感知是分布在大脑不同区域的感官信息与环境持续交互反馈得到的结果,无法与环境隔离出来简单表达。因此,研究人类多源视觉感知机理,使计算机具备如人类般的识别和理解能力具有任重道远的重大意义。
不过,随着生物学、神经科学、认知科学等研究的逐步深入,从初级视皮层到高级视觉区域,从知识记忆到视觉功能相关的脑功能等,科学家均在相关领域取得了许多重要的研究成果,为多源视觉感知与识别的研究奠定了理论基础。本书将从计算机对视觉感知信息的预处理、特征提取和分类学习等方面研究人手,以提高感知信息的理解能力和海量异构信息的处理效率为目标,克服图像和视频处理所面临的困难,借助不同学科间的交叉优势,描述场景理解中基于多源视觉感知的热点技术问题及新的计算模型、方法及其典型应用。
在本章中,将简要介绍人类视觉感知系统框架和基本组成。
1.2人类视觉感知系统
视觉是人们感知外部世界最重要的途径之一。视觉信号通过视网膜接收后传递到大脑皮层进行加工处理,最终形成人们所意识的画面。目前为止,已有大量研究从不同水平角度探讨大脑如何对视觉信息进行加工和表征,但仍有很多未解的问题。视觉是人类感知外部世界获取信息最重要的途径之一。眼睛是接收视觉信息的“窗口”,事实上人类眼球的构造都相当于包含了镜头、感光芯片和图形处理器的数码相机,大脑则类似于对信息进行编码、解析、分类、整合、变换乃至赋予意义等操作的超级计算机。通常所说的视觉感知是指大脑对视觉信息进行加工处理的过程。视网膜接收到光的信息,转变为电信号后,再层层传递到大脑视觉皮层的各个脑区,进行更深入的加工处理,最终形成由神经活动表征的人们所意识的画面。
1.2.1 人类视觉感知系统的生理结构
人脑的视觉信息感知过程是一个层次化、递进式的完美阶段。神经生理学和解剖学的研究结果显示,视觉感知信息在人脑中有其特定的传递通路。首先,外界信息的信号通过视……
— 没有更多了 —
以下为对购买帮助不大的评价