• MATLAB图像、音频和视频处理基础:模式识别应用
  • MATLAB图像、音频和视频处理基础:模式识别应用
21年品牌 40万+商家 超1.5亿件商品

MATLAB图像、音频和视频处理基础:模式识别应用

全新正版 极速发货

58.7 6.6折 89 全新

库存2件

浙江嘉兴
认证卖家担保交易快速发货售后保障

作者(印)兰詹·帕雷克

出版社清华大学出版社

ISBN9787302605645

出版时间2022-09

装帧平装

开本16开

定价89元

货号31556918

上书时间2024-12-20

學源图书专营店

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
前言

本书通过程序实现的实际操作方法介绍了媒体处理的概念和原理及其在模式识别中的应用。本书的主要目的是让读者了解可以使用数据分析和可视化工具MATLAB来读取、修改和写入图像、音频和视频文件的工具和技术。本书是为学习图像处理、语音和语言处理、信号处理、视频目标检测和跟踪以及相关多媒体技术的毕业班大学生和研究生而写的,重点是使用编程结构和技能开发的实际实现。本书的特点是介绍了与媒体处理相关的技术及其各种应用的简明软件解释,以及相关的理论背景和实际实施步骤,同时避免了冗长的理论论述。本书也适用于模式识别、计算机视觉和基于内容的检索领域的研究人员,以及学习有关媒体处理、统计分析和数据可视化的MATLAB课程的学生。
MathWorks 公司的MATLAB是一种数据分析和可视化工具,适用于数值计算、算法开发和仿真应用。与其他同时期编程工具相比,MATLAB的一个优势是它存储了大量现成的函数,可用于广泛的媒体处理任务,这些任务可以直接包含在自定义应用程序和问题解决任务中,而无需任何额外的编程工作。因此,未来的程序员和学生有必要了解这些函数,以便在必要时使用它们,从而可以快速开发应用程序并减少工作量和时间。MATLAB函数一般分为两类: 基本集和扩展集。本书中称为基本MATLAB(BM)函数的基本集具有基本处理功能,如数据类型转换、算术关系运算和逻辑运算、代数和三角运算、插值和傅里叶分析、各种图形绘图和注释、文件I/O操作,以及不同类型的基本编程结构。由于已假设读者具备MATLAB的基本知识,并熟悉矩阵代数和三角学等基本数学运算,因此,本书并不打算向初学者讲授初级MATLAB,尽管在本书中首次使用函数的地方已经提供了函数的简明描述。
更专业的函数称为“工具箱”,它们扩展了为特定领域和应用场合定制的基本功能集。本书讨论了许多工具箱中的函数,用于说明各种媒体处理任务,分为图像处理、音频处理和视频处理3章。每个函数都使用示例进行了说明,同时将程序输出以图形的方式显示,以便于可视化。第4章讨论了前3章讨论的媒体处理任务在解决模式识别问题中的应用。在此过程中,本书深入研究了以下工具箱中一些常用函数的选定子集: 
 图像处理工具箱(IPT): 为图像处理、分析、可视化和算法开发提供一整套参考标准算法和应用工作流程。
 音频系统工具箱(AST): 为音频处理系统的设计、仿真和桌面原型设计提供算法和工具。
 计算机视觉系统工具箱(CVST): 提供用于设计和模拟计算机视觉和视频处理系统的算法、功能和应用程序。
 数字信号处理系统工具箱(DSPST): 提供设计、模拟和分析信号处理系统的算法和应用程序。
 统计和机器学习工具箱(SMLT): 提供用于描述、分析和建模数据的函数和应用程序。
 神经网络工具箱(NNT): 提供创建、训练、可视化和模拟神经网络的算法、预训练模型和应用程序。
 信号处理工具箱(SPT): 提供从均匀和非均匀采样信号中分析、预处理和提取特征的函数和应用程序。
 小波工具箱(WT): 提供使用基于小波的建模以分析和合成信号与图像的函数和应用程序。

 

 

 


因为本书的重点是让读者熟悉MATLAB函数,因此对理论概念介绍不多,只介绍与所讨论函数相关的概念。这与其他媒体处理书籍不同,这些书籍更多地关注于解释理论概念并将其中一些概念通过示例加以说明。此外,本书主要讨论用于执行各种媒体处理任务的MATLAB软件包的功能,并在必要时讨论了简短的相关理论部分,以理解基本概念。这使得本书能够以紧凑的方式呈现思想,读者无须阅读长篇大论就能快速理解。另外,本书通过解决具体数值问题的实例说明了这些特点,这有助于未来的学生和读者快速熟悉所有相关函数,并利用这些功能解决定制问题。本书将代码以简单的复制和执行格式提供,以方便初学者理解。代码的输出以图形和绘图的形式显示,以帮助学习者将结果可视化,以便快速吸收知识。根据相关工具箱中MATLAB函数的层次结构,对每章中的主题进行了排序。以下是每章各节涵盖的主要主题列表,从每章的第3节开始,大部分主题都用至少一个编码示例以及显示程序输出的可视化绘图进行了说明。

 

第1章讨论图像处理,共分为11节。1.1节介绍了基本概念,包括像素、数字化、二值图像、灰度图像、彩色图像、图像采集和输出设备、图像转换、图像调整、彩色模型、压缩方案和文件格式。1.2节列出了该章涵盖的基本函数和工具箱函数,并提供了一个包含五组约115个基本MATLAB函数的列表; 以及一个包含116个属于图像处理工具箱(IPT)函数的列表。IPT函数分为五类: 导入导出和转换、显示和探索、变换和配准、滤波和增强、分割和分析。1.3节涉及图像的导入、导出和转换,涵盖了诸如读取和写入图像数据,图像类型转换,二值化阈值和大津方法,图像量化和灰度,索引图像和抖动,使用无符号8位整数和64位双精度的图像表示,图像彩色表示、三刺激和色度值,sRGB和AdobeRGB彩色空间,RGB、CMY、XYZ、HSV、
L*a*b*表示之间的彩色转换,棋盘格和幻影等合成图像,图像噪声表示和高斯函数等主题。1.4节讨论了图像的显示和探索,涵盖了基本显示技术、图像融合和蒙太奇、图像序列和扭曲表面,以及交互式探索工具等主题。1.5节讨论了几何变换和图像配准,包括常见几何变换、仿射和投影变换、图像配准、协方差和相关性,以及缩放和插值等主题。1.6节涉及图像滤波和增强,涵盖了核、卷积、图像模糊、噪声滤波器、排序统计滤波器、盖伯滤波器、边缘检测算子、图像梯度和图像偏导数、对比度调整和伽马曲线、直方图均衡化、形态学运算、感兴趣区域和块处理、算术和逻辑运算、点扩展函数、反卷积、逆滤波器、维纳反卷积、露西理查森(LucyRichardson)反卷积和盲反卷积等主题。1.7节讨论了图像分割和分析,包括图像分割、目标分析、哈夫变换、四叉树分解、提取区域特性、像素连通性、纹理分析、灰度共生矩阵、图像质量、信噪比、均方误差、结构相似性指数、图像变换、离散傅里叶变换、离散余弦变换和离散小波变换等主题。1.8节讨论了频域处理,涵盖卷积定理、理想和高斯低通滤波器以及理想和高斯高通滤波器等主题。1.9节讨论了使用Simulink进行图像处理,并涵盖了用于图像类型转换、彩色转换、色调调整、边缘检测、几何变换、形态学操作和团点分析等任务的Simulink模型的开发等主题。1.10节和1.11节分别讨论了各种二维和三维绘图功能的句法、选项和参数,以及可视化数据分布及其定制内容。

 

第2章介绍音频处理,共分为11节。2.1节介绍了基本概念,包括声波特性(如振幅和频率)及其感知表示、即响度和音调,用于操纵环境声音的设备,如麦克风放大器和扬声器,立体声和单声道,音频数字化,采样和奈奎斯特采样定理,声卡组件,CD质量数字音频的特性,音频滤波,合成器和MIDI协议,压缩方案和文件格式。2.2节列出了该章涵盖的基本函数和工具箱函数,并提供了一个包含52个基本MATLAB函数的列表,这些函数分为五组。还有一个包含29个属于音频系统工具箱(AST)的函数的列表,这些函数分为五类: 音频I/O和波形生成,音频处理算法设计,测量和特征提取,仿真、调整和可视化,以及乐器数字接口(MIDI)。除了AST函数外,还列出了其他两个工具箱,即DSP系统工具箱(DSPST)和信号处理工具箱(SPT)。2.3节讨论了声波的研究和表征,涵盖了波形、相位、采样频率、混叠、正弦音调、复合音符、音频信号的傅里叶域表示、系数和基函数等主题。2.4节讨论了音频I/O和波形生成,包括读取和写入数字音频文件、绘制音频波形、记录和回放数字音频、示波器显示和波形表合成器等主题。2.5节讨论了音频处理算法设计,涵盖混响、噪声门、动态范围压缩器和扩展器以及交叉滤波器等主题。2.6节讨论了测量和特征提取,涵盖了基音、语音活动检测(VAD)、瞬时响度、短期响度和综合响度以及梅尔(Mel)频率倒谱系数(MFCC)等主题。2.7节介绍了仿真、调整和可视化,涵盖了时间范围、正弦波发生器、频谱分析仪和阵列图等主题。2.8节介绍了MIDI,并涵盖一些主题,如使用各种乐器声音播放MIDI音符。2.9节讨论了时间滤波器,涵盖了有限脉冲滤波器(FIR)、无限脉冲滤波器(IIR)和窗口函数等主题。2.10节涉及频谱滤波器,涵盖了频率表示、频谱图、变频信号、低通和高通FIR滤波器、低通和高通IIR滤波器、带阻和带通FIR滤波器以及带阻和带通IIR滤波器等主题。2.11节介绍了使用Simulink进行音频处理,并涵盖了诸如为混响、噪声门、交叉滤波器、VAD、响度测量仪和频谱等任务开发Simulink模型等主题。
第3章讨论视频处理,共分为8节。3.1节介绍了视频帧、帧速率、运动错觉、光栅扫描、隔行扫描、分量视频信号、合成视频信号、亮度和色度、RGB到YC信号格式的转换以及色度亚采样等基本概念。3.2节列出了本章涵盖的基本函数和工具箱函数,并提供了一个包含约21个基本MATLAB函数的列表,这些函数分为五组。还提供了一个属于计算机视觉系统工具箱(CVST)的20个函数的列表,这些函数分为三类: 输入、输出和图形,对象检测和识别,目标跟踪和运动估计。3.3节涉及视频输入输出和播放,包括读取和写入视频文件、视频帧子集的显示和播放以及从图像集合创建电影等主题。3.4节涉及视频帧的处理,包括创建用于存储视频帧的4D结构,将图像和视频帧互相转换,在视频帧的特定位置插入文本,以指定帧速率选择性播放帧,将视频帧从彩色转换为灰度和二进制版本,以及对视频帧应用图像滤波器。3.5节涉及视频彩色空间,包括RGB与YCbCr彩色空间的互相转换,RGB与NTSC彩色空间的互相转换,以及RGB与PAL彩色空间的互相转换。3.6节介绍了目标检测,包括团点检测器、前景检测器、人体检测器、人脸检测器和光学文字识别等主题。3.7节讨论了运动跟踪,涵盖了基于直方图的跟踪器、光流、点跟踪器、卡尔曼滤波器和块匹配器等主题。3.8节介绍了使用Simulink的视频处理,包括视频彩色空间转换、几何变换、彩色到灰度和二进制转换,以及将图像滤波器应用于视频帧等主题。

 

第4章讨论模式识别,共分为8节。4.1节介绍了基本概念,包括聚类、分类、监督学习、无监督学习、训练阶段、测试阶段、特征向量、特征空间和相似性度量。4.2节列出了本章涵盖的基本函数和工具箱函数,并列出了属于计算机视觉系统工具箱(CVST)的10个函数和属于统计和机器学习工具箱(SMLT)的26个函数。4.3节涉及数据采集,包括将工作空间变量保存到MAT文件、将变量从MAT文件加载到工作空间、使用FisherIris数据集、从任意文件夹读取多个媒体文件以及使用图像数据存储等主题。4.4节讨论了预处理,包括媒体类型转换、彩色转换、几何变换、色调校正、噪声滤波、边缘检测、形态学操作、目标分割以及时间和光谱滤波等主题。4.5节介绍了特征提取方法,包括最小本征值法、哈里斯角点检测器、加速分段测试特征(FAST)算法、最大稳定极值区域(MSER)算法、加速鲁棒特征(SURF)算法、KAZE算法、二进制鲁棒不变可伸缩关键点(BRISK)算法、局部二进制模式(LBP)算法和梯度方向直方图(HOG)算法。4.6节讨论了聚类,涵盖了相似性测度、k均值聚类算法、k中心点聚类算法、分层聚类算法和基于GMM的聚类算法等主题。4.7节涉及分类,涵盖了kNN分类器、人工神经网络(ANN)分类器、决策树分类器、鉴别分析分类器、朴素贝叶斯分类器、支持向量机(SVM)分类器和分类学习器应用程序等主题。4.8节涉及性能评估,包括剪影值、卡林斯基哈拉巴斯指数和混淆矩阵等主题。

 

由于图像处理、音频处理和视频处理在模式识别、计算机视觉、目标检测、人工智能、语音和说话人识别、语音激活、视频监控、人脸识别、车辆跟踪、运动估计等的广泛应用,相关课程在全世界都有需求,本书对大多数人来说都是有用的。本书末尾包含一个函数汇总,提供了本书中讨论的大约400个MATLAB函数,并按字母顺序排序,同时给出了它们的原始工具箱并对每一个函数给出了一行描述,以便读者参考。本书提供了75条参考文献,包括专著和研究论文,供读者进一步阅读本书中讨论的各种算法、标准和方法。每章结尾都有一组用于自我评估的复习问题。本书包含大约250个已解示例及其相应的MATLAB代码。虽然这些代码是在2018版MATLAB中进行的测试,但其中大多数代码能在2015版及其后的版本中正确执行。粗体字用于突出每个章节中讨论的重要理论/概念术语。本书中有100多个这样的术语。蓝色粗体文本用于表示首次出现的MATLAB函数名。本书讨论了400多个MATLAB函数。读者可使用MATLAB帮助工具获取有关所讨论函数的更多信息。本书提供了超过300幅彩图,以帮助读者直观地可视化程序输出。
鼓励所有读者提供有关本书内容以及任何遗漏或打字错误的反馈。
Ranjan ParekhJadavpur University

 

 

 

 



 
 
 
 

商品简介

本书基于MATLAB编程以及实践案例,介绍多媒体(图像、音频、视频)处理的概念和原理及其在模式识别中的应用,帮助读者掌握读取、修改和写入图像、音频和视频文件的工具和技术。本书内容覆盖广泛全面,包括MATLAB/Simulink基础知识、各类绘图函数,以及图像处理、信号处理、小波、音频系统、信号处理系统、计算机视觉系统、统计和机器学习、神经网络工具箱等。 本书可作为多媒体处理、统计分析和数据可视化等MATLAB相关课程的教材,也可作为模式识别、计算机视觉和基于内容的检索领域的科研人员和工程技术人员的参考书。



作者简介
    章毓晋,1989年获比利时列日大学应用科学博士学位。1989年至1993年先后为荷兰德尔夫特大学博士后及研究人员。1993年到清华大学工作,1997年起被聘为教授,1998年起被聘为博士生导师,2014年起被聘为教学科研系列的“长聘教授”。已在国内外发表了500多篇图像工程研究论文,出版了30多本教材和专著。现为中国图象图形学学会副理事长,该学会学术委员会主任。国际光学工程协会(SPIE)会士(因在图像工程方面的成就);第24届国际图像处理会议(ICIP 2017)程序委员会主席。

目录
第1章  图像处理
  1.1  引言
  1.2  工具箱和函数
    1.2.1  基本MATLAB
(BM)函数
    1.2.2  图像处理工具箱
(IPT)函数
    1.2.3  信号处理工具箱
(SPT)函数
    1.2.4  小波工具箱(WT)
函数
  1.3  导入导出和转换
    1.3.1  读和写图像数据
    1.3.2  图像类型转换
    1.3.3  图像彩色
    1.3.4  合成图像
  1.4  显示和探索
    1.4.1  基本显示
    1.4.2  交互探索
    1.4.3  构建交互工具
  1.5  几何变换和图像配准
    1.5.1  常用几何变换
    1.5.2  仿射和投影变换
    1.5.3  图像配准
  1.6  图像滤波和增强
    1.6.1  图像滤波
    1.6.2  边缘检测
    1.6.3  对比度调整
    1.6.4  形态学操作
    1.6.5  ROI和块处理
    1.6.6  图像算术
    1.6.7  去模糊
  1.7  图像分割和分析
    1.7.1  图像分割
    1.7.2  目标分析
    1.7.3  区域和图像特性
    1.7.4  纹理分析
    1.7.5  图像质量
    1.7.6  图像变换
  1.8  在频域中处理
  1.9  Simulink图像处理
  1.10  关于二维绘图函数的
注记
  1.11  关于三维绘图函数的
注记
复习问题
第2章  音频处理
  2.1  引言
  2.2  工具箱和函数
    2.2.1  基本MATLAB

内容摘要
 本书基于MATLAB编程以及实践案例,介绍多媒体(图像、音频、视频)处理的概念和原理及其在模式识别中的应用,帮助读者掌握读取、修改和写入图像、音频和视频文件的工具和技术。本书内容覆盖广泛全面,包括MATLAB/Simulink基础知识、各类绘图函数,以及图像处理、信号处理、小波、音频系统、信号处理系统、计算机视觉系统、统计和机器学习、神经网络工具箱等。
本书可作为多媒体处理、统计分析和数据可视化等MATLAB相关课程的教材,也可作为模式识别、计算机视觉和基于内容的检索领域的科研人员和工程技术人员的参考书。

主编推荐

本书采用程序实现的实际操作方法,介绍多媒体处理的概念和原理及其在模式识别中的应用,包括使用数据分析和可视化工具MATLAB读取、修改和写入图像、音频和视频文件的工具和技术。
主要特点:
(1)涵盖图像、音频和视频处理的基本概念。
(2)演示如何使用MATLAB解决媒体处理问题。
(3)讨论图像处理工具箱、音频系统工具箱和计算机视觉工具箱的重要功能。
(4)提供特定问题的MATLAB代码作为答案。
(5)展示使用Simulink进行音频和视频处理。
(6)覆盖时空域和频域中的处理技术。
本书是本科高年级生和研究生学习图像处理、语音和语言处理、信号处理、视频目标检测和跟踪以及相关多媒体技术课程的完美伴侣,重点是使用编程结构和技能开发的实际实现。本书还适合模式识别、计算机视觉和基于内容检索领域的研究人员,以及学习多媒体处理、统计分析和数据可视化的MATLAB课程的学生。


【内容简介】

精彩内容
 第3章视频处理3.1引言
视频是图像和音频的组合,因此一般而言
,只要对图像和音频有效的理论和应用,通常也
对视频有效。视频由一组称为帧的静止图像组成,这些图像以称为帧率的特定速度一个接一个地显示给用户,以每秒帧数为单位,缩写为fps。
如果以足够快的速度显示,人眼无法将单幅图像区分为单独的实体,而是将连续图像合并在一起,从而产生活动图像的错觉,这种现象称为视觉暂留(PoV)。已经观察到帧率应该在25~30fps,以便让人眼感知没有间隙或抖动的平滑运动。
添加音频并与图像的活动同步可以创建完整的视频序列。因此,一个视频文件是由多个图像帧和一个或多个音轨组成。同时处理如此多信息的一
个缺点是文件大小增加,需要大量处理资源来处置它们。例如,一个一分钟的视频文件由30帧组成,每帧大小为640×480像素,并使用24位彩色信息,则占用的空间超过1582MB。以44100Hz采样的音频每分钟为文件增加10MB。此外,播放视频文件需要大约30MB/s的带宽。因此,压缩方案对于视频处理如此大的开销非常重要。
为了创建数字视频,我们首先需要将视觉和音频信息以电信号的形式记录在磁带或磁盘上。用于指定这种表示形式的术语是运动视频,以将其与电影院中使用的另一种称为运动图片的表示形式区分开,后者在电影院中使用光化学过程将视频帧记录到赛璐珞胶片上。电子信号形式的运动视频由模拟摄像机生成并存储在磁带(如录像带)中,然后使用录像带播放器(VCP)进行播放。电视传输也是运动视频显示的流行示例。
早期的模拟摄像机使用称为阴极射线管(CRT)的真空管来生成这些信号,然后可以将这些信号馈送到监视器以显示视频,而音频则使用麦克风单独录制并馈送到扬声器以生成声音。单色或灰度视频需要来自摄像机的单个强度信号作为视觉信息以及一两个音频信号,具体取决于播放的声音是单声道还是立体声。为了在CRT监视器屏幕上显示图像,来自阴极的电子束被激活并聚焦在涂有荧光粉的屏幕上发光。磷光体是一种化学物质,当它与电子等带电粒子接触时会发出光芒。
为了在屏幕上生成图像,电子束从屏幕的左上角开始,从左到右依次扫描第一行荧光点。在每条水平线的末尾,光束对角移动到下一行的开头并开始跟踪操作。在右下角,光束对角移动到左上角的起点,并再次重复该操作。这个过程称为光栅扫描,通常每秒需完成大约60次以获得屏幕上稳定的画面,这称为显示器的刷新率,屏幕上产生的每幅图像称为一帧。支持60帧/秒的监视器会产生不闪烁的图像,称为逐行扫描监视器。另

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP