作者胡航 著
出版社电子工业出版社
出版时间2014-07
版次01
装帧平装
货号w1-3
上书时间2024-11-25
商品详情
- 品相描述:九品
图书标准信息
-
作者
胡航 著
-
出版社
电子工业出版社
-
出版时间
2014-07
-
版次
01
-
ISBN
9787121226250
-
定价
65.00元
-
装帧
平装
-
开本
16开
-
纸张
胶版纸
-
页数
440页
-
字数
750千字
-
正文语种
简体中文
-
丛书
工业和信息产业科技与教育专著出版资金资助出版
- 【内容简介】
-
本书系统介绍了语音信号处理的基础、原理、方法、应用、新理论、新成果与新技术,以及该研究领域的背景知识、研究现状、应用前景和发展趋势。
全书分三篇共17章。第一篇语音信号处理基础,包括第1章绪论,第2章语音信号处理的基础知识;第二篇语音信号分析,包括第3章时域分析,第4章短时傅里叶分析,第5章倒谱分析与同态滤波,第6章线性预测分析,第7章语音信号的非线性分析,第8章语音特征参数检测与估计,第9章矢量量化,第10章隐马尔可夫模型;第三篇语音信号处理技术与应用,包括第11章语音编码,第12章语音合成,第13章语音识别,第14章说话人识别和语种辨识,第15章智能信息处理技术在语音信号处理中的应用,第16章语音增强,第17章基于麦克风阵列的语音信号处理。
本书体系完整,结构严谨;系统性强,层次分明;内容深入浅出,原理阐述透彻;取材广泛,繁简适中;内容丰富而新颖;联系实际应用。
- 【作者简介】
-
胡航,博士,哈尔滨工业大学电子信息学院副教授,主要教授《信号与系统》、《数字信号处理》等课程,研究方向为现代语音信号处理。
- 【目录】
-
目 录
第一篇 语音信号处理基础
第1章 绪论1
1.1 语音信号处理的发展历史1
1.2 语音信号处理的主要研究内容及发展
概况3
1.3 本书的内容7
思考与复习题8
第2章 语音信号处理的基础知识9
2.1 概述9
2.2 语音产生的过程9
2.3 语音信号的特性12
2.3.1 语言和语音的基本特性12
2.3.2 语音信号的时间波形和频谱特性13
2.3.3 语音信号的统计特性15
2.4 语音产生的线性模型16
2.4.1 激励模型17
2.4.2 声道模型18
2.4.3 辐射模型20
2.4.4 语音信号数字模型21
2.5 语音产生的非线性模型22
2.5.1 FM-AM模型的基本原理22
2.5.2 Teager能量算子22
2.5.3 能量分离算法23
2.5.4 FM-AM模型的应用24
2.6 语音感知24
2.6.1 听觉系统24
2.6.2 神经系统25
2.6.3 语音感知26
思考与复习题29
第二篇 语音信号分析
第3章 时域分析30
3.1 概述30
3.2 数字化和预处理31
3.2.1 取样率和量化字长的选择31
3.2.2 预处理33
3.3 短时能量分析34
3.4 短时过零分析36
3.5 短时相关分析39
3.5.1 短时自相关函数39
3.5.2 修正的短时自相关函数40
3.5.3 短时平均幅差函数42
3.6 语音端点检测42
3.6.1 双门限前端检测43
3.6.2 多门限过零率前端检测43
3.6.3 基于FM-AM模型的端点检测43
3.7 基于高阶累积量的语音端点检测44
3.7.1 噪声环境下的端点检测44
3.7.2 高阶累积量与高阶谱44
3.7.3 基于高阶累积量的端点检测46
思考与复习题48
第4章 短时傅里叶分析50
4.1 概述50
4.2 短时傅里叶变换50
4.2.1 短时傅里叶变换的定义50
4.2.2 傅里叶变换的解释51
4.2.3 滤波器的解释54
4.3 短时傅里叶变换的取样率55
4.4 语音信号的短时综合56
4.4.1 滤波器组求和法56
4.4.2 FFT求和法58
4.5 语谱图59
思考与复习题61
第5章 倒谱分析与同态滤波62
5.1 概述62
5.2 同态信号处理的基本原理62
5.3 复倒谱和倒谱63
5.4 语音信号两个卷积分量复倒谱的性质64
5.4.1 声门激励信号64
5.4.2 声道冲激响应序列65
5.5 避免相位卷绕的算法66
5.5.1 微分法67
5.5.2 最小相位信号法67
5.5.3 递推法69
5.6 语音信号复倒谱分析实例70
5.7 Mel频率倒谱系数72
思考与复习题73
第6章 线性预测分析74
6.1 概述74
6.2 线性预测分析的基本原理74
6.2.1 基本原理74
6.2.2 语音信号的线性预测分析75
6.3 线性预测方程组的建立76
6.4 线性预测分析的解法(1)―自相关和
协方差法77
6.4.1 自相关法78
6.4.2 协方差法79
6.4.3 自相关和协方差法的比较80
6.5 线性预测分析的解法(2)―格型法81
6.5.1 格型法基本原理81
6.5.2 格型法的求解83
6.6 线性预测分析的应用―LPC谱估计和
LPC复倒谱85
6.6.1 LPC谱估计85
6.6.2 LPC复倒谱87
6.6.3 LPC谱估计与其他谱分析方法的
比较88
6.7 线谱对(LSP)分析89
6.7.1 线谱对分析原理89
6.7.2 线谱对参数的求解91
6.8 极零模型91
思考与复习题93
第7章 语音信号的非线性分析94
7.1 概述94
7.2 时频分析94
7.2.1 短时傅里叶变换的局限95
7.2.2 时频分析96
7.3 小波分析97
7.3.1 概述97
7.3.2 小波变换的定义97
7.3.3 典型的小波函数99
7.3.4 离散小波变换100
7.3.5 小波多分辨分析与Mallat算法100
7.4 基于小波的语音分析101
7.4.1 语音分解与重构101
7.4.2 清/浊音判断102
7.4.3 语音去噪102
7.4.4 听觉系统模拟103
7.4.5 小波包变换在语音端点检测中的
应用103
7.5 混沌与分形104
7.6 基于混沌的语音分析105
7.6.1 语音信号的混沌性105
7.6.2 语音信号的相空间重构106
7.6.3 语音信号的Lyapunov指数108
7.6.4 基于混沌的语音、噪声判别109
7.7 基于分形的语音分析110
7.7.1 概述110
7.7.2 语音信号的分形特征111
7.7.3 基于分形的语音分割112
思考与复习题113
第8章 语音特征参数估计114
8.1 基音估计114
8.1.1 自相关法115
8.1.2 并行处理法117
8.1.3 倒谱法118
8.1.4 简化逆滤波法120
8.1.5 高阶累积量法122
8.1.6 小波变换法123
8.1.7 基音检测的后处理124
8.2 共振峰估计125
8.2.1 带通滤波器组法125
8.2.2 DFT法126
8.2.3 倒谱法127
8.2.4 LPC法129
8.2.5 FM-AM模型法130
思考与复习题131
第9章 矢量量化132
9.1 概述132
9.2 矢量量化的基本原理133
9.3 失真测度134
9.3.1 欧氏距离―均方误差135
9.3.2 LPC失真测度135
9.3.3 识别失真测度137
9.4 最佳矢量量化器和码本的设计137
9.4.1 矢量量化器最佳设计的两个条件137
9.4.2 LBG算法138
9.4.3 初始码书生成138
9.5 降低复杂度的矢量量化系统139
9.5.1 无记忆的矢量量化系统140
9.5.2 有记忆的矢量量化系统142
9.6 语音参数的矢量量化144
9.7 模糊矢量量化145
9.7.1 模糊集概述146
9.7.2 模糊矢量量化147
9.8 遗传矢量量化148
9.8.1 遗传算法148
9.8.2 遗传矢量量化150
思考与复习题151
第10章 隐马尔可夫模型152
10.1 概述152
10.2 隐马尔可夫模型的引入153
10.3 隐马尔可夫模型的定义155
10.4 隐马尔可夫模型三个问题的求解156
10.4.1 概率的计算157
10.4.2 HMM的识别159
10.4.3 HMM的训练160
10.4.4 EM算法161
10.5 HMM的选取162
10.5.1 HMM的类型选择162
10.5.2 输出概率分布的选取163
10.5.3 状态数的选取163
10.5.4 初值选取163
10.5.5 训练准则的选取165
10.6 HMM应用与实现中的一些问题166
10.6.1 数据下溢166
10.6.2 多输出(观察矢量序列)情况166
10.6.3 训练数据不足167
10.6.4 考虑状态持续时间的HMM168
10.7 HMM的结构和类型170
10.7.1 HMM的结构170
10.7.2 HMM的类型172
10.7.3 按输出形式分类173
10.8 HMM的相似度比较174
思考与复习题175
第三篇 语音信号处理技术与应用
第11章 语音编码176
11.1 概述176
11.2 语音信号的压缩编码原理178
11.2.1 语音压缩的基本原理178
11.2.2 语音通信中的语音质量179
11.2.3 两种压缩编码方式180
11.3 语音信号的波形编码180
11.3.1 PCM及APCM180
11.3.2 预测编码及自适应预测编码183
11.3.3 ADPCM及ADM185
11.3.4 子带编码(SBC)187
11.3.5 自适应变换编码(ATC)189
11.4 声码器191
11.4.1 概述191
11.4.2 声码器的基本结构192
11.4.3 通道声码器192
11.4.4 同态声码器194
11.5 LPC声码器195
11.5.1 LPC参数的变换与量化196
11.5.2 LPC-10197
11.5.3 LPC-10e198
11.5.4 变帧率LPC声码器199
11.6 各种常规语音编码方法的比较200
11.6.1 波形编码的信号压缩技术200
11.6.2 波形编码与声码器的比较200
11.6.3 各种声码器的比较201
11.7 基于LPC模型的混合编码201
11.7.1 混合编码采用的技术202
11.7.2 MPLPC204
11.7.3 RPELPC207
11.7.4 CELP209
11.7.5 CELP的改进形式211
11.7.6 基于分形码本的CELP213
11.8 基于正弦模型的混合编码214
11.8.1 正弦变换编码215
11.8.2 多带激励(MBE)编码215
11.9 极低速率语音编码217
11.9.1 400~1.2kb/s数码率的声码器217
11.9.2 识别-合成型声码器218
11.10 语音编码的性能指标219
11.11 语音编码的质量评价221
11.11.1 主观评价方法221
11.11.2 客观评价方法222
11.11.3 主客观评价方法的结合225
11.11.4 基于多重分形的语音质量评价226
11.12 语音编码国际标准227
11.13 语音编码与图像编码的关系228
小结229
思考与复习题229
第12章 语音合成231
12.1 概述231
12.2 语音合成原理232
12.2.1 语音合成的方法232
12.2.2 语音合成的系统特性234
12.3 共振峰合成235
12.3.1 共振峰合成原理235
12.3.2 共振峰合成实例237
12.4 LPC合成237
12.5 PSOLA语音合成239
12.5.1 概述239
12.5.2 PSOLA的原理240
12.5.3 PSOLA的实现240
12.5.4 PSOLA的改进242
12.5.5 PSOLA语音合成系统的发展243
12.6 文语转换系统243
12.6.1 组成与结构243
12.6.2 文本分析244
12.6.3 韵律控制245
12.6.4 语音合成248
12.6.5 TTS系统的一些问题248
12.7 基于HMM的参数化语音合成249
12.8 语音合成的研究现状和发展趋势253
12.9 语音合成硬件简介255
思考与复习题256
第13章 语音识别257
13.1 概述257
13.2 语音识别原理260
13.3 动态时间规整264
13.4 基于有限状态矢量量化的语音识别266
13.5 孤立词识别系统267
13.6 连接词识别270
13.6.1 基本原理270
13.6.2 基于DTW的连接词识别271
13.6.3 基于HMM的连接词识别273
13.6.4 基于分段K-均值的最佳词串分割及
模型训练273
13.7 连续语音识别274
13.7.1 连续语音识别存在的困难274
13.7.2 连续语音识别的训练及识别方法275
13.7.3 连续语音识别的整体模型276
13.7.4 基于HMM统一框架的大词汇非特定
人连续语音识别277
13.7.5 声学模型278
13.7.6 语言学模型280
13.7.7 最优路径搜索282
13.8 说话人自适应284
13.8.1 MAP算法285
13.8.2 基于变换的自适应方法285
13.8.3 基于说话人分类的自适应方法286
13.9 鲁棒的语音识别287
13.10 关键词确认289
13.11 可视语音识别291
13.11.1 概述291
13.11.2 机器自动唇读291
13.11.3 双模态语音识别293
13.12 语音理解296
13.12.1 MAP语义解码297
13.12.2 语义结构的表示297
13.12.3 意图解码器298
小结299
思考与复习题299
第14章 说话人识别300
14.1 概述300
14.2 特征选取301
14.2.1 说话人识别所用的特征301
14.2.2 特征类型的优选准则302
14.2.3 常用的特征参数303
14.3 说话人识别系统303
14.3.1 说话人识别系统的结构303
14.3.2 说话人识别的基本方法概述304
14.4 说话人识别系统实例305
14.4.1 DTW型说话人识别系统305
14.4.2 应用VQ的说话人识别系统306
14.5 基于HMM的说话人识别307
14.6 基于GMM的说话人识别310
14.7 说话人识别中需进一步研究的问题312
14.8 语种辨识313
思考与复习题316
第15章 智能信息处理技术在语音信号
处理中的应用317
15.1 人工神经网络317
15.1.1 概述317
15.1.2 神经网络的基本概念319
15.2 神经网络的模型结构320
15.2.1 单层感知机320
15.2.2 多层感知机321
15.2.3 自组织映射神经网络323
15.2.4 时延神经网络324
15.2.5 循环神经网络325
15.3 神经网络与传统方法的结合325
15.3.1 概述325
15.3.2 神经网络与DTW326
15.3.3 神经网络与VQ326
15.3.4 神经网络与HMM327
15.4 神经网络语音识别328
15.4.1 静态语音识别328
15.4.2 连续语音识别330
15.5 基于神经网络的说话人识别330
15.6 基于神经网络的语音信号非线性预测
编码332
15.6.1 语音信号的非线性预测332
15.6.2 基于MLP的非线性预测编码333
15.6.3 基于RNN的非线性预测编码334
15.7 基于神经网络的语音合成335
15.8 支持向量机336
15.8.1 概述336
15.8.2 支持向量机的基本原理337
15.9 基于支持向量机的语音分类识别339
15.10 基于支持向量机的说话人识别340
15.10.1 基于支持向量机的说话人辨认340
15.10.2 基于支持向量机的说话人确认340
15.11 基于混沌神经网络的语音识别342
15.11.1 混沌神经网络342
15.11.2 基于混沌神经网络的语音识别342
15.12 分形在语音识别中的应用344
15.13 智能优化算法在语音信号处理中的
应用344
15.14 各种智能信息处理技术的融合与
集成346
15.14.1 模糊系统与神经网络的融合347
15.14.2 神经网络与遗传算法的融合347
15.14.3 模糊逻辑、神经网络及遗传算法的
融合348
15.14.4 神经网络、模糊逻辑及混沌的
融合349
15.14.5 混沌与遗传算法的融合349
思考与复习题350
第16章 语音增强351
16.1 概述351
16.2 语音、人耳感知及噪声的特性352
16.3 滤波器法354
16.3.1 固定滤波器354
16.3.2 变换技术354
16.3.3 自适应噪声对消354
16.4 非线性处理357
16.5 基于相关特性的语音增强358
16.6 减谱法359
16.6.1 减谱法的基本原理359
16.6.2 减谱法的改进形式360
16.7 基于Wiener滤波的语音增强361
16.8 基于语音产生模型的语音增强362
16.9 基于小波的语音增强364
16.9.1 概述364
16.9.2 基于小波的语音增强364
16.9.3 基于小波包的语音增强366
16.10 基于信号子空间分解的语音增强367
16.11 语音增强的一些新发展370
小结371
思考与复习题372
第17章 基于麦克风阵列的语音信号
处理373
17.1 概述373
17.2 麦克风阵列语音处理技术的难点374
17.3 声源定位375
17.3.1 去混响375
17.3.2 近场模型376
17.3.3 声源定位377
17.4 语音增强381
17.4.1 概述381
17.4.2 方法与技术382
17.4.3 应用386
17.4.4 本节小结387
17.5 语音盲分离387
17.5.1 瞬时线性混合模型388
17.5.2 卷积混合模型393
17.5.3 非线性混合模型395
17.5.4 需进一步研究的问题396
思考与复习题396
汉英名词术语对照398
参考文献407
点击展开
点击收起
— 没有更多了 —
以下为对购买帮助不大的评价