语音识别:原理与应用(第2版)
新华书店全新正版书籍图书 保证_可开发票_极速发货支持7天无理由
¥
74.6
5.4折
¥
138
全新
库存2件
作者洪青阳,李琳
出版社电子工业出版社
ISBN9787121446337
出版时间2023-02
装帧平装
开本16开
定价138元
货号31631540
上书时间2024-10-15
商品详情
- 品相描述:全新
- 商品描述
-
作者简介
洪青阳,厦门大学副教授,天聪智能创始人,主要研究方向是语音识别、声纹识别,先后主持国家自然科学基金两三项,科技部创新基金两项。牵头组建厦门大学智能语音实验室,带领xmuspeechXMUSPEECH团队连续两届获东方语种识别(OLR)竞赛第一名,成功研发国内第一套闽南语合成系统。具有丰富的工业界研发经验,与华为、云从、掌数科技、鼎桥等知名企业合作,承担过大量的智能语音项目,核心技术应用到华为智能手机和全国十五几个省市的司法/社保/证券/电力系统。长期从事本科生、研究生的语音识别教学工作,从最早的动态时间规整(DTW)、隐马尔可夫模型(HMM)到近期新的端到端(E2E)语音识别框架,与时俱进更新教学内容,积累了丰富的教学经验。李琳,厦门大学副教授,博士生导师,主要研究方向为语音信号处理、声纹识别、智能系统设计,主持国家自然科学基金一项,负责国家科技部重点研发计划项目子课题一项、省级科研项目一项,作为第一合作者参与国家自然基金两项,曾获福建省科技进步奖二等奖、福建省教学成果奖二等奖、厦门市科技进步奖一等奖。参与指导XMUSPEECHxmuspeech团队连续两届获东方语种识别竞赛第一名。国际IEEE学会会员,CCF高级会员,NCMMSC常设机构委员会委员,CCF语音对话与听觉专业组委员会委员,NCMMSC常设机构委员会委员。
目录
第1章 语音识别概论1
1.1 语音的产生和感知1
1.2 语音识别过程4
1.3 语音识别发展历史8
1.4 国内语音识别现状15
1.5 语音识别建模方法18
1.5.1 DTW19
1.5.2 GMM-HMM19
1.5.3 DNN-HMM20
1.5.4 E2E模型22
1.6 语音识别开源工具22
1.7 常用语音识别数据库23
1.8 语音识别评价指标24
1.9 参考资料25
第2章 语音信号基础28
2.1 声波的特性28
2.2 声音的接收装置29
2.2.1 麦克风的性能指标30
2.2.2 麦克风阵列31
2.3 声音的采样32
2.4 声音的量化33
2.5 语音的编码35
2.6 WAV文件格式39
2.7 WAV文件分析40
2.8 本章小结43
思考练习题43
第3章 语音特征提取44
3.1 预处理44
3.2 短时傅里叶变换48
3.3 听觉特性51
3.4 线性预测54
3.5 倒谱分析55
3.6 常用的声学特征56
3.6.1 语谱图57
3.6.2 FBank58
3.6.3 MFCC59
3.6.4 PLP60
3.7 本章小结62
思考练习题63
第4章 HMM64
4.1 HMM的基本概念66
4.1.1 马尔可夫链67
4.1.2 双重随机过程68
4.1.3 HMM的定义69
4.2 HMM的三个基本问题70
4.2.1 模型评估问题71
4.2.2 最佳路径问题74
4.2.3 模型训练问题76
4.3 本章小结78
4.4 参考资料79
思考练习题79
第5章 GMM-HMM80
5.1 概率统计81
5.2 高斯分布82
5.3 GMM85
5.3.1 初始化86
5.3.2 重估计87
5.4 GMM与HMM的结合88
5.5 GMM-HMM的训练94
5.6 模型自适应96
5.6.1 MAP96
5.6.2 MLLR97
5.6.3 fMLLR97
5.6.4 SAT98
5.7 本章小结98
5.8 参考资料98
思考练习题99
第6章 基于HMM的语音识别100
6.1 建模单元100
6.2 发音过程与HMM状态103
6.3 串接HMM104
6.4 固定语法的识别108
6.5 随机语法的识别113
6.6 音素的上下文建模119
6.6.1 协同发音120
6.6.2 上下文建模121
6.6.3 决策树122
6.6.4 问题集123
6.6.5 三音子模型的训练128
6.7 本章小结129
思考练习题130
第7章 DNN-HMM131
7.1 深度学习131
7.2 DNN132
7.2.1 激活函数133
7.2.2 损失函数135
7.2.3 梯度下降算法136
7.3 DNN与HMM的结合138
7.4 不同的DNN结构142
7.4.1 CNN143
7.4.2 LSTM147
7.4.3 GRU147
7.4.4 TDNN148
7.4.5 TDNN-F151
7.5 本章小结154
7.6 参考资料155
思考练习题155
第8章 语言模型156
8.1 -gram模型158
8.2 评价指标——困惑度162
8.3 平滑技术163
8.3.1 Good-Turing折扣法163
8.3.2 Witten-Bell折扣法165
8.3.3 Katz回退法166
8.3.4 Jelinek-Mercer插值法169
8.3.5 Kneser-Ney插值法170
8.4 语言模型的训练172
8.5 神经网络语言模型175
8.6 本章小结180
8.7 参考资料180
思考练习题181
第9章 WFST解码器183
9.1 基于动态网络的Viterbi解码184
9.2 WFST理论189
9.3 HCLG构建193
9.3.1 H的构建194
9.3.2 C的构建195
9.3.3 L的构建196
9.3.4 G的构建197
9.3.5 HCLG合并200
9.4 WFST的Viterbi解码202
9.4.1 Token的定义202
9.4.2 Viterbi算法203
9.5 Lattice解码210
9.5.1 主要数据结构211
9.5.2 令牌传播过程212
9.5.3 剪枝策略215
9.5.4 Lattice216
9.6 本章小结218
9.7 参考资料218
思考练习题218
第10章 序列区分性训练219
10.1 区分性准则220
10.1.1 MMI220
10.1.2 BMMI221
10.1.3 MPE/sMBR221
10.2 MMI求导过程222
10.3 Lattice-based MMI224
10.4 Lattice-free MMI226
10.5 Kaldi Chain模型228
10.6 本章小结230
10.7 参考资料230
思考练习题231
第11章 端到端语音识别232
11.1 CTC233
11.1.1 损失函数234
11.1.2 前向算法238
11.1.3 后向算法241
11.1.4 求导过程242
11.1.5 CTC解码244
11.2 RNN-T247
11.3 基于Attention的Encoder-Decoder模型250
11.4 Hybrid CTC/Attention253
11.5 Transformer255
11.6 Conformer258
11.7 本章小结259
11.8 参考资料259
思考练习题261
第12章 Kaldi实践262
12.1 下载与安装Kaldi263
12.1.1 获取源代码263
12.1.2 编译264
12.2 创建和配置基本的工程目录265
12.3 aishell语音识别工程266
12.3.1 数据集映射目录准备267
12.3.2 词典准备和lang目录生成269
12.3.3 语言模型训练271
12.3.4 声学特征提取与倒谱均值归一化273
12.3.5 声学模型训练与强制对齐275
12.3.6 解码测试与指标计算277
12.4 本章小结279
第13章 ESPnet实践280
13.1 数据准备280
13.1.1 映射文件准备280
13.1.2 特征提取281
13.1.3 数据扩增282
13.1.4 词典生成282
13.1.5 数据打包283
13.2 ESPnet配置文件284
13.3 语言模型训练286
13.4 声学模型训练287
13.4.1 声学模型训练脚本287
13.4.2 CTC声学模型训练288
13.4.3 Attention声学模型训练289
13.4.4 RNN-T模型训练290
13.4.5 Transformer模型训练292
13.5 语音识别解码293
13.6 ESPnet训练解码可视化294
13.6.1 ESPnet训练参数可视化294
13.6.2 ESPnet中的Attention可视化295
13.6.3 ESPnet解码结果可视化296
13.7 ESPnet2297
13.7.1 ESPnet2与ESPnet297
13.7.2 数据准备298
13.7.3 配置文件299
13.7.4 模型训练300
13.7.5 训练日志与可视化303
13.7.6 性能对比304
13.8 本章小结305
13.9 参考资料305
第14章 WeNet实践306
14.1 数据准备306
14.1.1 映射文件准备306
14.1.2 CMVN计算307
14.1.3 词典生成307
14.1.4 数据打包307
14.2 WeNet配置文件308
14.3 声学模型训练309
14.3.1 声学模型训练脚本309
14.3.2 Transformer模型训练310
14.3.3 Conformer模型训练313
14.3.4 Unified Conformer模型训练314
14.3.5 U2++ Conformer模型训练315
14.4 Python环境解码315
14.5 WeNet 模型部署317
14.5.1 模型导出317
14.5.2 语言模型训练317
14.5.3 结合语言模型的解码318
14.6 WeNet 解码结果可视化318
14.7 本章小结319
14.8 参考文献319
第15章 工业应用实践320
15.1 应用场景321
15.2 引擎优化323
15.2.1 Kaldi方案323
15.2.2 WeNet方案327
15.3 工程部署330
15.3.1 SDK封装330
15.3.2 语音云平台338
15.3.3 Kaldi嵌入式移植342
15.3.4 WeNet端侧部署344
15.4 本章小结
内容摘要
《语音识别:原理与应用(第2版)》围绕语音识别的原理和应用讲解,理论结合实际,采用大量插图,辅以实例,力求深入浅出,让读者能较快地理解语音识别的基础理论和关键技术。为了帮助读者动手操作,提高实战技能,本书最后还结合Kaldi、ESPnet和WeNet等开源工具,介绍了具体的工程实践方法。
— 没有更多了 —
以下为对购买帮助不大的评价