• 语音识别 原理与应用 第2版
  • 语音识别 原理与应用 第2版
  • 语音识别 原理与应用 第2版
  • 语音识别 原理与应用 第2版
  • 语音识别 原理与应用 第2版
  • 语音识别 原理与应用 第2版
21年品牌 40万+商家 超1.5亿件商品

语音识别 原理与应用 第2版

41.71 3.0折 138 八五品

库存24件

福建福州
认证卖家担保交易快速发货售后保障

作者洪青阳,李琳

出版社电子工业出版社

ISBN9787121446337

出版时间2023-02

装帧平装

开本16开

定价138元

货号9787121446337

上书时间2024-07-20

书籍供应的书店

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:八五品
商品描述
前言

本书围绕语音识别的原理和应用讲解,理论结合实际,采用大量插图,辅以实例,力求深入浅出,让读者能较快地理解语音识别的基础理论和关键技术。为了帮助读者动手操作,提高实战技能,本书最后还结合Kaldi、ESPnet和WeNet等开源工具,介绍了具体的工程实践方法。本书包含以下章节:

 

第1章 语音识别概论,介绍人类语音的产生和感知过程,语音识别的关键技术、发展历史等。

 

第2章 语音信号基础,介绍声音的采集和量化过程,以及编码和存储格式。

 

第3章 语音特征提取,介绍语音信号的频域分析、倒谱分析、声学特征提取过程等。

 

第4章 HMM,介绍双重随机过程,以及HMM的三大问题。

 

第5章 GMM-HMM,介绍高斯混合模型的定义和重估计公式,并结合例子讲解GMM如何与HMM结合,以及对应的具体参数形式。

 

第6章 基于HMM的语音识别,介绍单音子声学模型和Viterbi解码过程,以及音素的上下文建模,包括双音子和三音子模型。

 

第7章 DNN-HMM,介绍深度学习在语音识别中的应用,包括CNN、LSTM、TDNN等网络。

 

第8章 语言模型,介绍语言模型的训练过程及其在语音识别中的作用。

 

第9章 WFST 解码器,介绍动态和静态的解码网络,以及WFST、HCLG等关键技术。

 

第10章 序列区分性训练,介绍 MMI/BMMI、MPE/sMBR等准则,以及Lattice-free MMI训练方法。

 

第11章 端到端语音识别,介绍CTC、RNN-T、Attention和Transformer等端到端语音识别系统。

 

第12章 Kaldi实践,首先介绍Kaldi的下载与安装步骤,然后以aishell-1中文数据库为例,介绍如何训练和测试模型。

 

第13章 ESPnet实践,介绍使用ESPnet进行目前主流的端到端语音识别模型的训练和解码过程。

 

第14章 WeNet实践,介绍使用WeNet进行CTC/Attention模型的训练和解码过程。

 

第15章 工业应用实践,介绍如何封装语音识别动态库,如何调用和调优,以及嵌入式移植和端侧部署过程。

 

本书由洪青阳完成主要章节的编写,李琳负责第3章的编写,洪青阳和李琳对全书进行了审校。特别感谢赵淼、李松、张宁、夏仕鹏、刘凯、胡文轩、李涛、余洪涌对本书的贡献,赵淼、李松、胡文轩和李涛分别对Kaldi、ESPnet和WeNet的实践过程等内容做了深入细致的整理,他们的协助使得本书顺利完成。

 

感谢厦门大学智能语音实验室的童峰老师、许彬彬老师和同学们,为本书的创作提供了良好的学术氛围和精益求精的驱动力。

 

感谢语音学术和产业界的赵庆卫、王东、余洪涌、李明、张超、谢磊、张卫强、张鹏远等专家和学者,他们的指导和启发令本书增色不少。

 

感谢电子工业出版社的郑柳洁等老师的大力支持,她们认真细致的工作保证了本书的质量。

 

为读者写一本精品书是作者的初衷,但由于作者水平有限,书中难免有疏漏和不足之处,恳请读者批评指正!



 
 
 
 

商品简介

本书系统地介绍了语音识别的原理与应用。全书共15章,原理部分涵盖声学特征、隐马尔可夫模型(HMM)、高斯混合模型(GMM)、深度神经网络(DNN)、语言模型和加权有限状态转换器(WFST),重点描述了GMM-HMM、DNN-HMM和端到端(E2E)三种语音识别框架;应用部分包含Kaldi、ESPnet、WeNet和工业应用实践介绍,内容主要来自工程经验,极具实用性。

 

本书可以作为普通高等学校人工智能、计算机科学与技术、电子信息工程、自动化等专业的本科生及研究生的教材,也适合作为从事智能语音系统的科研人员和工程技术人员的参考书。

 

 



作者简介
洪青阳,厦门大学副教授,天聪智能创始人,主要研究方向是语音识别、声纹识别,先后主持国家自然科学基金两三项,科技部创新基金两项。牵头组建厦门大学智能语音实验室,带领xmuspeechXMUSPEECH团队连续两届获东方语种识别(OLR)竞赛第一名,成功研发国内第一套闽南语合成系统。具有丰富的工业界研发经验,与华为、云从、掌数科技、鼎桥等知名企业合作,承担过大量的智能语音项目,核心技术应用到华为智能手机和全国十五几个省市的司法/社保/证券/电力系统。长期从事本科生、研究生的语音识别教学工作,从最早的动态时间规整(DTW)、隐马尔可夫模型(HMM)到近期新的端到端(E2E)语音识别框架,与时俱进更新教学内容,积累了丰富的教学经验。李琳,厦门大学副教授,博士生导师,主要研究方向为语音信号处理、声纹识别、智能系统设计,主持国家自然科学基金一项,负责国家科技部重点研发计划项目子课题一项、省级科研项目一项,作为第一合作者参与国家自然基金两项,曾获福建省科技进步奖二等奖、福建省教学成果奖二等奖、厦门市科技进步奖一等奖。参与指导XMUSPEECHxmuspeech团队连续两届获东方语种识别竞赛第一名。国际IEEE学会会员,CCF高级会员,NCMMSC常设机构委员会委员,CCF语音对话与听觉专业组委员会委员,NCMMSC常设机构委员会委员。

目录
第1章 语音识别概论 1

1.1 语音的产生和感知 1

1.2 语音识别过程 4

1.3 语音识别发展历史 8

1.4 国内语音识别现状 15

1.5 语音识别建模方法 18

1.5.1 DTW 19

1.5.2 GMM-HMM 19

1.5.3 DNN-HMM 20

1.5.4 E2E模型 22

1.6 语音识别开源工具 22

1.7 常用语音识别数据库 23

1.8 语音识别评价指标 24

1.9 参考资料 25

第2章 语音信号基础 28

2.1 声波的特性 28

2.2 声音的接收装置 29

2.2.1 麦克风的性能指标 30

2.2.2 麦克风阵列 31

2.3 声音的采样 32

2.4 声音的量化 33

2.5 语音的编码 35

2.6 WAV文件格式 39

2.7 WAV文件分析 40

2.8 本章小结 43

思考练习题 43

第3章 语音特征提取 44

3.1 预处理 44

3.2 短时傅里叶变换 48

3.3 听觉特性 51

3.4 线性预测 54

3.5 倒谱分析 55

3.6 常用的声学特征 56

3.6.1 语谱图 57

3.6.2 FBank 58

3.6.3 MFCC 59

3.6.4 PLP 60

3.7 本章小结 62

思考练习题 63

第4章 HMM 64

4.1 HMM的基本概念 66

4.1.1 马尔可夫链 67

4.1.2 双重随机过程 68

4.1.3 HMM的定义 69

4.2 HMM的三个基本问题 70

4.2.1 模型评估问题 71

4.2.2 很好路径问题 74

4.2.3 模型训练问题 76

4.3 本章小结 78

4.4 参考资料 79

思考练习题 79

第5章 GMM-HMM 80

5.1 概率统计 81

5.2 高斯分布 82

5.3 GMM 85

5.3.1 初始化 86

5.3.2 重估计 87

5.4 GMM与HMM的结合 88

5.5 GMM-HMM的训练 94

5.6 模型自适应 96

5.6.1 MAP 96

5.6.2 MLLR 97

5.6.3 fMLLR 97

5.6.4 SAT 98

5.7 本章小结 98

5.8 参考资料 98

思考练习题 99

第6章 基于HMM的语音识别 100

6.1 建模单元 100

6.2 发音过程与HMM状态 103

6.3 串接HMM 104

6.4 固定语法的识别 108

6.5 随机语法的识别 113

6.6 音素的上下文建模 119

……

内容摘要
本书系统地介绍了语音识别的原理与应用。全书共15章,原理部分涵盖声学特征、隐马尔可夫模型(HMM)、高斯混合模型(GMM)、深度神经网络(DNN)、语言模型和加权有限状态转换器(WFST),重点描述了GMM-HMM、DNN-HMM和端到端(E2E)三种语音识别框架;应用部分包含Kaldi、ESPnet、WeNet和工业应用实践介绍,内容主要来自工程经验,极具实用性。

主编推荐

华语原创重磅升级

√增补内容超20%

√配大量彩色插图

√更注重实战技能

√更易懂的表达

√更完善的工程项目,如Kaldi、ESPnet和WeNet实践等


【内容简介】

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP