语音识别:原理与应用
¥
34.56
2.7折
¥
128
全新
仅1件
作者洪青阳
出版社电子工业出版社
出版时间2020-06
版次1
装帧其他
上书时间2025-01-07
商品详情
- 品相描述:全新
图书标准信息
-
作者
洪青阳
-
出版社
电子工业出版社
-
出版时间
2020-06
-
版次
1
-
ISBN
9787121385025
-
定价
128.00元
-
装帧
其他
-
开本
16开
-
纸张
胶版纸
-
页数
332页
-
字数
370千字
- 【内容简介】
-
本书系统地介绍了语音识别的和应用,全书共分15章,部分涵盖声学特征、隐马尔可夫模型(hmm)、高斯混合模型(gmm)、深度神经网络(dnn)、语言模型和加权有限状态转换器(wfst),重点描述了gmmhmm、dnnhmm和端到端(e2e)三种语音识别框架。本书应用部分包含kaldi、esp、应用实践介绍,内容主要来自工程经验,极具实用。本书可以作为普通高等学校人工智能、计算机科学与技术、电子信息工程、自动化等专业的本科生及教材,也适合作为从事智能语音系统的科研和工程技术人员的参用书。
- 【作者简介】
-
洪青阳,厦门大学副教授,语音识别方向,在靠前重要期刊和会议发表学术近50篇,已获得发明授权7项,并研发多款语音声纹产品,成功应用到智能手机、智能玩具、、市场调查等行业客户。2018年3月起,研发的声纹识别技术先后在华为p20、mate20手机落地应用。
- 【目录】
-
章 语音识别概论 11.1 语音的产生和感知 11.2 语音识别过程 41.3 语音识别发展历史 81.4 国内语音识别现状 151.5 语音识别建模方法 191.5.1 DTW 191.5.2 GMM-HMM 201.5.3 DNN-HMM 201.5.4 端到端 221.6 语音识别开源工具 221.7 语音识别常用数据库 221.8 语音识别评价指标 24第2章 语音信号基础 282.1 声波的特性 282.2 声音的接收装置 292.2.1 麦克风阵列 312.3 声音的采样 322.4 声音的量化 332.5 语音的编码 352.6 WAV文件格式 382.7 WAV文件分析 39第3章 语音特征提取 443.1 预处理 443.2 短时傅立叶变换 483.3 听觉特性 513.4 线性预测 543.5 倒谱分析 553.6 常用的声学特征 563.6.1 语谱图 573.6.2 FBank 583.6.3 MFCC 593.6.4 PLP 613.6.5 CQCC 62第4章 HMM 674.1 HMM的基本概念 694.1.1 马尔可夫链 704.1.2 双重随机过程 714.1.3 HMM的定义 724.2 HMM的三个基本问题 734.2.1 模型评估问题 744.2.2 路径问题 774.2.3 模型训练问题 79第5章 GMM-HMM 835.1 概率统计 845.2 高斯分布 855.3 GMM 885.3.1 初始化 895.3.2 重估计 905.4 GMM-HMM 915.5 GMM-HMM的训练 975.6 模型自适应 995.6.1 MAP 995.6.2 MLLR 1005.6.3 fMLLR 1005.6.4 SAT 101课程实践:基于HTK搭建GMM-HMM系03第6章 基于HMM的语音识别 1046.1 建模单元 1046.2 发音过程与HMM状态 1076.3 串接HMM 1086.4 固定语法的识别 1126.5 随机语法的识别 117第7章 音素的上下文建模 1257.1 协同发音 1257.2 上下文建模 1267.3 决策树 1287.4 问题集 1297.4.1 手工设计 1297.4.2 自动生成 1317.5 三音子模型的训练 134第8章 语言模型 1368.1 n-gram模型 1388.2 评价指标——困惑度 1428.3 平滑技术 1438.3.1 Good-Turing折扣法 1438.3.2 Jelinek-Mercer插值法 1448.3.3 Kneser-Ney插值法 1448.3.4 Katz回退法 1468.4 语言模型的训练 1488.5 递归神经网络语言模型 151第9章 WFST解码器 1589.1 基于动态网络的Viterbi解码 1599.2 WFST理论 1639.3 HCLG构建 1689.3.1 H的构建 1699.3.2 C的构建 1719.3.3 L的构建 1729.3.4 G的构建 1739.3.5 HCLG合并 1759.4 WFST的Viterbi解码 1779.4.1 Token的定义 1779.4.2 Viterbi算法 1789.5 Lattice解码 1859.5.1 主要数据结构 1859.5.2 令牌传播过程 1869.5.3 剪枝策略 1899.5.4 Lattice 1900章 DNN-HMM 19410.1 深度学习 19410.2 DNN 19510.2.1 激活函数 19610.2.2 损失函数 19810.2.3 梯度下降算法 19910.3 DNN与HMM的结合 20110.4 不同的DNN结构 20510.4.1 CNN 20510.4.2 LSTM 21010.4.3 GRU 21010.4.4 TDNN 21110.4.5 TDNN-F 2141章 序列区分性训练 22011.1 区分性准则 22111.1.1 MMI 22111.1.2 BMMI 22211.1.3 MPE/sMBR 22211.2 MMI求导过程 22311.3 Lattice-based MMI 22511.4 Lattice-free MMI 22711.5 Kaldi Chain模型 2302章 端到端语音识别 23312.1 CTC 23412.1.1 损失函数 23512.1.2 前向算法 23912.1.3 后向算法 24212.1.4 求导过程 24312.1.5 CTC解码 24512.2 RNN-T 24812.3 Attention模型 25112.4 Hybrid CTC/Attention 25412.5 Transformer 2563章 Kaldi实践 26213.1 下载与安装Kaldi 26313.1.1 获取源代码 26313.1.2 编译 26413.2 创建与配置基本的工程 26513.3 aishell语音识别工程 26613.3.1 数据映射准备 26713.3.2 词典准备和lang生成 26913.3.3 语言模型训练 27113.3.4 声学特征提取与倒谱均值归一化 27313.3.5 声学模型训练与强制对齐 27413.3.6 解码测试与指标计算 2774章 Espnet实践 28014.1 数据准备 28014.1.1 映射文件准备 28014.1.2 特征提取 28114.1.3 数据增强 28214.1.4 词典生成 28214.1.5 数据打包 28314.2 Espnet配置文件 28414.3 语言模型训练 28514.4 声学模型训练 28714.4.1 声学模型训练脚本 28714.4.2 CTC声学模型训练 28814.4.3 Attention声学模型训练 28914.4.4 RNN-T模型训练 29014.4.5 Transformer模型训练 29214.5 语音识别解码 29314.6 Espnet训练解码可视化 29414.6.1 Espnet训练参数可视化 29414.6.2 Espnet中的Attention可视化 29514.6.3 Espnet解码结果可视化 2965章 工业应用实践 29815.1 动态库封装 29815.1.1 函数接口 29815.1.2 动态库编译 30615.1.3 动态库调用 30915.2 语音云平台 31015.3 识别引擎优化 31515.3.1 加快响应速度 31515.3.2 定制语言模型 31615.3.3 定制声学模型 31615.4 嵌入式移植 318
作者介绍
洪青阳,厦门大学副教授,天聪智能创始人,主要研究方向是语音识别、声纹识别,先后主持国家自然基金两项,科技部创新基金两项。牵头组建厦门大学智能语音实验室,带领xmuspeech团队连续两届获东方语种识别(OLR)竞赛名,成功研发国内套闽南语合成系统。具有丰富的工业界研发经验,与华为、云从、掌数科技等知名企业合作,承担过大量的智能语音项目,核心技术应用到华为智能手机和全国十五个省市的司法/社保/证券/电力系统。长期从事本科生、研究生的语音识别教学工作,从动态时间规整(DTW)、隐马尔可夫模型(HMM)到E2E语音识别框架,与时俱进更新教学内容,积累了丰富的教学经验。
序言
点击展开
点击收起
— 没有更多了 —
以下为对购买帮助不大的评价