正版保障 假一赔十 可开发票
¥ 91.05 5.4折 ¥ 168 全新
库存3件
作者张晓雷
出版社清华大学出版社
ISBN9787302590002
出版时间2022-01
装帧平装
开本16开
定价168元
货号29362079
上书时间2024-11-01
自 2012年美国俄亥俄州立大学汪德亮教授等提出基于深度学习的鲁棒语音处理以来,语音降噪处理的深度学习方法迅速成为鲁棒语音处理的主流方法之一,在学术界和工业界的共同努力下,得到了快速发展。语音降噪处理的深度学习方法从开始只能在匹配的噪声、匹配的信噪比环境下取得一个研究点上的突破,发展到能够在复杂的现实噪声场景和极低信噪比环境下获取惊人的性能;从开始需要深度置信网络进行分层预训练才能训练成功,发展到今天可以没有难度地训练任意深度的深层网络;从开始算法时延高达数十毫秒,发展到今天在没有性能显著损失的条件下能够满足实时通信的需求;从开始的单通道(单麦克风)信号处理,发展到今天可以对由任意多个麦克风组成的自组织网络信号进行联合处理;等等。基于深度学习的鲁棒语音处理技术也在快速步入实际使用,并在智能家居、智能车载、智能语音客服、会议记录等应用方面创造了巨大的产业价值。
尽管该技术发展迅速,但是相关的中文书籍匮乏。对此,本书将以中文首次全面介绍基于深度学习的鲁棒语音处理的发展,具体内容包括语音检测、语音增强、语音去混响、多说话人语音分离、鲁棒声纹识别与鲁棒语音识别。本书侧重对历史的回顾,帮助读者梳理该方向的技术发展脉络和趋势;并着重介绍在实际使用中性能突出的代表性方法,帮助读者快速熟悉该方向的主要技术。
全书共分 8章。第 1章是绪论;第 2章介绍深度学习的基础知识和常见的深度网络模型;第 3~ 6章集中介绍基于深度学习的语音降噪处理前端算法,其中,第 3章介绍语音检测,第 4章介绍单通道语音增强,第 5章介绍多通道语音增强,第 6章介绍多说话人语音分离;第 7章和第 8章分别介绍基于深度学习的语音降噪处理在声纹识别和语音识别方面的应用,其中着重介绍基于深度学习的现代声纹识别、语音识别基础知识和前沿技术。
本书是一部专业性较强的著作,主要面向具备一定语音信号处理和机器学习基础、致力于从事智能语音处理相关工作的高年级本科生、研究生和专业技术人员。
作者在编写本书时参考和引用了一些学者的研究成果、著作和论文,具体出处见参考文献。在此,作者向这些文献的著作者表示感谢。在本书的编写过程中得到了西北工业大学一批优秀研究生的协助,他们分别是官善政、李盛强、王谋、白仲鑫、王瑞、王建宇、杨子叶、刘书培、徐梦龙、李梦真、朱文博、梁成栋、谭旭、唐林瑞泽、陈俊淇、龚亦骏、姚嘉迪、陈益江、王杰、陈星(排名不分先后)。
本书获西北工业大学精品学术著作培育项目资助(项目号为 21GH030801)。
基于深度学习的鲁棒语音处理是一个理论性强、实用面广、内容新、难度大的研究方向,同时这个方向又处于快速发展中,尽管作者在编写过程中力求涵盖前沿的技术,通过简明、通俗的语言将这门技术介绍给读者,但因作者水平有限,不妥之处在所难免,敬请广大读者批评指正。
张晓雷
2021年 4月
语音降噪处理是信号处理的重要分支领域。近年来,该领域在人工智能与深度学习技术的驱动下取得了突破性进展。本书系统总结语音降噪处理的深度学习方法,尽可能涵盖该方法的前沿进展。全书共分8章。第 1章是绪论;第 2章介绍深度学习的基础知识和常见的深度网络模型;第 3~6章集中介绍基于深度学习的语音降噪处理前端算法,其中,第 3章介绍语音检测,第4章介绍单通道语音增强,第5章介绍多通道语音增强,第6章介绍多说话人语音分离;第7章和第 8章分别介绍基于深度学习的语音降噪处理在声纹识别和语音识别方面的应用,其中着重介绍基于深度学习的现代声纹识别、语音识别基础和前沿进展。 本书专业性较强,主要面向具备一定语音信号处理和机器学习基础、致力于从事智能语音处理相关工作的高年级本科生、研究生和专业技术人员。
张晓雷,西北工业大学教授,博导,入选国家千人计划青年项目、陕西省百人计划青年项目。清华大学博士、美国俄亥俄州立大学博士后。从事声信号与语音处理,机器学习,人工智能的研究工作。在Neural Networks、IEEE TPAMI、IEEE TASLP、IEEE TCYB、IEEE TSMCB等期刊、会议发表论文50余篇。合著译著1部。承担国家重点研发计划、国家自然科学基金重点项目等省部级以上项目10余项。论文“Multilayer Bootstrap Networks”获得国际神经网络学会与国际期刊《Neural Networks》联合授予的2020年度论文奖。获得亚太信号与信息处理学会杰出讲者称号、UbiMedia 2019国际会议论文奖、北京市科学技术一等奖、*科技成果完成者荣誉称号。研究成果在国内三大电信运营商、金融、交通、保险等行业的20余家主流企业成功应用。
第 1章绪论1
第 2章深度学习基础5
2.1有监督学习 5
2.2单层神经网络 6
2.2.1基本模型6
2.2.2激活函数7
2.3前馈深度神经网络.10
2.3.1反向传播算法11
2.3.2正则化15
2.4循环神经网络 17
2.4.1循环神经网络基础17
2.4.2长短时记忆网络20
2.4.3门控循环神经网络22
2.4.4深层 RNN结构23
2.4.5序列数据的 RNN建模框架 25
2.5卷积神经网络 26
2.5.1卷积神经网络基础27
2.5.2其他卷积形式31
2.5.3残差神经网络35
2.5.4时序卷积网络37
2.6神经网络中的归一化 39
2.6.1批归一化39
2.6.2层归一化41
2.7神经网络中的注意力机制.42
2.7.1编码器-解码器框架42
2.7.2 编码器
-注意力机制-解码器框架44
2.
7.3 单调注意力机制46
Transformer47
2.7.4
2.8生成对抗网络
48
2.8.1 基本结构
.49
2.8.2 模型训练
.51
2.9本章小结
52
第 3章语音检测53
3.1引言
.53
3.2基本知识
54
3.2.1 信号模型
.54
3.2.2 评价指标
.55
3.3语音检测模型
57
3.
3.1 语音检测模型的基本框架57
3.
3.2 基于深度置信网络的语音检测58
3.
3.3 基于降噪深度神经网络的语音检测61
3.
3.4 基于多分辨率堆栈的语音检测模型框架63
3.
4语音检测模型的损失函数.65
3.
4.1 小化交叉熵66
3.
4.2 小均方误差66
3.4.3 化
ROC曲线下面积66
3.
5语音检测的声学特征 69
3.
5.1 短时傅里叶变换的频带选择69
3.
5.2 多分辨率类耳蜗频谱特征70
3.
6模型的泛化能力.72
3.7本章小结
73
第 4章单通道语音增强75
4.1引言
.75
4.2基本知识
77
4.2.1 信号模型
.77
4.2.2 评价指标
.79
4.3频域语音增强
81
4.3.1算法框架
.81
4.3.2训练目标
.82
4.
3.3语音增强模型89
4.
3.4语音去混响模型93
4.4时域语音增强
100
4.4.1关键问题
.101
4.4.2卷积模型
.102
4.4.3损失函数
.104
4.5本章小结
106
第 5章多通道语音增强107
5.1引言
107
5.2信号模型
108
5.
3空间特征提取法 109
5.3.1空间特征
.109
5.3.2深度模型
.111
5.4波束形成方法
113
5.
4.1自适应波束形成器114
5.4.2噪声估计
.116
5.
4.3基于神经网络的波束形成方法117
5.
5自组织麦克风阵列方法 121
5.
5.1深度自组织波束形成123
5.
5.2通道权重估计124
5.
5.3通道选择算法125
5.6本章小结
131
第 6章多说话人语音分离 133
6.1引言
133
6.2信号模型
134
6.
3与说话人相关的语音分离方法 134
6.
3.1模型匹配法134
6.
3.2声纹特征法139
6.
4与说话人无关的语音分离142
6.
4.1深度聚类算法143
6.
4.2置换不变训练算法146
6.
4.3基于时域卷积的端到端语音分离算法148
6.5本章小结
151
第 7章声纹识别153
7.1引言
153
7.2说话人确认
155
7.
2.1说话人确认基础155
7.
2.2基于分类损失的深度嵌入说话人确认算法159
7.
2.3基于确认损失的端到端说话人确认算法168
7.
3说话人分割聚类 173
7.
3.1说话人分割聚类基础174
7.
3.2分阶段说话人分割聚类176
7.
3.3端到端说话人分割聚类算法180
7.4鲁棒声纹识别
183
7.
4.1结合增强前端的抗噪声纹识别183
7.
4.2基于无监督域自适应的鲁棒声纹识别185
7.5本章小结
188
第 8章语音识别191
8.1引言
191
8.2语音识别基础
193
8.2.1信号模型
.193
8.2.2评价指标
.193
8.
3端到端语音识别 194
8.
3.1连接时序分类模型194
8.
3.2注意力机制模型203
8.
4语音识别的噪声鲁棒方法206
8.5说话人自适应
210
8.
5.1说话人自适应训练210
8.
5.2测试阶段自适应214
8.6本章小结
220
参考文献 221
语音降噪处理是信号处理的重要分支领域。近年来,该领域在人工智能与深度学习技术的驱动下取得了突破性进展。本书系统总结语音降噪处理的深度学习方法,尽可能涵盖该方法的前沿进展。全书共分8章。第 1章是绪论;第 2章介绍深度学习的基础知识和常见的深度网络模型;第 3~6章集中介绍基于深度学习的语音降噪处理前端算法,其中,第 3章介绍语音检测,第4章介绍单通道语音增强,第5章介绍多通道语音增强,第6章介绍多说话人语音分离;第7章和第 8章分别介绍基于深度学习的语音降噪处理在声纹识别和语音识别方面的应用,其中着重介绍基于深度学习的现代声纹识别、语音识别基础和前沿进展。 本书专业性较强,主要面向具备一定语音信号处理和机器学习基础、致力于从事智能语音处理相关工作的高年级本科生、研究生和专业技术人员。
张晓雷,西北工业大学教授,博导,入选国家千人计划青年项目、陕西省百人计划青年项目。清华大学博士、美国俄亥俄州立大学博士后。从事声信号与语音处理,机器学习,人工智能的研究工作。在Neural Networks、IEEE TPAMI、IEEE TASLP、IEEE TCYB、IEEE TSMCB等期刊、会议发表论文50余篇。合著译著1部。承担国家重点研发计划、国家自然科学基金重点项目等省部级以上项目10余项。论文“Multilayer Bootstrap Networks”获得国际神经网络学会与国际期刊《Neural Networks》联合授予的2020年度论文奖。获得亚太信号与信息处理学会杰出讲者称号、UbiMedia 2019国际会议论文奖、北京市科学技术一等奖、*科技成果完成者荣誉称号。研究成果在国内三大电信运营商、金融、交通、保险等行业的20余家主流企业成功应用。
— 没有更多了 —
以下为对购买帮助不大的评价