消息首页搜索举报

【现货速发】听觉信息处理研究前沿

全新正版书籍，24小时发货，可开发票。

165.2 6.7折 248 全新

库存4件

天津津南

认证卖家担保交易快速发货售后保障

作者党建武，俞凯等

出版社上海交通大学出版社

ISBN9787313222060

出版时间2021-05

装帧精装

开本16开

定价248元

货号29284575

上书时间2024-12-14

易安居书舍

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 14小时
好评率暂无

最新上架

【现货速发】安全生产专业实务建筑施工安安全 2024版 ¥25.80

【现货速发】青囊奇术经典药方举一反三 ¥27.30

【现货速发】卷霸·初中同步测试卷七年级数学上册 ¥10.00

【现货速发】数据化运营管理第2版微课版 ¥38.60

【现货速发】促进城乡融合发展的财政政策研究 ¥55.10

【现货速发】云南志补注 ¥34.70

【现货速发】腹部肿瘤影像诊断学下册 ¥197.00

【现货速发】投融资那些事儿 2022-2023年 ¥53.70

【现货速发】万里江湖憔悴身陈与义南奔避乱诗研究 ¥72.30

商品详情

品相描述：全新

商品描述

前言

人类的语言主要有两种承载形式：连续信号的有声语言和离散信号的文本语言，其中有声语言至今已有五万年的历史，而文本语言至今已有四千多年的历史。文本语言是对有声语言运用规则的总结和符号化的记录，反过来讲，它对有声语言的习得和使用也起到了一定的指导作用。从本质上看，有声语言是经过符号化语言信息的调制、承载说话人意图信息和生物信息的声信学号，而听觉是人类感知有声语言、解析和理解其承载信息的主要手段。在会话交流的听觉信息处理过程中，人们从感知到的声学信号中解调语音承载的语言信息、副语言信息和非语言信息信息，对所关注的信息进行加工处理。从科学研究的角度看，此处理过程涉及语音声学信号的处理、环境噪声的处理、语音识别、语音合成、说话人识别、言语韵律处理以及对话理解等多个研究领域。对于将有声语言作为物理声学信号进行处理的研究领域，通常称之为“语音”，而对于将有声语言作为语言信息载体的研究领域，则称之为“言语”。

人类的言语产生功能和言语感知功能在其成长过程中共同进化、共同发育，在大脑中形成“听、说、读”多位一体的多模态言语链。从1791年冯·肯佩伦（von Kempelen）发明了第1台高度仿真人类发音机制的机械语音合成器（称为“说话机器”）至今已有230年，从1950年贝尔实验室构建了早的语音识别系统至今已有70年。其间，人们一直遵循语音产生和感知机理对语音信号处理的原理和方法进行探究，即如何基于人的语音产生机理来解码声道特性和声源特性、如何基于人的听觉感知机理去挖掘语音的物理声学特征。本书本着“温故而知新”的原则，在介绍语音产生和感知机理的同时，对传统的语音处理技术和方法进行了简单的归纳与回顾，希望通过“重温”这些原理性的语音技术能够启迪读者的灵感，对于深入理解听觉信息处理的前沿技术有所帮助。

近年来，随着基于深度神经网络的机器学习方法的迅速发展和计算机算力的大幅度提升，在理想环境下从语音信息到文字转写的能力已经与人类的水平相当。本书在简要回顾过往成功算法的基础上，首先针对包括各种加性噪声、混响噪声以及线路回声等复杂噪声环境，探讨了语音增强的主观和客观评价方法、单声道语音增强方法以及近年来蓬勃发展的基于深度学习的语音增强方法和基于麦克风阵列的语音增强前沿技术；在回顾基于隐马尔可夫模型的经典声学建模方法的同时，探讨了结合深度学习的声学建模方法以及端到端的声学建模方法；从语音的鲁棒性特征入手，探讨了鲁棒语音识别的前端处理方法以及环境表达与声学模型的自适应方法、参数结构化自适应及自适应训练、多语种声学与语言建模、低资源小语种的语言模型建模等技术。

言语包含了语言信息、副语言信息和非语言信息。说话人的性别、年龄、嗓音、病理以及生理状态等信息虽然都属于非语言信息。但是这些反映说话人特征的信息在言语交互和其他社会活动中起着不可或缺的作用。在说话人识别方面，本书重点介绍了基于深度学习的迁移学习、多任务学习及多数据库联合学习等方法；在声纹识别方面，本书介绍了说话人特征提取的方法，并着重介绍了时变鲁棒声纹识别、短语音声纹识别和防声纹假冒闯入对策以及基于深度学习的声纹识别算法。

言语的韵律超出了语音信号本身的范畴，它一方面是交际双方的生理、心理和信息处理能力的体现，另一方面也是交际双方社会属性的体现。言语韵律的分析与建模涉及情感语音识别、语音合成以及对话理解等领域。本书从汉语的特征出发，介绍了韵律标注系统的构建，韵律分析与建模以及汉语韵律研究的挑战问题。同时介绍了情感语音声学特征的分析方法，语音的情感分类与识别以及情感语音合成等方面的技术和成果。

在人机融合的智能社会中，语音合成是实现人机自然对话的主要途径之一。当今，语音合成技术已经融入智能手机、智能家电等设备，服务于有声读物、信息查询与发布系统、办公自动化系统、虚拟现实与增强现实等诸多领域。尽管如此，这种技术尚有“不尽人意”的地方。为了聚焦其挑战性问题，本书首先回顾了基于隐马尔可夫模型的统计语音合成方法，介绍了其关键技术以及该语音合成方法的优缺点；然后重点介绍了结合深度学习的统计语音合成方法的关键技术包括基于深度学习的声学建模方法、基于神经网络的语音合成前端处理、基于深度学习的韵律边界预测以及神经网络波形生成模型的构建；后介绍了基于神经网络的语音合成端到端建模方法的前沿技术。

言语理解是语音技术真正融入人类生活的“后1公里”。本书在介绍了言语对话理解基本概念的基础上，首先讨论了言语理解算法的前沿技术，其中包括口语理解中的不确定性建模，上下文建模及领域自适应技术；然后概述了人机口语对话系统，介绍了任务型人机口语对话系统的基本架构与对话系统的性能评估问题，探讨了对话状态跟踪的前沿技术及其挑战，通过有代表性的模型进行了详细解说；后介绍了的端到端的ＤＳＴ模型以及多领域ＤＳＴ模型，探讨了对话策略优化、深度强化学习在对话策略训练中的应用以及对话策略优化训练中的前沿技术。

广大科研人员希望日益深入人心的语音技术不仅能为人们的日常生活锦上添花，更应当为听力残障人士雪中送炭，提高和改善他们的生活质量。为此，本书详细地介绍了面向健康医疗的语音技术。由于大部分言语障碍和听觉障碍是由发音／听觉器官的残疾或相关脑功能受损而引起的，本书在第1章和第9章对发音／听觉器官构造和机理从不同的侧面进行了阐述，对言语处理的脑神经机理及其前沿研究进行了介绍。此外还重点介绍了听障评估与助听技术的前沿研究、嗓音障碍产生机制与客观评估技术以及言语康复训练与学习相关的前沿技术及其研究。

本书从语音信号处理的角度全面地阐述了听觉信息处理的前沿技术与挑战性问题。本书的各位编者都是各相关领域的一线专家，其中的很多技术成果是他们及其团队多年来为我国在该领域研究做出的贡献。本书可以为听觉信息处理及相关领域的专家、工程技术人员以及对语音领域感兴趣的广大教师和学生提供学术参考。

导语摘要

　听觉信息处理技术的创新能够推动实现高度智能化机器感知系统的发展，本分册主要介绍了国内外听觉信息处理方面的研究现状和阶段性成果，通过对人类言语产生与听觉机理，听觉机理的计算理论与方法，语音信号处理，语音识别声学建模，特殊场景语音识别，声纹与语种识别，韵律、情绪及音乐分析，统计语音合成，口语对话系统等技术研究成果的阐述与分析，展示我国在这些研究领域的优势与特色，并提出未来的技术挑战与发展方向。

作者简介

俞凯，“国家杰青”获得者，青年千人计划入选者，上海市“东方学者”特聘教授，特别研究员，博导，上海交通大学智能语音技术实验室负责人。研究领域：人机口语交互，获“科学中国人 2016年度人物”，2014 年度“吴文俊人工智能科学技术奖”进步奖，发表论文 50 余篇。

党建武，天津大学计算机学院教授，语音科学家，现兼任国立大学法人日本北陆先端科学技术大学院大学信息科学学院教授。他研发出的人的发音机制及控制的生理计算模型一直在该领域处于领先地位，并以此生理计算模型为基础展开人脑在语音生成和感知方面的研究。他的研究室还进行记忆的神经生理模型及知识描述等研究。他组织和分担过美日、中日多项国际合作研究开发项目。党建武在JASA等科学技术杂志上发表了数十篇论文及二百余篇国际国内会议研究。

1　言语产生和听觉的机理及其研究／党建武　赵　彬　魏建国 ………… 1

　 1.1　言语产生和感知的机理 ………………………………………………… ３

1.1.1　有声语言产生的条件 …………………………………………… ３

1.1.2　语音产生的机理 ………………………………………………… ５

1.1.3　语音感知的机理 ………………………………………………… ７

　 1.2　声源的产生与声道的调制 …………………………………………… 13

1.2.1　声源产生机理与感知 ………………………………………… 13

1.2.2　声道的调制机理 ……………………………………………… 18

　 1.3　言语产生与感知的相互作用 ………………………………………… 24

1.3.1　言语链 ………………………………………………………… 24

1.3.2　言语感知运动理论 …………………………………………… 26

1.3.3　言语感知机理研究的发展与挑战 …………………………… 27

1.3.4　镜像神经元和言语听觉运动整合 …………………………… 28

　 1.4　言语的脑功能研究 …………………………………………………… 30

1.4.1　言语的脑认知研究发展 ……………………………………… 30

1.4.2　言语的认知神经机理 ………………………………………… 33

1.4.3　言语功能障碍及康复训练 …………………………………… 42

1.５　语音信号处理方法简介 ……………………………………………… 47

1.5.1　基于产生机理的信号处理方法 ……………………………… 48

1.5.2　基于感知机理的信号处理方法 ……………………………… 52

　参考文献 ……………………………………………………………………… 55

2　语音增强与麦克风阵列信号处理／付中华 ……………………………… 69

　 2.1　信号模型………………………………………………………………… 71

2.1.1　时域信号模型 ………………………………………………… 71

2.1.2　频域信号模型与短时傅里叶变换技术 ……………………… 72

　 2.2　评价方法………………………………………………………………… 74

2.2.1　主观评价方法与指标 ………………………………………… 74

2.2.2　客观评价方法与指标 ………………………………………… 76

　 2.3　单声道语音增强 ……………………………………………………… 78

2.3.1　时域维纳滤波器增强原理 …………………………………… 80

2.3.2　频域维纳滤波器增强原理 …………………………………… 81

2.3.3　噪声功率谱的估计 …………………………………………… 84

2.3.4　基于深度学习的语音增强 …………………………………… 87

　 2.4　麦克风阵列语音增强 ………………………………………………… 92

2.4.1　固定波束 ……………………………………………………… 93

2.4.2　自适应波束 …………………………………………………… 106

2.4.3　后置滤波技术 ………………………………………………… 113

　参考文献 ……………………………………………………………………… 119

3　语音识别声学建模／俞　凯　徐　波　戴礼荣………………………… 123

　 3.1　统计语音识别概述 …………………………………………………… 125

　 3.2　基于隐马尔可夫模型的经典声学建模方法 ……………&hellip

— 没有更多了 —