作者简介
秦涛,微软亚洲研究院首席研究员、深度学习和强化学习组负责人,IEEE、ACM高级会员,中国科学技术大学客座教授,研究方向包括深度学习及其在自然语言、语音、图像处理和药物研发中的应用,强化学习及其在游戏AI和实际问题中的应用,博弈论与多智能体系统及其在云计算和在线广告中的应用,信息检索以及计算广告。他的团队提出的对偶学习及其他技术帮助微软于2018年在中英新闻翻译任务上达到了人类专家的水平,获得WMT 2019国际机器翻译大赛8项冠军,并集成到了微软翻译系统中。2019年,他和团队设计了当时优选效的语音合成模型FastSpeech,该模型支撑了微软云Azure上的所有语音(涵盖100多种语言和270多种语音)合成服务。同年,研发了麻将AI Suphx,在“天凤”平台荣升十段,安定段位8.7,显著超越人类很好选手。
目录
译者序 前言 致谢 第 1 章 绪论 1 1.1 引言 1 1.2 人工智能任务中的结构对偶性 3 1.3 对偶学习的划分 4 1.3.1 依照使用数据划分 4 1.3.2 依照对偶信号构造准则划分 4 1.4 全书总览 5 参考文献 6 第 2 章 机器学习基础 10 2.1 机器学习范式 10 2.1.1 有监督学习 11 2.1.2 无监督学习 12 2.1.3 强化学习 13 2.1.4 其他学习范式 14 2.2 机器学习算法核心组成部分 14 2.3 泛化和正则化 16 2.4 搭建机器学习模型 17 2.4.1 数据收集和特征工程 18 2.4.2 算法选择、模型训练、超参数调优 18 参考文献 19 第 3 章 深度学习基础 24 3.1 神经网络 24 3.2 卷积神经网络 27 3.3 序列建模 29 3.3.1 递归神经网络及其变种 30 3.3.2 编码器解码器架构 31 3.3.3 Transformer 网络 34 3.4 深度模型训练 36 3.4.1 随机梯度下降法 37 3.4.2 正则化 38 3.5 为什么选择深度神经网络 39 参考文献 41 第 4 章 对偶学习在机器翻译中的应用及拓展 48 4.1 机器翻译简介 48 4.1.1 神经机器翻译 49 4.1.2 回译技术 50 4.2 对偶重构准则 51 4.3 对偶半监督学习 52 4.4 对偶无监督学习 56 4.4.1 基本思想 56 4.4.2 系统架构和训练算法 57 4.5 多智能体对偶学习 60 4.5.1 模型架构 61 4.5.2 拓展和比较 62 4.5.3 多智能体对偶机器翻译 63 4.6 拓展 65 4.6.1 语义解析 65 4.6.2 文本风格迁移 66 4.6.3 对话 67 参考文献 68 第 5 章 对偶学习在图像翻译中的应用及拓展 72 5.1 简介 72 5.2 无监督图像翻译的基本思想 74 5.3 图像翻译 75 5.3.1 DualGAN 75 5.3.2 CycleGAN 77 5.3.3 DiscoGAN 80 5.4 细粒度图像翻译 80 5.4.1 细粒度图像翻译中的问题 81 5.4.2 条件 DualGAN 82 5.4.3 讨论 84 5.5 具有多路径一致性的多域图像翻译 84 5.6 拓展 86 5.6.1 人脸相关任务 86 5.6.2 视觉语言任务 87 5.6.3 其他图像相关任务 88 参考文献 88 第 6 章 对偶学习在语音处理中的应用及拓展 93 6.1 神经语音合成和识别 93 6.2 语音链的对偶学习 94 6.3 低资源语音处理的对偶学习 97 6.3.1 使用双向序列建模的去噪自编码 97 6.3.2 使用双向序列建模的对偶重构 99 6.3.3 模型训练 100 6.4 极低资源语音处理的对偶学习 101 6.4.1 预训练和微调 103 6.4.2 对偶重构 103 6.4.3 知识蒸馏 104 6.4.4 LRSpeech 的性能 105 6.5 非母语语音识别的对偶学习 106 6.5.1 非母语语音识别的难点 106 6.5.2 基于对偶重构准则的方法 106 6.6 拓展 108 参考文献 109 第 7 章 对偶有监督学习 114 7.1 联合概率准则 114 7.2 对偶有监督学习算法 115 7.3 应用 117 7.3.1 神经机器翻译 117 7.3.2 图像分类和生成 118 7.3.3 情感分析 119 7.3.4 问题回答和问题生成 120 7.3.5 代码摘要和代码生成 121 7.3.6 自然语言理解和生成 125 7.4 理论分析 126 参考文献 127 第 8 章 对偶推断 131 8.1 基本架构 131 8.2 应用 133 8.3 理论分析 134 参考文献 136 第 9 章 基于边缘概率的对偶半监督学习 138 9.1 边缘概率的高效估计 138 9.2 以边缘概率为约束 140 9.3 无标数据的似然优选化 141 9.4 讨论 143 参考文献 144 第 10 章 对偶重构的理论解读 148 10.1 概述 148 10.2 对偶重构准则在无监督学习中的解读 149 10.2.1 对偶无监督映射的建模 149 10.2.2 存在的问题和简单性假设 151 10.2.3 最小复杂度 152 10.3 对偶重构准则在半监督学习中的解读 154 10.3.1 算法和符号说明 155 10.3.2 双语翻译 156 10.3.3 多域对偶学习 160 参考文献 161 第 11 章 对偶学习和其他学习范式的联系 164 11.1 对偶半监督学习和协同训练 164 11.2 对偶学习和多任务学习 166 11.3 对偶学习、GAN 和自编码器 166 11.4 对偶有监督学习和贝叶斯阴阳学习 167 11.5 对偶重构及相关概念 168 参考文献 169 第 12 章 总结和展望 174 12.1 总结 174 12.2 未来研究方向 175 12.2.1 更多的学习环境和应用 175 12.2.2 提升训练效率 177 12.2.3 理论研究 178 参考文献 178
内容摘要
第1章绪论
很多机器学习任务是以原始任务-对偶任务形式出现的,例如英语到德语的翻译和德语到英语的翻译、语音合成和语音识别、图像描述生成和文字生成图像。对偶学习是一种新的学习范式,它利用两个任务之间的对偶性来提高两个任务的训练或测试性能。
本章将概述对偶学习并概览全书。
1.1 引言
深度学习正在驱动和引领人工智能(Artificial Intelligence,AI)的浪潮。随着深度学习的应用,人工智能在很多领域(例如计算机视觉、语音合成、自然语言处理、游戏等)取得了突破性进展。
·2015年,深度卷积神经网络ResNet[6](152层)在大型图像分类数据集上实现了3.57%的识别错误率,超过了人类的识别错误率5.1%。
·2016年,基于深度神经网络和树搜索的围棋程序AlphaGo[13]打败了围棋世界冠军,成为历史上第一个超越顶尖人类专业选手的围棋程序。
·2016年,由微软设计的语音识别系统[24]在一个公开的对话语音识别数据集上实现了5.9%的单词错误率(Word Error Rate,WER)。这个效果达到了人类水平,甚至比专业的转译员的错误率更低。
·2018年,一个基于深度神经网络的翻译系统[]在公开的汉语-英语翻译数据集上,达到了和人类一样的翻译水平。
·2019年,基于深度强化学习的麻将系统Suphx(超级凤凰)[8]成为史上第一个达到10段的麻将系统,并且在安定段位上,超过了顶级人类选手。
深度学习的成功依赖大量人工标注的数据。如表1.1所示,ResNet用了百万量级的带有标签的图像训练分类器:AlphaGoe和Suphx用了千万量级的专家走子或出牌的数据进行模型训练;语音识别系统需要上千小时的语音数据进行训练;机器翻译系统需要千万量级的双语语句对进行训练。此外,深度学习系统被证明会受益于更多的数据。文献[10]表明,使用百亿量级数据训练得到的神经机器翻译系统优于千万量级语料训练得到的系统。类似的结论也在图像分类任务中被发现[9:用数十亿有类别标签的图像训练得到的图像分类器效果显著优于用百万量级数据训练得到的分类器。
不幸的是,在现实任务中获取专家标注数据通常成本很高。更困难的是,在一些任务中,很难找到足够的专家进行数据标注。例如,对于两种非常冷门的语言的翻译任务,可能没有专家能同时理解两种语言。因此,尽管一些任务有足够的有标数据,但更多的任务比较难获得足够的有标数据进行训练。如图1.1所示,对于比较流行的语言之间的翻译,例如英语、德语、捷克语,存在千万量级的平行语料。相比之下,对于一些冷门语言(例如古吉拉特语)到英语的翻译,只有少于20万的双语语料。
因此,如何降低对大规模有标训练数据的需求,以及更好地利用有限的有标数据,是机器学习领域(尤其是深度学习领域)的一个热点研究方向。研究员们提出了多种不……
精彩内容
本书系统全面地阐述了对偶学习,使得相关研究人员和从业者能够更好地了解该领域的前沿技术。全书分为五部分。第1部分简要介绍机器学习和深度学习的基础知识。第2部分以机器翻译、图像翻译、语音处理及其他自然语言处理/计算机视觉为例,详细介绍了基于对偶重构准则的算法。第3部分是基于概率准则的若干工作,包括基于联合概率的对偶有监督学习和对偶推断,以及基于边缘概率的对偶半监督学习。第4部分从理论角度解读了对偶学习,并且讨论了和其他学习范式的关联。第5部分总结全书并给出若干未来研究方向。
以下为对购买帮助不大的评价