• 多模态深度学习技术基础
21年品牌 40万+商家 超1.5亿件商品

多模态深度学习技术基础

正版库存书,量大可联系客服!如遇图片不符,书名为准,感谢支持!

74.25 7.5折 99 全新

库存3件

河北保定
认证卖家担保交易快速发货售后保障

作者冯方向,王小捷

出版社清华大学出版社

ISBN9787302637479

出版时间2023-09

版次1

装帧平装

开本16开

纸张胶版纸

定价99元

货号9171990

上书时间2024-10-06

7号书虫

四年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
温馨提示:5折以下图书多为出版社尾货,大部分为全新,个别图书品相存在切口、划线标记、光盘等附件不全的情况,发货前会统一检查征求您的意见,如有疏忽之处,收到货后可联系客服协商处理,感谢配合!
商品描述
基本信息
书名:多模态深度学习技术基础
定价:99元
作者:冯方向,王小捷
出版社:清华大学出版社
出版日期:2023-09-01
ISBN:9787302637479
字数:
页码:
版次:
装帧:平装
开本:16开
商品重量:
编辑推荐
全书分为初识多模态信息处理、单模态深度学习表示技术、多模态深度学习基础技术、多模态预训练技术四个单元,涵盖多模态表示、对齐、融合、转换和预训练技术。  提供四个完整的实战案例,分别对应多模态表示、对齐、融合和转换这四个基础技术,把多模态深度学习技术融入实践中,加深学生对技术的理解和掌握。提供案例的Jupyter Notebook文件,支持教师一键讲解。  可作为高等院校相关专业的教材,也可作为教辅资料,还可作为学习多模态深度学习技术的参考书。
内容提要

目录
章 绪论 11.1 多模态信息处理的概念 11.2 多模态信息处理的难点 21.3 使用深度学习技术的动机 31.4 多模态信息处理的基础技术 41.4.1 表示技术 41.4.2 对齐技术 41.4.3 融合技术 51.4.4 转换技术 51.5 多模态深度学习技术的发展历史 51.6 小结 81.7 习题 9第2章 多模态任务 102.1 图文跨模态检索 102.1.1 数据集 112.1.2 评测指标 122.2 图像描述 132.2.1 数据集 142.2.2 评测指标 142.3 视觉问答 192.3.1 数据集 202.3.2 评测指标 232.4 文本生成图像 232.4.1 数据集 242.4.2 评测指标 252.5 指称表达 272.5.1 数据集 292.5.2 评测指标 302.6 小结 312.7 习题 31第3章 文本表示 323.1 基于词嵌入的静态词表示 333.1.1 Word2vec 333.1.2 GloVe 353.2 基于循环神经网络的动态词表示 363.2.1 循环神经网络基础 363.2.2 现代循环神经网络 373.2.3 动态词表示和整体表示 403.3 基于注意力的预训练语言模型表示 423.3.1 自注意力 433.3.2 transformer编码器 463.3.3 BERT 473.3.4 BERT词表示和整体表示 493.4 小结 503.5 习题 50第4章 图像表示 514.1 基于卷积神经网络的整体表示和网格表示 534.1.1 卷积神经网络基础 534.1.2 现代卷积神经网络 544.1.3 整体表示和网格表示 554.2 基于目标检测模型的区域表示 574.2.1 基于深度学习的目标检测基础 574.2.2 区域表示 584.3 基于视觉transformer的整体表示和块表示 594.3.1 使用自注意力代替卷积 594.3.2 视觉transformer 604.3.3 整体表示和块表示 614.4 基于自编码器的压缩表示 624.4.1 量化自编码器:VQ-VAE 624.4.2 量化生成对抗网络:VQGAN 644.4.3 变分生成对抗网络:KLGAN 674.4.4 压缩表示 674.5 小结 684.6 习题 68第5章 多模态表示 695.1 共享表示 715.1.1 多模态深度自编码器 725.1.2 多模态深度生成模型 735.2 对应表示 795.2.1 基于重构损失的方法 805.2.2 基于排序损失的方法 815.2.3 基于对抗损失的方法 845.3 实战案例:基于对应表示的跨模态检索 855.3.1 跨模态检索技术简介 855.3.2 模型训练流程 865.3.3 读取数据 875.3.4 定义模型 955.3.5 定义损失函数 995.3.6 选择优化方法 1005.3.7 评估指标 1015.3.8 训练模型 1035.4 小结 1075.5 习题 107第6章 多模态对齐 1096.1 基于注意力的方法 1106.1.1 交叉注意力 1106.1.2 基于交叉注意力的图文对齐和相关性计算 1126.2 基于图神经网络的方法 1156.2.1 图神经网络基础 1156.2.2 单模态表示提取 1206.2.3 单模态图表示学习 1206.2.4 多模态图对齐 1226.3 实战案例:基于交叉注意力的跨模态检索 1236.3.1 读取数据 1236.3.2 定义模型 1296.3.3 定义损失函数 1316.3.4 选择优化方法 1376.3.5 评估指标 1376.3.6 训练模型 1406.4 小结 1436.5 习题 144第7章 多模态融合 1457.1 基于双线性融合的方法 1467.1.1 多模态低秩双线性池化 1477.1.2 多模态因子双线性池化 1487.1.3 多模态Tucker融合 1497.2 基于注意力的方法 1507.2.1 基于交叉注意力的基础方法 1507.2.2 基于多步交叉注意力的方法 1517.2.3 基于交叉transformer编码器的方法 1527.3 实战案例:基于MFB的视觉问答 1537.3.1 视觉问答技术简介 1537.3.2 读取数据 1547.3.3 定义模型 1657.3.4 定义损失函数 1707.3.5 选择优化方法 1707.3.6 选择评估指标 1717.3.7 训练模型 1717.4 小结 1757.5 习题 175第8章 多模态转换 1778.1 基于编解码框架的方法 1788.1.1 基于循环神经网络的编解码模型 1798.1.2 基于注意力的编解码模型 1818.1.3 基于transformer的编解码模型 1838.2 基于生成对抗网络的方法 1858.2.1 基于条件生成对抗网络的基本方法 1858.2.2 基于多阶段生成网络的方法 1878.2.3 基于注意力生成网络的方法 1918.3 实战案例:基于注意力的图像描述 1938.3.1 图像描述技术简介 1938.3.2 读取数据 1948.3.3 定义模型 1958.3.4 定义损失函数 2038.3.5 选择优化方法 2048.3.6 选择评估指标 2048.3.7 训练模型 2068.4 小结 2098.5 习题 210第9章 多模态预训练 2119.1 总体框架 2119.2 预训练数据集 2129.3 模型结构 2139.3.1 基于编码器的模型 2149.3.2 基于编解码框架的模型 2159.4 预训练任务 2169.4.1 掩码语言模型 2169.4.2 掩码视觉模型 2169.4.3 图像文本匹配 2179.4.4 跨模态对比学习 2179.5 下游任务 2179.5.1 视觉常识推理 2179.5.2 视觉语言推理 2189.5.3 视觉蕴含 2189.6 典型模型 2189.6.1 基于融合编码器的双流模型:LXMERT 2189.6.2 基于融合编码器的单流模型:ViLT 2209.6.3 基于双编码器的模型:CLIP 2229.6.4 基于编解码框架的模型:OFA 2239.7 小结 2269.8 习题 226参考文献 227
作者介绍

序言

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

温馨提示:5折以下图书多为出版社尾货,大部分为全新,个别图书品相存在切口、划线标记、光盘等附件不全的情况,发货前会统一检查征求您的意见,如有疏忽之处,收到货后可联系客服协商处理,感谢配合!
此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP