视觉问答:理论与实践
正版保障 假一赔十 可开发票
¥
74.05
6.3折
¥
118
全新
库存15件
作者吴琦,王鹏,王鑫 等
出版社电子工业出版社
ISBN9787121475313
出版时间2023-05
装帧平装
开本16开
定价118元
货号17555789
上书时间2025-01-02
商品详情
- 品相描述:全新
- 商品描述
-
目录
第1 章简介1
1.1 视觉问答的动机1
1.2 人工智能任务中的视觉问答4
1.3 视觉问答类别5
1.3.1 数据分类驱动6
1.3.2 任务分类驱动7
1.3.3 其他7
参考文献8
第1 部分基础理论
第2 章深度学习基础15
2.1 神经网络15
2.2 卷积神经网络17
2.3 循环神经网络及变体18
2.4 编码器-解码器结构20
2.5 注意力机制20
2.6 记忆网络21
……
内容摘要
视觉问答任务要求机器根据指定的视觉图像内容, 对单轮或多轮的自然语言问题进行作答。其本质上是一个多学科的研究问题,涉及计算机视觉、自然语言处理、知识表示与推理等。本书共5 部分,第1 部分介绍在计算机视觉和自然语言处理领域广泛使用的基本方法和技术,包括卷积神经网络、序列建模和注意力机制等。本书将视觉问答分为图像和视频方法。第2 部分将图像视觉问答进一步分为五类,即联合嵌入、注意力机制、记忆网络、组合推理和图神经网络。此外,概述基于图像的其他视觉问答任务,例如基于知识的视觉问答、视觉问答的视觉和语言预训练。第3 部分讨论基于视频的视觉问答及其相关模型。第4 部分讨论与视觉问答相关的高级任务,包括具身视觉问答、医学视觉问答、基于文本的视觉问答、视觉问题生成、视觉对话和指代表达理解,它们是视觉问答任务的扩展。第5 部分对该领域进行总结和展望,讨论视觉问答领域的未来研究方向。
精彩内容
视觉问答任务要求机器根据指定的视觉图像内容,对单轮或多轮的自然语言问题进行作答。其本质上是一个多学科的研究问题,涉及计算机视觉、自然语言处理、知识表示与推理等。本书共5部分,第1部分介绍在计算机视觉和自然语言处理领域广泛使用的基本方法和技术,包括卷积神经网络、序列建模和注意力机制等。本书将视觉问答分为图像和视频方法。第2部分将图像视觉问答进一步分为五类,即联合嵌入、注意力机制、记忆网络、组合推理和图神经网络。此外,概述基于图像的其他视觉问答任务,例如基于知识的视觉问答、视觉问答的视觉和语言预训练。第3部分讨论基于视频的视觉问答及其相关模型。第4部分讨论与视觉问答相关的高级任务,包括具身视觉问答、医学视觉问答、基于文本的视觉问答、视觉问题生成、视觉对话和指代表达理解,它们是视觉问答任务的扩展。第5部分对该领域进行总结和展望,讨论视觉问答领域的未来研究方向。
本书既可以作为视觉问答领域关键模型的综述,也可作为计算机视觉和自然语言处理领域的研究人员,尤其是专注于视觉问答的研究人员和学生的教材。
— 没有更多了 —
以下为对购买帮助不大的评价