{正版现货新书} 视觉语言模型VLM原理与实战 9787122478733 吴建明，吴一昊编著

全新正版现货，以书名为准，放心购买，购书咨询18515909251朱老师

58.55 5.9折 99 全新

库存34件

北京丰台

作者吴建明，吴一昊编著

出版社化学工业出版社

ISBN9787122478733

出版时间2024-03

装帧平装

开本16开

定价99元

货号18633404

上书时间2025-12-11

商品详情

品相描述：全新

商品描述: 作者简介
无

目录
第1章  视觉任务的视觉语言模型综述
  1.1  视觉语言模型摘要
  1.2  视觉语言模型问题提出
  1.3  视觉语言模型背景
    1.3.1  视觉识别的训练范式
    1.3.2  用于视觉识别的VLM的开发
    1.3.3  相关调查
  1.4  VLM基础
    1.4.1  网络架构
    1.4.2  VLM预训练目标
    1.4.3  VLM预训练框架
    1.4.4  评估设置和下游任务
  1.5  数据集
    1.5.1  预训练VLM的数据集
    1.5.2  VLM评估数据集
  1.6  视觉语言模型预训练
    1.6.1  具有对抗目标的VLM预训练
    1.6.2  具有生成目标的VLM预训练
    1.6.3  带有对齐目标的VLM预训练
  1.7  VLM 迁移学习
    1.7.1  迁移学习的动机
    1.7.2  迁移学习的常见设置
    1.7.3  常见的迁移学习方法
  1.8  视觉大模型语言知识提炼
    1.8.1  从VLM中提取知识的动机
    1.8.2  常识提炼方法
  1.9  性能比较
    1.9.1  VLM预训练的表现
    1.9.2  VLM迁移学习的性能
    1.9.3  VLM知识提取的性能
  1.10  未来发展方向
  1.11  小结
第2章  视觉语言模型各种示例
  2.1  通过模仿和自我监督学习创建多模态交互代理
  2.2  DEPT：用于参数高效微调的分解式快速调谐
  2.3  基于聚类掩蔽的高效视觉语言预训练
  2.4  来自并行文本世界的LLM训练的体现多模态智能体
  2.5  在丰富的监督下加强视觉语言预训练
  2.6  FairCLIP：在视觉和语言学习中强调公平
  2.7  用于开放式目标检测的生成区域语言预训练
  2.8  FROSTER：冻结的CLIP是开放词汇动作识别的有力教师
  2.9  Ins-DetCLIP：对齐检测模型以遵循人类语言指令
  2.10  MMICL：通过多模态语境学习增强视觉语言模型的能力
  2.11  学习提示分割任何模型
  2.12  NEMESIS：视觉语言模型软性向量的归一化
  2.13  非自回归序列到序列视觉语言模型
  2.14  一个提示词足以提高预训练视觉语言模型的对抗鲁棒性
  2.15  连续学习的快速梯度投影
  2.16  检索增强对比视觉文本模型
  2.17  TCP：基于文本的类感知可视化语言模型的提示调优
  2.18  联合学习中视觉语言模型的文本驱动提示生成
第3章  大视觉语言模型的少数样本任务适配
  3.1  少数样本任务适配概述
  3.2  少数样本任务适配相关知识
    3.2.1  少数样本任务适配历史渊源
    3.2.2  相关工作概述
  3.3  少数样本任务适配准备工作
    3.3.1  对比视觉语言预训练大规模VLM
    3.3.2  可迁移性
    3.3.3  使用适配器进行高效迁移学习
    3.3.4  现有少样本任务ETL方法的陷阱
  3.4  少样本任务拟议办法
    3.4.1  重新审视线性探测
    3.4.2  约束线性探测
    3.4.3  线性探测的类自适应约束
  3.5  少样本任务实验
    3.5.1  安装程序
    3.5.2  少样本任务测试结果
    3.5.3  少样本任务消融实验
  3.6  少样本任务限制
第4章  基于锚点的视觉语言模型鲁棒微调
  4.1  锚点视觉语言模型鲁棒微调概要
  4.2  锚点视觉语言模型鲁棒微调相关技术
    4.2.1  锚点视觉语言模型鲁棒微调问题提出
    4.2.2  锚点视觉语言模型鲁棒微调相关工作
  4.3  锚点视觉语言模型鲁棒微调准备工作
    4.3.1  符号摘要
    4.3.2  对比视觉语言模型
  4.4  锚点视觉语言模型鲁棒微调方法
    4.4.1  问题设置
    4.4.2  基于锚点的稳健微调概述
  4.5  锚点视觉语言模型鲁棒微调实验
    4.5.1  域转换下的评估
    4.5.2  零样本学习下的评价
    4.5.3  消融研究
    4.5.4  锚的定性示例
  4.6  小结
第5章  视觉语言模型的一致性引导快速学习
  5.1  一致性引导快速学习摘要
  5.2  一致性引导快速学习问题提出及相关工作
    5.2.1  一致性引导快速学习问题提出
    5.2.2  一致性引导快速学习相关工作
  5.3  一致性引导快速学习方法
    5.3.1  准备工作
    5.3.2  协同学习：以一致性为导向的快速学习
  5.4  一致性引导快速学习4个实验
    5.4.1  实验设置
    5.4.2  新概括的基础
    5.4.3  跨数据集评估
    5.4.4  域泛化
    5.4.5  消融研究
    5.4.6  参数和计算复杂度
  5.5  小结
第6章  InternVL：扩展视觉基础模型并对齐通用视觉语言任务
  6.1  InternVL扩展视觉基础模型并对齐摘要
  6.2  扩展视觉基础模型并对齐问题提出及相关工作
    6.2.1  扩展视觉基础模型并对齐问题提出
    6.2.2  扩展视觉基础模型并对齐相关工作
  6.3  扩展视觉基础模型并对齐拟议方法
    6.3.1  总体架构
    6.3.2  模型设计
    6.3.3  对齐策略
  6.4  扩展视觉基础模型并对齐实验
    6.4.1  实施细节
    6.4.2  视觉感知基准
    6.4.3  视觉语言基准
    6.4.4  多模式对话基准
    6.4.5  消融研究
  6.5  扩展视觉基础模型并对齐结论
  6.6  扩展视觉基础模型并对齐补充材料
    6.6.1  更多实验
    6.6.2  更多消融研究
    6.6.3  详细训练设置
    6.6.4  预训练数据准

内容摘要
本书系统阐述了视觉语言模型的理论体系与技
术实践。全书共15章，分为三大部分：基础综述（第1章）、关键技术（第2～14章）与未来展望（第15章）。
第一部分详解视觉语言模型的网络架构、预训练目标、评估方法及数据集体系，对比分析对抗训练、生成式预训练等范式，并建立性能评估基准。
第二部分：第2章通过多个案例展示技术多样性；第3～5章深入探讨少样本学习、鲁棒微调等关键问题，提出约束线性探测等原创方法；第6～10章聚焦模型扩展性，涵盖InternVL亿级参数训练、VinVL视觉表征重构等前沿实践；第11～14章探索提示工程、异常检测等应用场景，包含MATCHER一次性分割等突破性方案。第三部分展望多模态生成、组合推理等未来方向。
本书系统性与前沿性并重，理论与实践结合，非常适合AI算法工程师、大模型及多模态人工智能研究者学习，也可用作高等院校相关专业的教材及参考书。

精彩内容
本书系统阐述了视觉语言模型的理论体系与技
术实践。全书共15章，分为三大部分：基础综述（
第1章）、关键技术（第2～14章）与未来展望（第
15章）。
    第一部分详解视觉语言模型的网络架构、预训
练目标、评估方法及数据集体系，对比分析对抗训
练、生成式预训练等范式，并建立性能评估基准。
第二部分：第2章通过多个案例展示技术多样性；第
3～5章深入探讨少样本学习、鲁棒微调等关键问题
，提出约束线性探测等原创方法；第6～10章聚焦模
型扩展性，涵盖InternVL亿级参数训练、VinVL视
觉表征重构等前沿实践；第11～14章探索提示工程
、异常检测等应用场景，包含MATCHER一次性分割
等突破性方案。第三部分展望多模态生成、组合推
理等未来方向。
    本书系统性与前沿性并重，理论与实践结合，
非常适合AI算法工程师、大模型及多模态人工智能
研究者学习，也可用作高等院校相关专业的教材及
参考书。