• 【全新正版】 多模态大模型:技术原理与实战
21年品牌 40万+商家 超1.5亿件商品

【全新正版】 多模态大模型:技术原理与实战

全新正版图书,支持七天退换,可开具电子发票。

55.66 5.6折 100 全新

库存42件

上海黄浦
认证卖家担保交易快速发货售后保障

作者彭勇[等]著

出版社电子工业出版社

ISBN9787121465628

出版时间2023-11

装帧平装

开本其他

定价100元

货号31885208

上书时间2024-04-19

轩天书店

已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:全新
商品描述
作者简介
"彭勇 国家公派留法博士,全球金融专业人士协会(GIFP协会)特聘专家,2020年欧耕互联网保险十大风云人物,《数据中台建设:从方法论到落地实战》作者。从事大数据和人工智能在金融行业的研究与应用工作约18年,负责相关的落地项目超过100个,在金融行业数据中台建设、数字化营销和运营体系建设、大数据和人工智能赋能、大模型研发和应用、风险管理、数智化转型等方面经验丰富。现就职于苏州数擎智技术有限公司和北京长正咨询有限公司,担任两个公司的总经理。 彭旋 本科和硕士毕业于中国石油大学(华东)数学与应用数学专业,从事多模态大模型、知识图谱、信息抽取、自然语言处理等方面的研发工作,具备丰富的多模态大模型训练、研发和企业落地经验。《知识图谱与大模型融合实践研究报告》《知识图谱互联互通白皮书》的主要作者之一。 郑志军 NLP专家,研究领域主要包括文本理解、自然语言生成等,申请7项专利。从事自然语言处理研究7年有余,有近4年大模型使用、研发经验。现担任公司AIGC组组长,研发的大模型在公共评测和客户应用上均取得了优异的成绩,在大模型研发领域具有丰富的理论和实践经验。 茹炳晟,腾讯Tech Lead,腾讯研究院特约研究员,中国计算机学会(CCF)TF研发效能SIG主席,“软件研发效能度量规范”标准核心编写专家,中国商业联合会互联网应用工作委员会智库入库专家,中国通信标准化协会TC608云计算标准和开源推进委员会云上软件工程工作组副组长,腾讯云、阿里云、华为云拥有价值专家,国内外很多技术峰会的联席主席、出品人和演讲嘉宾。公众号“茹炳晟聊软件研发”主理人。多本技术畅销书作者,著作有《软件研发行业创新实战案例解析》《测试工程师全栈技术进阶与实践》《软件研发效能提升之美》《高效自动化测试平台:设计与开发实战》《软件研发效能提升实践》《软件研发效能权威指南》,译作有《持续架构实践:敏捷和DevOps时代下的软件架构》和《现代软件工程:如何高效构建软件》等。"

目录
第1章 OpenAI一鸣惊人带来的启示 1 1.1 OpenAI的成长并非一帆风顺 2 1.2 OpenAI的成功因素 5 1.3 OpenAI特殊的股权设计带来的启示 7 1.4 思考 11 第2章 自然语言处理的发展历程 13 2.1 自然语言处理的发展史 14 2.1.1 背景介绍 14 2.1.2 自然语言处理发展的7个阶段 15 2.2 从BERT模型到ChatGPT 30 2.3 BERT模型到底解决了哪些问题 31 2.4 BERT模型诞生之后行业持续摸索 38 2.5 ChatGPT的诞生 41 2.5.1 InstructGPT模型的构建流程 42 2.5.2 ChatGPT和InstructGPT的差异 44 2.5.3 ChatGPT和BERT模型在公开数据集上的测试 45 2.5.4 高质量的数据标注 46 2.6 思考 48 第3章 读懂ChatGPT的核心技术 50 3.1 基于Transformer的预训练语言模型 50 3.2 提示学习与指令微调 55 3.3 基于人工反馈的强化学习 59 3.4 思维链方法 62 3.5 集成学习 64 3.6 思考 67 第4章 看清GPT的进化史和创新点 68 4.1 GPT技术的发展历程 68 4.1.1 GPT-1技术的发展历程 68 4.1.2 GPT-2技术的发展历程 72 4.1.3 GPT-3技术的发展历程 73 4.2 GPT的创新点总结 75 4.3 思考 77 第5章 大模型+多模态产生的“化学反应” 78 5.1 多模态模型的发展历史 78 5.2 单模态学习、多模态学习和跨模态学习的区别 82 5.3 多模态大模型发展的重大里程碑 85 5.4 大模型+多模态的3种实现方法 94 5.5 多模态大模型的效果评估 99 5.6 思考 102 第6章 多模态大模型的核心技术 103 6.1 文本多模态技术 104 6.1.1 基于模板的图像描述方法 105 6.1.2 基于检索的图像描述方法 105 6.1.3 基于深度学习的图像描述方法 105 6.2 图像多模态技术 106 6.2.1 基于对抗网络的文本生成图像方法 107 6.2.2 基于VAE的文本生成图像方法 109 6.2.3 基于扩散模型的文本生成图像方法 110 6.3 语音多模态技术 111 6.3.1 基于非深度学习的文本生成语音技术 111 6.3.2 基于深度学习的文本生成语音技术 113 6.4 视频多模态技术 116 6.4.1 非扩散模型的文本生成视频技术 117 6.4.2 基于扩散模型的文本生成视频技术 118 6.5 跨模态多重组合技术 119 6.6 多模态大模型高效的训练方法 120 6.7 GPT-4多模态大模型核心技术介绍 121 6.8 多模态技术的发展趋势 122 第7章 国内外多模态大模型对比 124 7.1 国内多模态大模型介绍 125 7.1.1 LLaMA-Adapter V2 125 7.1.2 VisualGLM-6B 128 7.1.3 mPLUG-Owl 129 7.2 国外多模态大模型介绍 131 7.2.1 Visual ChatGPT 131 7.2.2 InstructBLIP 132 7.2.3 MiniGPT-4 134 7.3 多模态大模型评测数据集 135 7.3.1 国内评测数据集 136 7.3.2 国外评测数据集 136 7.4 多模态大模型的评测标准 137 7.4.1 国内评测标准 137 7.4.2 国外评测标准 138 7.5 多模态大模型对比 139 7.5.1 感知能力评测 139 7.5.2 认知能力评测 141 7.6 思考 145 第8章 中小公司的大模型构建之路 146 8.1 微调技术介绍 147 8.1.1 LoRA技术 148 8.1.2 AdaLoRA技术 149 8.1.3 QLoRA技术 149 8.1.4 微调加DeepSpeed的ZeRO-3 150 8.2 模型压缩技术介绍 151 8.2.1 剪枝 151 8.2.2 知识蒸馏 153 8.2.3 量化压缩 154 8.3 微调实战 155 8.3.1 部分参数微调实战 156 8.3.2 全参数微调实战 157 8.4 模型压缩实战 159 8.4.1 8位量化压缩实战 159 8.4.2 4位量化压缩实战 160 8.5 思考 162 第9章 从0到1部署多模态大模型 163 9.1 部署环境准备 163 9.2 部署流程 165 9.3 使用Flask框架进行API开发 167 9.4 使用Gradio框架进行Web页面开发 171 9.5 其他部署方法介绍 176 9.6 部署过程中常见的问题总结 179 第10章 多模态大模型的主要应用场景 183 10.1 多模态大模型的应用图谱 183 10.1.1 多模态大模型的30个基础应用 183 10.1.2 多模态大模型在六大领域中的应用 189 10.2 多模态大模型在金融领域中的应用 193 10.2.1 语音质检 194 10.2.2 智能顾问 196 10.3 多模态大模型在出行与物流领域中的应用 201 10.4 多模态大模型在电商领域中的应用 203 10.4.1 智能客服 203 10.4.2 智能试穿 205 10.5 多模态大模型在工业设计与生产领域中的应用 207 10.6 多模态大模型在医疗健康领域中的应用 210 10.7 多模态大模型在教育培训领域的应用 215 10.8 思考 216 第11章 用多模态大模型打造AI助理实战 218 11.1 应用背景 218 11.2 方法论介绍 219 11.2.1 思维链解决复杂的推理问题 219 11.2.2 思维树进一步提升推理能力 220 11.2.3 采用插值法解决长文本输入问题 220 11.3 工具和算法框架介绍 222 11.3.1 使用的工具 222 11.3.2 使用的算法框架 222 11.4 优化逻辑介绍 224 11.4.1 如何提高多轮对话能力 225 11.4.2 如何提高角色扮演能力 225 11.4.3 如何提高长文本阅读能力 226 11.5 多模态大模型的部署 227 11.6 多模态大模型的性能评估 228 11.6.1 综合性能评估 228 11.6.2 长文本阅读示例 229 11.6.3 多轮对话示例 230 11.6.4 角色扮演示例 233 11.6.5 LangChain框架赋能Ziya在限定域内的问答示例 234 11.7 思考 235 第12章 多模态大模型在情绪识别领域的应用 236 12.1 应用背景和待解决的问题 236 12.2 方法论介绍 238 12.3 工具和算法框架介绍 243 12.3.1 算法的输入和输出 243 12.3.2 算法框架的整体构建流程 244 12.3.3 文本预训练任务 245 12.3.4 图像预训练任务 247 12.3.5 多模态预训练任务 248 12.3.6 算法的求解 249 12.3.7 算法的应用 250 12.4 优化逻辑介绍 251 12.5 部署流程 253 12.6 效果评测 254 12.6.1 评测数据集 254 12.6.2 评测指标 257 12.6.3 评测结果 257 12.7 思考 259 第13章 大模型在软件研发领域的实战案例与前沿探索 261 13.1 LLM在软件研发过程中的单点提效 262 13.1.1 基于GitHub Copilot的代码片段智能生成 262 13.1.2 基于Copilot X实现增强的代码片段智能生成 266 13.1.3 基于GitHub Copilot X实现对选中代码的理解与解读 268 13.1.4 基于GitHub Copilot X的Pull Requests提效 269 13.1.5 基于LLM实现的“代码刷” 270 13.1.6 使用Copilot Voice实现语音驱动的代码开发 272 13.1.7 使用Copilot CLI实现命令行的自动生成 274 13.1.8 使用TestPilot实现单元测试用例的自动生成 275 13.1.9 更多的应用 277 13.2 代码LLM为软件研发带来的机遇与挑战 277 13.2.1 对于软件研发来说,什么变了 278 13.2.2 对于软件研发来说,什么没有变 278 13.3 在LLM时代,对软件研发的更多思考 283 13.3.1 思考1:替代的是“码农”,共生的是工程师 283 13.3.2 思考2:有利于控制研发团队规模,保持小团队的 效率优势 284 13.3.3 思考3:不可避免的“暗知识” 284 13.3.4 思考4:Prompt即代码,代码不再是代码 285 13.3.5 思考5:Prompt to Executable软件研发范式的可能性 286 13.4 思考 286

内容摘要
本书详细介绍了大语言模型和多模态大模型的发展历史、技术原理和亮点、主要的开源框架、配套工具、部署细则和实战案例。为了让读者更好地进行大模型的应用实战,本书还详细介绍了使用大模型为商业赋能的3个应用案例。期望本书能够帮助读者打开通往大模型尤其是多模态大模型的学习、实战和商业成功之路。

主编推荐
"(1)单模态大模型ChatGPT只是过渡产品,多模态大模型(类似于GPT-4)才是AI 的未来。掌握了多模态大模型技术就等于先人一步打开了通往AGI的大门。 (2)详述ChatGPT的核心技术,以及GPT的进化史和创新点,让你全面了解大模型技术的演化过程和未来的发展趋势。 (3)详细介绍了大语言模型和多模态大模型的发展历史、技术原理和亮点、主要的开源框架、配套工具、部署细则和实战案例。 (4)多模态大模型的费用昂贵是很多公司的痛点。通过微调和量化压缩,让中小公司也能用得起多模态大模型,并介绍了从0到1部署多模态大模型。 (5)实战性强,详细介绍了使用大模型为商业赋能的3个应用案例。"

精彩内容
本书详细介绍了大语言模型和多模态大模型的发展历史、技术原理和亮点、主要的开源框架、配套工具、部署细则和实战案例。为了让读者更好地进行大模型的应用实战,本书还详细介绍了使用大模型为商业赋能的3个应用案例。期望本书能够帮助读者打开通往大模型尤其是多模态大模型的学习、实战和商业成功之路。

媒体评论
"智能技术的基础设施。本书以一种专业和敏锐的时代洞察力,围绕多模态大模型这一主题,从理论到实践“娓娓道来”,让您不仅能读懂多模态大模型的理论,还能熟练掌握如何应用多模态大模型进行实战,我相信本书将让您收获满满。 ——国务院政府特殊津贴专家,中国精算师协会会长 王和博士 ChatGPT的出现标志着“AI大模型时代”到来,其通过对人类知识存储、传承和使用方式的重构及表现出的多模态、多技术、多能力和多应用的发展趋势,为处于数智化转型进程中的金融企业打开了更具想象力的发展空间。现阶段,金融企业对大模型研发及应用场景的探索还处在起步阶段,亟需对相关技术全面、深入地了解,对方向和趋势客观、专业地分析,以及实战经验的分享。本书应运而生,详细介绍了大语言模型和多模态大模型的发展历史、技术原理和创新点,深入阐述了多模态大模型的部署、应用场景和实战案例,为读者打开了通往大模型尤其是多模态大模型的学习、实战和商业成功之路。 ————金科创新社新媒体总编辑、合伙人 李庆莉 OpenAI陆续发布了ChatGPT和GPT-4,无疑在IT界乃至整个社会激起了千层浪。其发展历程、背后的原理、多模态扩展、给中小公司的机遇、完整的应用案例与实践都是大家关心和迫切需要的。纵观当下,上述信息都非常碎片化地存在于互联网上。本书体系化地介绍了多模态大模型背后的原理、技术和实践,恰逢其时地弥补了多模态大模型书籍的空缺,是多模态大模型研发人员乃至IT从业者的专业读物。 --- 同济大学特聘研究员,OpenKG发起人 王昊奋 2022年下半年人工智能在生成式大模型技术领域取得了显著性突破,以ChatGPT为代表的大语言模型表现出多任务处理、多语言辨识、强语义理解等智慧涌现的特质。许多专家评价其为AGI开启了一扇窗。该类技术的跨越式进步为产业升级提供了无限想象空间。当前系统性地介绍大模型技术,尤其是多模态大模型技术的书籍凤毛麟角。本书的出版如同下了一场“及时雨”。本书对当前主流的大模型技术进行了系统性阐述,并从培养新型思维认知的角度,深入浅出、实例化地讲解了大模型的应用技术。本书对技术人员、业务人员了解生成式大模型技术,培养生成式解决方案思维大有裨益。 ——————泰康集团CTO 杜彦斌 多模态大模型是新一代人工智能主要的技术底座模型,更加符合产业的实际需求。国内目前少有能够让读者深入浅出地快速了解该领域重要知识点的关于多模态大模型的书籍。本书不仅相对系统地阐述了多模态大模型的理论和技术原理,还提供了三个实战案例,有助于各个行业更好、更快地推动多模态大模型的应用和价值实现。 ——阳光保险集团副总裁,亚洲金融协会金融科技合作委员会委员 谷伟 造出来的机器只会说不行,只有让机器能听、能说、能看,AGI才算完成大半。本书作者都是该领域的专家,对多模态大模型有很多前瞻的观点。力荐本书。 ——玄涌智能CEO 古飞"

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP