GPU高性能运算之CUDA
¥
6
1.6折
¥
38
九品
仅1件
作者张舒、褚艳利 著
出版社水利水电出版社
出版时间2009-10
版次1
装帧平装
货号W
上书时间2024-09-16
商品详情
- 品相描述:九品
图书标准信息
-
作者
张舒、褚艳利 著
-
出版社
水利水电出版社
-
出版时间
2009-10
-
版次
1
-
ISBN
9787508465432
-
定价
38.00元
-
装帧
平装
-
开本
16开
-
纸张
胶版纸
-
页数
276页
-
字数
438千字
-
正文语种
简体中文
- 【内容简介】
-
《GPU高性能运算之CUDA》是全国第一本全面介绍CUDA软硬件体系架构的书籍。全面介绍使用CUDA进行通用计算所需要的语法、硬件架构、程序优化技巧等知识,是进行GPU通用计算程序开发的入门教材和参考书。《GPU高性能运算之CUDA》共分5章。第1章介绍GPU通用计算的发展历程,介绍并行计算的历史、现状以及面临的问题;第2章介绍CUDA的使用方法,帮助读者理解CUDA的编程模型、存储器模型和执行模型,掌握CUDA程序的编写方法;第3章探讨CUDA硬件架构,深入分析TeslaGPU架构与CUDA通用计算的相互作用:第4章总结CUDA的高级优化方法,对任务划分、存储器访问、指令流效率等课题进行探讨;第5章以丰富的实例展示如何使用CUDA的强大性能解决实际问题。
《GPU高性能运算之CUDA》可作为CUDA的学习入门和编程参考书,主要面向从事高性能计算的程序员与工程师,使用GPU加速专业领域计算的科研人员,以及对GPU通用计算感兴趣的程序员。开设相关课程的高等院校与科研机构也可选用《GPU高性能运算之CUDA》作为教材。
- 【作者简介】
-
张舒,电子科技大学信息与通信工程专业硕士,现任NvIDIA深圳有限公司系统设计验证工程师,CUDA技术顾问。曾实现基于CUDA的神经网络、聚类分析、主分量分析等模式识别算法,以及信号仿真、密码破解、字符串匹配等应用。
褚艳利,西安电子科技大学计算机系硕士在读,从事高性能计算、对象识别的研发工作,喜欢并精于算法与数据结构,多次参加ACM/ICPC程序设计大赛与数模竞赛。CUDA编程及优化经验丰富,GPU高性能计算技术推广者。
赵开勇,毕业于北京理工大学飞行器总体设计专业,曾任CCUR(美国并行计算机公司)亚太区技术支持,现就读于香港浸会大学计算机系,主要从事高性能计算与网络编码技术的研究。在CSDN论坛中担任CUDA和高性能计算两个板块的大版主,积极推广高性能计算。同时担任浪潮集团GPU高性能开发顾问,提供各种应用的GPU高性能计算解决方案。2O09年NVIDIACUDA校园程序设计大赛评委。
张钰勃,长期从事数值计算、计算流体力学、计算机图形学及可视化等领域的研究,拥有丰富的GPU并行计算经验。曾在浙江大学CAD&CG国家重点实验室参与国家“973计划”研究项目并在国内外会议期刊发表多篇优秀论文。毕业于浙江大学数学系和香港浸会大学数学系,现于加州大学戴维斯分校攻读计算机博士学位。
- 【目录】
-
前言
第1章GPU通用计算
1.1多核计算的发展
1.1.1CPU多核并行
1.1.2超级计算机、集群与分布式计算
1.1.3CPU+GPU异构并行
1.2GPU发展简介
1.2.1GPU渲染流水线
1.2.2着色器模型
1.2.3NVIDIAGPU发展简介
1.3从GPGPU到CUDA
1.3.1传统GPGPU开发
1.3.2CUDA开发
第2章CUDA基础
2.1CUDA编程模型
2.1.1主机与设备
2.1.2Kernel函数的定义与调用
2.1.3线程结构
2.1.4硬件映射
2.1.5deviceQuery示例
2.1.6matrixAssign示例
2.2CUDA软件体系
2.2.1CUDAC语言
2.2.2nvcc编译器
2.2.3运行时API与驱动API
2.2.4CUDA函数库
2.3CUDA存储器模型
2.3.1寄存器
2.3.2局部存储器
2.3.3共享存储器
2.3.4全局存储器
2.35主机端内存
2.3.6主机端页锁定内存
2.3.7常数存储器
2.3.8纹理存储器
2.4CUDA通信机制
2.4.1同步函数
2.4.2Volatile关键字
2.4.3ATOM操作
2.4.4VOTE操作
2.5异步并行执行
2.5.1流
2.5.2事件
2.6CUDA与图形学API互操作
2.6.1CUDA与OpenGL的互操作
2.6.2CUDA与Direct3D互操作
2.7多设备与设备集群
2.7.1CUDA设备控制
2.7.2CUDA与openMP
2.7.3CUDA与集群
第3章CUDA硬件架构
3.1NVIDIA显卡构造简介
3.1.1图形显卡概览
3.1.2PCI-E总线
3.1.3显存
3.1.4GPU芯片
3.2Tesla图形与计算架构
3.2.1SPA-TPC-SM
3.2.2主流GPU架构
3.3Tesla通用计算模型
3.3.1数据与指令的加载
3.3.2warp指令的发射与执行
3.3.3纹理、渲染和存储器流水线
第4章CUDA程序的优化
4.1CUDA程序优化概述
4.2测量程序运行时间
4.2.1设备端测时
4.2.2主机端测时
4.3任务划分
4.3.1任务划分原则
4.3.2grid和block维度设计
4.4存储器访问优化
4.4.1主机-设备通信优化
4.42全局存储器访问优化
4.4.3共享存储器访问优化
4.4.4使用纹理存储器和常数存储器加速
4.5指令流优化
4.5.1算术指令
4.5.2控制流指令
4.5.3访存指令
4.5.4同步指令
4.6CURDAprofiler的使用
4.6.1图形分析
4.6.2图表分析
4.7优化应用举例
4.7.1矩阵乘法的优化
4.7.2并行归约的优化
4.7.3矩阵转置的优化
第5章综合应用
5.1基本应用
5.1.1双调排序网络
5.1.2Scan
5.1.3CUBLAS简单应用
5.1.4CUFFT简单应用
5.2高级应用
5.2.1共轭梯度法的CUBLAS实现
5.2.2AC多模式匹配算法的CUDA实现
附录A安装、配置、编译及调试
附录B常见问题与解答
附录C技术规范
附录DC扩展
附录E数学函数
附录F纹理拾取
附录G着色器模型
点击展开
点击收起
— 没有更多了 —
以下为对购买帮助不大的评价