消息首页搜索举报

cuda c编程指南编程语言 (美)程润伟(john cheng) 等著;成钢,殷建,李亮译新华正版

编程语言新华书店全新正版书籍支持7天无理由

59.9 6.1折 99 全新

库存74件

河北保定

认证卖家担保交易快速发货售后保障

作者(美)程润伟(john cheng) 等著;成钢,殷建,李亮译

出版社机械工业出版社

ISBN9787111565475

出版时间2017-06

版次1

装帧平装

开本16开

页数412页

定价99元

货号xhwx_1201517485

上书时间2023-12-16

浩子书屋

八年老店

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 15小时
好评率暂无

最新上架

(2册)经典科普图鉴系列动物+昆虫少儿科普 (美)大卫·詹姆斯新华正版 ¥56.19

[套6册]漫画基础医学读懂解剖生理学+读懂疫学+读懂生物化学+读懂微生物学+读懂药理学+读懂肿瘤癌症医学硬科普医学综合 ()田中稔之新华正版 ¥173.94

(全8册)经典科普图鉴系列少儿科普 (美)吉姆·苏皮卡新华正版 ¥224.76

卡林顿三册外国现当代文学 (墨)莉奥诺拉·卡林顿新华正版 ¥121.64

安全系统工程（第3版）大中专理科科技综合张景林新华正版 ¥36.35

过程微纳米技术与装备新材料许忠斌新华正版 ¥59.23

数据权益与数据交易法学理论程啸新华正版 ¥105.59

中国韧经济理论、法规宋清辉新华正版 ¥45.35

原来我值得：冒名顶替综合征疗愈手册心理学 [美]阿西娜·达尼洛(athinadanilo) 新华正版 ¥45.35

商品详情

品相描述：全新: 正版特价新书

商品描述: 目录：

译者序
序
自序
作者简介
技术审校者简介
前言
致谢
章基于cuda的异构并行计算1
1.1并行计算1
1.1.1串行编程和并行编程2
1.1.2并行3
1.1.3计算机架构4
1.2异构计算6
1.2.1异构架构7
1.2.2异构计算范例9
1.2.3cuda：一种异构计算台10
1.3用gpu输出helloworld12
1.4使用cudac编程难吗15
1.5结16
1.6题16
第2章cuda编程模型18
2.1cuda编程模型概述18
2.1.1cuda编程结构19
2.1.2内存管理20
2.1.3线程管理24
2.1.4启动一个cuda核函数29
2.1.5编写核函数30
2.1.6验证核函数31
2.1.7处理错误32
2.1.8编译和执行32
2.2给核函数计时35
2.2.1用cpu计时器计时35
2.2.2用nvprof工具计时39
2.3组织并行线程40
2.3.1使用块和线程建立矩阵索引40
2.3.2使用二维网格和二维块对矩阵求和44
2.3.3使用一维网格和一维块对矩阵求和47
2.3.4使用二维网格和一维块对矩阵求和48
2.4设备管理50
2.4.1使用运行时api查询gpu信息50
2.4.2确定很优gpu53
2.4.3使用nvidia—smi查询gpu信息53
2.4.4在运行时设置设备54
2.5结54
2.6题55
第3章cuda执行模型56
3.1cuda执行模型概述56
3.1.1gpu架构概述57
3.1.2fermi架构59
3.1.3kepler架构61
3.1.4配置文件驱动优化65
3.2理解线程束执行的本质67
3.2.1线程束和线程块67
3.2.2线程束分化69
3.2.3资源分配74
3.2.4延迟隐藏76
3.2.5占用率78
3.2.6同步81
3.2.7可扩展82
3.3并行的表现83
3.3.1用nvprof检测活跃的线程束84
3.3.2用nvprof检测内存作85
3.3.3增大并行86
3.4避分支分化88
3.4.1并行归约问题88
3.4.2并行归约中的分化89
3.4.3改善并行归约的分化93
3.4.4交错配对的归约95
3.5展开循环97
3.5.1展开的归约97
3.5.2展开线程的归约99
3.5.3接近展开的归约101
3.5.4模板函数的归约102
3.6动态并行104
3.6.1嵌套执行105
3.6.2在gpu上嵌套helloworld106
3.6.3嵌套归约109
3.7结113
3.8题113
第4章全局内存115
4.1cuda内存模型概述115
4.1.1内存层次结构的优点116
4.1.2cuda内存模型117
4.2内存管理124
4.2.1内存分配和释放124
4.2.2内存传输125
4.2.3固定内存127
4.2.4零拷贝内存128
4.2.5统一虚拟寻址133
4.2.6统一内存寻址134
4.3内存访问模式135
4.3.1对齐与合并访问135
4.3.2全局内存读取137
4.3.3全局内存写入145
4.3.4结构体数组与数组结构体147
4.3.5能调整151
4.4核函数可达到的带宽154
4.4.1内存带宽154
4.4.2矩阵转置问题155
4.5使用统一内存的矩阵加167
4.6结171
4.7题172
第5章共享内存和常量内存174
5.1cuda共享内存概述174
5.1.1共享内存175
5.1.2共享内存分配176
5.1.3共享内存存储体和访问模式176
5.1.4配置共享内存量181
5.1.5同步183
5.2共享内存的数据布局185
5.2.1方形共享内存185
5.2.2矩形共享内存193
5.3减少全局内存访问199
5.3.1使用共享内存的并行归约199
5.3.2使用展开的并行归约202
5.3.3使用动态共享内存的并行归约204
5.3.4有效带宽205
5.4合并的全局内存访问205
5.4.1基准转置内核205
5.4.2使用共享内存的矩阵转置207
5.4.3使用填充共享内存的矩阵转置210
5.4.4使用展开的矩阵转置211
5.4.5增大并行214
5.5常量内存215
5.5.1使用常量内存实现一维模板215
5.5.2与只读缓存的比较217
5.6线程束洗牌指令219
5.6.1线程束洗牌指令的不同形式220
5.6.2线程束内的共享数据222
5.6.3使用线程束洗牌指令的并行归约226
5.7结227
5.8题228
第6章流和并发230
6.1流和事件概述231
6.1.1cuda流231
6.1.2流调度234
6.1.3流的优先级235
6.1.4cuda事件235
6.1.5流同步237
6.2并发内核执行240
6.2.1非空流中的并发内核240
6.2.2fermigpu上的虚依赖关系242
6.2.3使用openmp的调度作244
6.2.4用环境变量调整流行为245
6.2.5gpu资源的并发246
6.2.6默认流的阻塞行为247
6.2.7创建流间依赖关系248
6.3重叠内核执行和数据传输249
6.3.1使用深度优先调度重叠249
6.3.2使用广度优先调度重叠252
6.4重叠gpu和cpu执行254
6.5流回调255
6.6结256
6.7题257
第7章调整指令级原语258
7.1cuda指令概述259
7.1.1浮点指令259
7.1.2函数和标准函数261
7.1.3原子作指令262
7.2程序优化指令264
7.2.1单精度与双精度的比较264
7.2.2标准函数与函数的比较266
7.2.3了解原子指令272
7.2.4综合范例277
7.3结279
7.4题280
第8章gpu加速库和openacc281
8.1cuda库概述282
8.1.1cuda库支持的作用域283
8.1.2通用的cuda库工作流283
8.2cusparse库285
8.2.1cusparse数据存储格
8.2.2用cusparse进行格式转换
8.2.3cusparse功能示例
8.2.4cusparse发展中的重要主题
8.2.5cusparse小结
8.3cublas库
8.3.1管理cublas数据
8.3.2cublas功能示例
8.3.3cublas发展中的重要主题
8.3.4cublas小结
8.4cufft库
8.4.1使用cufftapi
8.4.2cufft功能示例
8.4.3cufft小结
8.5curand库
8.5.1拟数或伪数的选择
8.5.2curand库概述
8.5.3curand介绍
8.5.4curand发展中的重要主题
8.6cuda6.0中函数库的介绍
8.6.1drop—in库
8.6.2多gpu库
8.7cuda函数库的能研究
8.7.1cusparse与mkl的比较
8.7.2cublas与mklblas的比较
8.7.3cufft与fftw及mkl的比较
8.7.4cuda库能小结
8.8openacc的使用
8.8.1openacc计算指令的使用
8.8.2openacc数据指令的使用
8.8.3openacc运行时api
8.8.4openacc和cuda库的结合
8.8.5openacc小结
8.9结
8.10题
第9章多gpu编程
9.1从一个gpu到多gpu
9.1.1在多gpu上执行
9.1.2点对点通信
9.1.3多gpu间的同步
9.2多gpu间细分计算
9.2.1在多设备上分配内存
9.2.2单主机线程分配工作
9.2.3编译和执行
9.3多gpu上的点对点通信
9.3.1实现点对点访问
9.3.2点对点的内存复制
9.3.3统一虚拟寻址的点对点内存访问
9.4多gpu上的有限差分
9.4.1二维波动方程的模板计算
9.4.2多gpu程序的典型模式
9.4.3多gpu上的二维模板计算
9.4.4重叠计算与通信
9.4.5编译和执行
9.5跨gpu集群扩展应用程序
9.5.1cpu到cpu的数据传输
9.5.2使用传统mpi在gpu和gpu间传输数据
9.5.3使用cuda—awarempi进行gpu到gpu的数据传输
9.5.4使用cuda—awarempi进行节点内gpu到gpu的数据传输
9.5.5调整消息块大小
行gpu到gpu的数据传输
9.6结
9.7题
……
0章程序实现的注意事项
附录阅读

内容简介：

本书主要介绍了如何使用gpu和利用cudac语言对其进行编程的。首先从基本的cuda概念及结构讲起，一步一步地引导读者进入cuda的世界，由浅入深地介绍了其编程要求及其架构，使读者对其有了整体印象后，逐步深入了解其机能，后介绍了gpu的一些专用函数和注意事项。

作者简介：

程润伟（johncheng），博士是休斯敦bgp国际的研究科学家，利用gpu开发出了地震成像产品，并开发了许多异构计算台上的高能并行生产应用程序。马克斯格罗斯曼（maxgrossman）是gpu计算方面的专家，主要用cuda解决医学影像、机器学和地球物理学等问题。泰麦克切尔（tymckercher）是nvidia公司的首席方案架构师，他的团队专攻跨行业的视觉计算机系统架构。他通常负责在新兴技术评估期间促进客户和产品工程团队之间的沟通交流。

— 没有更多了 —

cuda c编程指南 编程语言 (美)程润伟(john cheng) 等 著;成钢,殷建,李亮 译 新华正版

浩子书屋

商品详情

cuda c编程指南编程语言 (美)程润伟(john cheng) 等著;成钢,殷建,李亮译新华正版