• GPU编程与优化—大众高性能计算
21年品牌 40万+商家 超1.5亿件商品

GPU编程与优化—大众高性能计算

218 59 九五品

仅1件

北京朝阳
认证卖家担保交易快速发货售后保障

作者方民权 张卫民 方建滨 周海芳 高畅

出版社清华大学出版社

ISBN9787302446422

出版时间2016-09

版次1

装帧平装

开本16开

纸张胶版纸

页数416页

字数99999千字

定价59元

上书时间2024-04-01

埃利奥

三年老店
已实名 已认证 进店 收藏店铺

   商品详情   

品相描述:九五品
商品描述
基本信息
书名:GPU编程与优化—大众高性能计算
定价:59.00元
作者:方民权 张卫民 方建滨 周海芳 高畅
出版社:清华大学出版社
出版日期:2016-09-01
ISBN:9787302446422
字数:660000
页码:416
版次:1
装帧:平装
开本:16开
商品重量:
编辑推荐

内容提要
本书篇系统地介绍GPU编程的相关知识,帮助读者快速入门,并构建GPU知识体系;第二篇和第三篇给出大量实例,对每个实例进行循序渐进的并行和优化实践,为读者提供GPU编程和优化参考;第四篇总结影响GPU性能的关键要素(执行核心和存储体系),量化测评GPU的核心性能参数,给出CPU/GPU异构系统上覆盖完全的各种混合并行模式及其实践,帮助读者真正透彻理解GPU。本书适合作为计算机及相关专业的教材,也可作为GPU程序开发人员和科研人员的参考书。本书封面贴有清华大学出版社防伪标签,无标签者不得销售。
目录
篇理论篇章高性能计算概述31.1高性能计算概念辨析31.1.1并行计算、高性能计算和超级计算31.1.2超级计算机与超级计算中心41.2计算科学51.3高性能计算发展史51.4高性能计算简介61.5向量机与阵列机81.6本章小结9第2章GPU概述102.1GPU是什么102.2协处理器102.3GPU与显卡的关系112.4GPU/显卡购买注意事项112.5为什么要学GPU编程122.6GPU与CPU辨析132.7GPU发展简史142.8GPU编程方法142.9CPU/GPU异构系统16第3章GPU硬件架构173.1GPU架构173.1.1Tesla架构183.1.2Fermi架构203.1.3Kepler架构213.1.4Maxwell架构233.1.5Pascal架构243.2Kernel的硬件映射283.3GPU存储体系293.4GPU计算能力30GPU编程与优化——大众高性能计算目录第4章GPU软件体系334.1GPU软件生态系统334.2CUDA Toolkit344.2.1NVCC编译器344.2.2cuobjdump354.3CUDA环境安装364.3.1Windows 7安装CUDA 4.2364.3.2Linux下安装CUDA38第5章CUDA C编程415.1CUDA编程模型415.2CUDA编程七步曲425.3驱动API与运行时API425.4CUDA运行时函数435.4.1设备管理函数435.4.2存储管理函数455.4.3数据传输函数485.4.4线程管理函数515.4.5流管理函数525.4.6事件管理函数525.4.7纹理管理函数535.4.8执行控制函数555.4.9错误处理函数555.4.10图形学互操作函数575.4.11OpenGL互操作函数585.4.12Direct3D互操作函数595.5CUDA C语言扩展605.6gridblockthread三维模型61第二篇入门篇第6章向量加法676.1向量加法及其串行代码676.2单block单thread向量加686.3单block多thread向量加686.4多block多thread向量加696.5CUBLAS库向量加法706.6实验结果分析与结论716.6.1本书实验平台716.6.2实验结果716.6.3结论716.7知识点总结726.8扩展练习75第7章归约: 向量内积767.1向量内积及其串行代码767.2单block分散归约向量内积777.3单block低线程归约向量内积787.4多block向量内积(CPU二次归约)797.5多block向量内积(GPU二次归约)817.6基于原子操作的多block向量内积817.7计数法实现多block向量内积847.8CUBLAS库向量内积857.9实验结果与结论867.9.1实验结果867.9.2结论867.10归约的深入优化探讨877.10.1block数量和thread数量对归约性能的影响877.10.2算术运算优化887.10.3减少同步开销897.10.4循环展开907.10.5总结917.11知识点总结917.12扩展练习94第8章矩阵乘法958.1矩阵乘法及其3种串行代码958.1.1一般矩阵乘法958.1.2循环交换矩阵乘法978.1.3转置矩阵乘法988.1.4实验结果与优串行矩阵乘998.2grid线程循环矩阵乘法1008.3block线程循环矩阵乘法1018.4行共享存储矩阵乘法1018.5棋盘阵列矩阵乘法1038.6判断移除1058.7CUBLAS矩阵乘法1068.8实验结果分析与结论1088.8.1矩阵乘精度分析1088.8.2实验结果分析1108.8.3浮点运算能力分析1118.9行共享存储矩阵乘法改进1118.10知识点总结1138.11扩展练习115第9章矩阵转置1169.1矩阵转置及其串行代码1169.21D矩阵转置1179.32D矩阵转置1189.4共享存储2D矩阵转置1199.5共享存储2D矩阵转置diagonal优化1209.6实验结果分析与结论1219.7共享存储2D矩阵转置的深入优化1229.8知识点总结1249.9扩展练习125第三篇提高篇0章卷积12910.1卷积及其串行实现12910.1.1一维卷积12910.1.2二维卷积13110.2GPU上1D卷积13410.3M常量1D卷积13510.4M共享1D卷积13610.5N共享1D卷积13710.6实验结果分析13910.6.1扩展法1D卷积实验结果分析13910.6.2判断法与扩展法1D卷积对比14010.6.3加速比分析14110.6.4线程维度对性能的影响14110.72D卷积的GPU移植与优化14210.7.1GPU上2D卷积14210.7.2M常量2D卷积14310.7.3M常量N共享2D卷积14310.7.42D卷积实验结果分析14510.8知识点总结14510.9扩展练习1471章曼德博罗特集14811.1曼德博罗特集及其串行实现14811.2曼德博罗特集的GPU映射15011.3一些优化尝试及效果15211.3.1访存连续15211.3.2uchar4访存合并15311.3.34种零拷贝15311.3.4总结分析15511.4计算通信重叠优化15611.5突破kernel执行时间限制15911.6知识点总结16011.7扩展练习1622章扫描: 前缀求和16312.1前缀求和及其串行代码16312.2KoggeStone并行前缀和16412.2.1直接KoggeStone分段前缀和16412.2.2交错KoggeStone分段前缀和16512.2.3完整KoggeStone前缀和16612.3BrentKung并行前缀和16812.3.1BrentKung分段前缀和16912.3.2两倍数据的BrentKung分段前缀和17012.3.3避免bank conflict的两倍数据BrentKung分段前缀和17112.3.4完整BrentKung前缀和17312.4warp分段的KoggeStone前缀求和17412.5实验结果分析与结论17712.6知识点总结17912.7扩展练习1803章排序18113.1串行排序及其性能18113.1.1选择排序18113.1.2冒泡排序18213.1.3快速排序18213.1.4基数排序18313.1.5双调排序网络18513.1.6合并排序18613.1.7串行排序性能对比18713.2基数排序18813.2.1基数排序概述18813.2.2单block基数排序18913.2.3基于thrust库的基数排序19613.3双调排序网络19713.3.1双调排序网络概述19713.3.2单block双调排序网络19913.3.3多block双调排序网络20213.4快速排序20613.5合并排序20713.6实验结果分析与结论20813.7知识点总结20913.8扩展练习2104章几种简单图像处理21114.1图像直方图统计21114.1.1串行直方图统计21114.1.2并行直方图统计21114.1.3实验结果与分析21214.2中值滤波21314.2.1串行中值滤波21414.2.21D并行中值滤波21514.2.3共享1D中值滤波21614.2.4双重共享1D中值滤波21814.2.52D并行中值滤波22114.2.6共享2D中值滤波22214.2.7共享2D中值滤波的改进22714.2.8实验结果与分析22914.3均值滤波23114.3.1串行均值滤波23114.3.2并行均值滤波23214.3.3实验结果与分析233第四篇核心篇5章GPU执行核心23715.1概述23715.2算术运算支持23815.2.1整数运算23815.2.2浮点运算23915.3算术运算性能24015.4分支处理24215.5同步与测时24615.5.1同步24615.5.2测时24715.6数学函数24715.7warp与block原语24915.7.1warp原语24915.7.2block原语25015.8kernel启动、线程切换和循环处理2516章GPU存储体系25416.1概述25416.2寄存器25916.3局部存储26116.4共享存储器26416.4.1共享存储使用26416.4.2bank conflict26516.4.3volatile关键字26616.4.4共享存储原子操作26716.5常量存储26816.6全局存储26916.6.1全局存储的使用26916.6.2全局存储的合并访问27116.6.3利用纹理缓存通道访问全局存储27116.7纹理存储27316.7.1CUDA数组27316.7.2纹理存储的操作和限制27416.7.3读取模式、纹理坐标、滤波模式和寻址模式27616.7.4表面存储27816.8主机端内存28116.9零拷贝操作2837章GPU关键性能测评28417.1GPU性能测评概述28417.2GPU参数获取28617.2.1GPU选择28617.2.2详细设备参数获取28717.3精确测时方法汇总28817.3.1clock测时28917.3.2gettimeofday测时28917.3.3CUDA事件测时28917.3.4cutil库函数测时29017.4GPU预热与启动开销29017.5GPU浮点运算能力29117.6GPU访存带宽29317.7GPU通信带宽29517.8NVIDIA Visual Profiler29617.9程序性能对比约定2988章CPUs和GPUs协同29918.1协同优化基点29918.1.1CPU并行矩阵乘基点29918.1.2GPU并行矩阵乘基点30018.2CPU/GPU协同30018.3多GPU协同30518.3.1CUDA版本30618.3.2OpenMP+CUDA30818.3.3MPI+CUDA31118.4CPUs/GPUs协同31418.4.1CUDA版本31418.4.2OpenMP+CUDA31918.4.3MPI+OpenMP+CUDA32418.5本章小结329附录附录A判断法1D卷积代码333附录A.1判断法1D卷积basic版333附录A.2判断法1D卷积constant版334附录A.3判断法1D卷积shared版336附录A.4判断法1D卷积cache版337附录B曼德博罗特集的系列优化代码340附录B.1完整版串行C代码340附录B.2cuda_1_0343附录B.3cuda_0_2345附录B.4cuda_zerocopy346附录B.5cuda_1_0_zerocopy348附录B.6cuda_0_0_zerocopy349附录B.7cuda_0_2_zerocopy351附录B.8cuda_2352附录B.9cuda_1_2354附录C几种图像处理完整源码357附录C.1BMP图像读写头文件357附录C.2图像直方图串行代码373附录C.3串行中值滤波代码374附录C.4并行均值滤波相关代码376附录Dnvprof帮助菜单383附录ENVCC帮助菜单388附录F几种排序算法源代码399附录F.1bitonic_sort_block函数399附录F.2GPU快速排序完整代码400附录F.3GPU合并排序完整代码408参考文献417
作者介绍
方民权,国防科学技术大学计算机科学与技术专业博士,研究方向是高性能计算、异构计算,涉及领域包括遥感图像处理、计算微电子学、声呐信号处理和地震模拟等。张卫民博士,研究员,博士生导师,任国防科学技术大学海洋科学与工程研究院总工程师、湖南省气象协会副理事长、湖南省计算数学协会理事,研究方向是数值天气预报、海洋环境数值模拟、卫星资料、并行算法,科研成果获部委级一等奖7项、二等奖8项、三等奖1项,出版著作5部,发表论文80余篇。
序言

   相关推荐   

—  没有更多了  —

以下为对购买帮助不大的评价

此功能需要访问孔网APP才能使用
暂时不用
打开孔网APP