消息首页搜索举报

并行程序设计导论（原书第2版）

全新正版极速发货

94.33 7.3折 129 全新

库存3件

广东广州

认证卖家担保交易快速发货售后保障

作者[美]彼得·S. 帕切科(Peter S. Pacheco), [美]马修·马伦塞克(Matthew Malensek)

出版社机械工业

ISBN9787111743194

出版时间2024-05

装帧其他

开本其他

定价129元

货号32089380

上书时间2024-07-03

书香美美

已实名已认证进店收藏店铺

在售商品暂无
平均发货时间 16小时
好评率暂无

最新上架

小学数学拓展学案·五年级 ¥9.68

高职院校产教融合的研究与实践 ¥29.86

科技革命(核能航天计算机的故事) ¥48.59

英语阅读:选择性必修.第一册 ¥23.31

搞定英语发音，这本就够！ ¥26.65

中国地方志集成(北京府县志辑共7册)(精) ¥3991.42

选一头大象去远方(注音版)/中国当代获奖儿童文学作家书系 ¥2.89

食火兽/童话山海经 ¥8.00

小马宝莉最佳拍档(2珍贵的礼物) ¥7.07

商品详情

品相描述：全新

商品描述: 作者简介
彼得·S.帕切科(PeterS.Pacheco)旧金山大学计算机科学荣休教授，曾任旧金山大学计算机系主任、数学系主任。之前曾为加州大学洛杉矶分校教授。他的主要研究方向是并行科学计算，包括电路仿真的并行软件开发、语音识别、模拟大规模神经元网络等。他拥有佛罗里达州立大学数学博士学位。 马修·马伦塞克（MatthewMalensek）旧金山大学计算机科学系助理教授。他的研究兴趣是数据科学的系统方法，重点是可扩展分析、海量数据流的存储和管理，以及云/边缘计算，这些项目涵盖大气科学、流行病学和地理信息系统等领域。他拥有科罗拉多州立大学计算机科学博士学位。 

目录
目　　录 An Introduction to Parallel Programming, Second Edition 译者序 前言 第1章　为什么需要并行计算1 1.1　为什么需要不断提高性能1 1.2　为什么需要建立并行系统2 1.3　为什么需要编写并行程序2 1.4　如何编写并行程序5 1.5　我们将做什么6 1.6　并发、并行和分布式7 1.7　本书其余部分8 1.8　一点警告8 1.9　排版惯例9 1.10　小结9 1.11　练习10 第2章　并行硬件与并行软件12 2.1　背景知识12 2.1.1　冯·诺依曼体系结构12 2.1.2　进程、多任务和线程13 2.2　冯·诺依曼模型的改进14 2.2.1　缓存基础14 2.2.2　缓存映射16 2.2.3　缓存和程序：示例17 2.2.4　虚拟内存18 2.2.5　指令级并行19 2.2.6　硬件多线程21 2.3　并行硬件22 2.3.1　并行计算机的分类22 2.3.2　SIMD系统22 2.3.3　MIMD系统24 2.3.4　互连网络26 2.3.5　高速缓存一致性30 2.3.6　共享内存与分布式内存32 2.4　并行软件33 2.4.1　注意事项33 2.4.2　协调进程/线程33 2.4.3　共享内存34 2.4.4　分布式内存37 2.4.5　GPU编程40 2.4.6　混合系统编程40 2.5　输入和输出41 2.5.1　MIMD系统41 2.5.2　GPU41 2.6　性能42 2.6.1　在MIMD系统中的加速比和 效率42 2.6.2　阿姆达定律44 2.6.3　MIMD系统的可扩展性45 2.6.4　MIMD程序的计时46 2.6.5　GPU性能48 2.7　并行程序设计49 2.7.1　示例49 2.8　编写和运行并行程序53 2.9　假设53 2.10　小结54 2.10.1　串行系统54 2.10.2　并行硬件55 2.10.3　并行软件56 2.10.4　输入和输出57 2.10.5　性能57 2.10.6　并行程序设计58 2.10.7　假设58 2.11　练习58 第3章　基于MPI的分布式 内存编程62 3.1　入门62 3.1.1　编译和执行63 3.1.2　MPI程序64 3.1.3　MPI_Init和 MPI_Finalize64 3.1.4　通信域、MPI_Comm_size和MPI_Comm_rank65 3.1.5　SPMD程序66 3.1.6　通信66 3.1.7　MPI_Send66 3.1.8　MPI_Recv67 3.1.9　消息匹配68 3.1.10　status_p参数69 3.1.11　MPI_Send和MPI_Recv的 语义69 3.1.12　一些潜在的陷阱70 3.2　MPI中的梯形法则70 3.2.1　梯形法则70 3.2.2　梯形法则的并行化71 3.3　处理I/O74 3.3.1　输出74 3.3.2　输入75 3.4　集合通信76 3.4.1　树形结构的通信76 3.4.2　MPI_Reduce77 3.4.3　集合通信与点对点通信78 3.4.4　MPI_Allreduce79 3.4.5　广播80 3.4.6　数据分布82 3.4.7　分散83 3.4.8　收集84 3.4.9　综合实例85 3.5　MPI派生的数据类型88 3.6　MPI程序的性能评估91 3.6.1　计时91 3.6.2　结果93 3.6.3　加速比和效率95 3.6.4　可扩展性95 3.7　一种并行排序算法96 3.7.1　一些简单的串行排序算法96 3.7.2　并行奇偶移项排序98 3.7.3　MPI程序中的安全性100 3.7.4　关于并行奇偶排序的一些 补充细节102 3.8　小结103 3.9　练习106 3.10　编程作业112 第4章　Pthreads共享内存编程114 4.1　进程、线程和Pthreads114 4.2　Hello, world115 4.2.1　执行116 4.2.2　预备117 4.2.3　启动线程117 4.2.4　运行线程119 4.2.5　停止线程120 4.2.6　错误检查120 4.2.7　启动线程的其他方法120 4.3　矩阵-向量乘法121 4.4　临界区123 4.5　忙等待126 4.6　互斥锁128 4.7　生产者-消费者同步和信号量131 4.8　栅栏和条件变量135 4.8.1　忙等待和互斥锁135 4.8.2　信号量136 4.8.3　条件变量137 4.8.4　Pthreads栅栏139 4.9　读写锁139 4.9.1　排序的链表函数140 4.9.2　多线程链表142 4.9.3　Pthreads的读写锁144 4.9.4　各种实现方案的性能145 4.9.5　实现读写锁146 4.10　缓存、缓存一致性和伪共享147 4.11　线程安全150 4.11.1　不正确的程序可以产生 正确的输出153 4.12　小结153 4.13　练习154 4.14　编程作业159 第5章　OpenMP共享内存编程161 5.1　入门162 5.1.1　编译和运行OpenMP程序163 5.1.2　程序163 5.1.3　错误检查165 5.2　梯形法则166 5.2.1　第一个OpenMP版本166 5.3　变量的作用域170 5.4　归约子句170 5.5　parallel指令173 5.5.1　注意事项174 5.5.2　数据依赖性175 5.5.3　寻找循环迭代相关176 5.5.4　估算π176 5.5.5　关于作用域的更多内容178 5.6　关于OpenMP中的循环的更多 内容：排序179 5.6.1　冒泡排序179 5.6.2　奇偶移项排序180 5.7　循环的调度182 5.7.1　schedule子句183 5.7.2　static调度类型185 5.7.3　dynamic和guided调度 类型185 5.7.4　runtime调度类型186 5.7.5　哪种调度187 5.8　生产者和消费者188 5.8.1　队列188 5.8.2　消息传递188 5.8.3　发送消息189 5.8.4　接收消息189 5.8.5　终止检测190 5.8.6　开始190 5.8.7　atomic指令191 5.8.8　临界区和锁191 5.8.9　在消息传递程序中使用锁193 5.8.10　critical指令、atomic 指令或锁194 5.8.11　注意事项194 5.9　缓存、缓存一致性和伪共享195 5.10　任务化199 5.11　线程安全202 5.11.1　不正确的程序可以产生 正确的输出204 5.12　小结204 5.13　练习208 5.14　编程作业211 第6章　用CUDA进行GPU编程215 6.1　GPU和GPGPU215 6.2　GPU架构215 6.3　异构计算217 6.4　CUDA hello217 6.4.1　源代码218 6.4.2　编译与运行程序219 6.5　深入了解219 6.6　线程、线程块和线程网格220 6.7　NVIDIA计算能力和设备架构223 6.8　向量加法223 6.8.1　核函数224 6.8.2　Get_args函数225 6.8.3　Allocate_vectors函数和 托管内存226 6.8.4　main函数调用的其他函数227 6.8.5　显式内存传输229 6.9　从CUDA核函数返回结果231 6.10　CUDA梯形法则I233 6.10.1　梯形法则233 6.10.2　一种CUDA实现234 6.10.3　初始化、返回值和最后 更新235 6.10.4　使用正确的线程236 6.10.5　更新返回值和atomicAdd 函数236 6.10.6　CUDA梯形法则的性能237 6.11　CUDA梯形法则II：提升性能238 6.11.1　树形通信238 6.11.2　局部变量、寄存器、共享和 全局内存239 6.11.3　线程束和线程束洗牌240 6.11.4　使用线程束洗牌实现树形 全局求和241 6.11.5　共享内存和线程束洗牌的 替代方案242 6.12　用warpSize个线程块实现 梯形法则243 6.12.1　主机代码244 6.12.2　使用线程束洗牌的核函数244 6.12.3　使用共享内存的核函数244 6.12.4　性能245 6.13　CUDA梯形法则III：使用具有 多个线程束的线程块245 6.13.1　__syncthreads函数246 6.13.2　关于共享内存的更多内容247 6.13.3　使用共享内存的线程束 求和247 6.13.4　共享内存库248 6.13.5　收尾工作249 6.13.6　性能251 6.14　双调排序251 6.14.1　串行双调排序251 6.14.2　蝶式交换和二进制表示254 6.14.3　并行双调排序I256 6.14.4　并行双调排序II258 6.14.5　CUDA双调排序的性能259 6.15　小结260 6.16　练习264 6.17　编程作业267 第7章　并行程序开发269 7.1　两种n-body问题的解决方案269 7.1.1　问题描述269 7.1.2　两种串行方案270 7.1.3　并行化n-body求解方案274 7.1.4　关于I/O的说明276 7.1.5　使用OpenMP并行化基本 求解方案277 7.1.6　使用OpenMP并行化简化 求解方案279 7.1.7　评估OpenMP代码283 7.1.8　使用Pthreads并行化求解 方案284 7.1.9　使用MPI并行化求解方案284 7.1.10　使用MPI并行化简化求解 方案286 7.1.11　MPI简化求解的性能291 7.1.12　使用CUDA并行化基本 求解方案292 7.1.13　关于CUDA协同组的说明294 7.1.14　基本CUDA n-body求解 方案的性能295 7.1.15　提高CUDA n-body求解 方案性能的方法295 7.1.16　在n-body求解方案中使用 共享内存技术296 7.2　样本排序299 7.2.1　样本排序和桶排序299 7.2.2　选择样本数据300 7.2.3　Map函数的简单实现301 7.2.4　Map的另一种实现方案302 7.2.5　并行化样本排序305 7.2.6　使用OpenMP实现样本 排序308 7.2.7　使用Pthreads实现样本 排序312 7.2.8　使用MPI实现样本排序314 7.2.9　使用CUDA实现样本排序323 7.3　注意事项331 7.4　使用哪种API331 7.5　小结332 7.5.1　MPI333 7.6　练习334 7.7　编程作业340 第8章　下一步该怎么走343 参考文献345 

内容摘要
本书主要讲解如何使用MPI、Pthreads和OpenMP开发有效的并行程序，并在多核和集群架构上编译运行并行程序。本书第1版已经过广泛的本科教学实践，第2版做了细致的更新，清晰地阐释了如何设计、调试和评估分布式和共享内存程序的性能，并新增关于GPU编程和异构编程的内容，对加速器的讨论更加全面。第2版还对习题做了更新，读者可通过习题进一步熟悉并掌握编译、运行和修改示例程序的方法。

— 没有更多了 —