要点:
深圳北理莫斯科大学杨杨副教授团队基于英伟达GPU开发的PD-General算法,通过CUDA编程技术提升计算效率,在不需要升级硬件的情况下,充分挖掘GPU潜力,为科研人员提供了高效的计算方案,展现了算法创新在推动技术进步中的巨大潜力。
科技正以前所未有的速度和规模发展,引发多个领域的变革,塑造了新的商业模式,甚至重塑了全新社会结构。我们一起,从科技创新中洞察社会转型和升级的机遇。
狂呼科技研究所聚焦科技创新对当今世界的影响,以独特、前瞻的科技视角,洞察科技时代下涌现的“创新革命”。
狂呼,以最具突破性的技术塑造我们的未来,为大众捕捉科技商业先机,探索当今人类社会面临的重大挑战。
联系我们// 相关文章
随着DeepSeek的火爆,英伟达的GPU以及其配套的CUDA/Compute Unified Device Architecture统一计算架构,逐渐成为科技界的焦点。越来越多的人开始关注这一强大工具的潜力,尤其在推动深度学习和人工智能领域的快速发展的过程中,GPU的作用愈加显著。
近日,深圳北理莫斯科大学的杨杨副教授及其团队,基于英伟达GPU的强大能力,开发出了一种创新的算法:键型近场动力学并行算法/PD-General。该算法借助GPU的并行计算优势,釆用CUDA编程技术,极大地提升了计算效率。特别值得注意的是,PD-General并不需要升级GPU,依然能够在现有硬件上实现卓越的性能提升。
在AI领域,常有人言“得算法者得天下”。这次的技术突破,正是因为在现有硬件条件下,能够通过更加高效的算法释放出计算资源的潜力,实现了计算效能的最大化。 PD-General可以充分挖掘GPU内部架构的潜力,通过优化对内部寄存器的访问,减少对高性能硬件的依赖,甚至普通的家用GPU也能将原本需要数天才能完成的复杂任务压缩至几小时甚至几分钟。
这项技术的价值不仅在于它为科研人员和开发者提供了一种高效的计算方式,更深层次地体现了技术发展的可持续性:在追求更高性能的同时,我们不必过度依赖昂贵的硬件,而是可以通过算法创新来突破性能瓶颈。这一切正是科技不断向前发展的动力所在,展现了智能算法在推动各个领域突破性进展中的巨大潜力。

与传统的串行程序/Serial和OpenMP并行程序相比,本次算法在性能上实现了显著的提升,分别达到了800倍和100倍的加速效果。 (注:串行程序是指按照指令顺序逐个执行任务,任务完成后下一个才开始。OpenMP/Open Multi-Processing是一种用于共享内存并行编程的API,主要支持C、C++和Fortran语言。
在一百万粒子的典型模拟中,当在低端GPU PC上执行4000次迭代时,本算法在单精度条件下仅需5分钟,双精度条件下则需20分钟。这种计算速度能够大大缩短科研人员在进行复杂材料设计和损伤模拟时的计算时间,让他们更迅速地获得实验结果。
此外,研究团队还提出了一种创新的通用寄存器技术,能够通过高速访问寄存器,减少对全局存储器的依赖,从而进一步提升计算效率。
该算法釆用了粒子并行模式,并通过寄存器优化带宽访问,极大地提高了粒子系统模拟的计算效率。 (注:粒子并行是一种加速粒子系统模拟的方法,其基本思想是将计算任务分配到多个处理器或计算节点上,并行执行以提高整体计算效率。)
与传统的串行程序和其他并行算法相比,本次算法不仅在性能上实现了显著加速,还能够对键型近场动力学/bond based peridynamic,简称BBPD中的变形和裂纹扩展过程进行快速分析。这一算法同样适用于其他近场动力学的理论研究,为各领域的计算任务提供了全新的解决方案。
相关研究论文已以“基于GPU并行计算的快速键型近场动力学程序”/A fast bond-based peridynamic program based on GPU parallel computing为题,发表于“工程分析与边界元素”期刊。深圳北理莫斯科大学杨杨副教授为第一作者和通讯作者,南方科技大学的刘轶军讲席教授和硕士生苏梓鑫为共同作者。

据了解,杨杨是研究力学算法出身,但是参与本次研究的硕士生则是计算机出身,后者非常熟悉计算机架构,正是这样跨学科的交叉融合,使得他们不走寻常路地打造了本次算法。
GPU并行计算亟需破除“窘境”
近场动力学/Peridynamic简称PD,是一种非局部理论框架,通过引入基于积分的控制方程来解决不连续空间建模的问题。与传统方法相比,近场动力学能够在不改变网格的情况下,更精确地对裂纹扩展进行建模。
在这一过程中,求解域需要离散为多个物质点,每个物质点包括位置、体积和密度等信息。为了保证数值计算的稳定性和准确性,通常需要设置较小的增量步长,然而这会导致大量的迭代计算,并消耗大量的计算资源。
与基于经典连续体力学的方法相比,近场动力学不仅计算量大,还需要占用更多的存储空间,这使得计算效率较低。为了提高近场动力学的计算效率,多个研究团队曾提出过不同的优化方法。
在CPU并行加速的研究中,大多数加速优化方法针对的是较小规模的计算任务(通常小于100万个点)。而在大规模模拟中,通常需要依赖超级计算机或多CPU系统,这不仅需要高规格的设备,还不方便用户普遍使用。
早期基于GPU的并行计算研究大多聚焦于将串行程序转换为并行程序,优化策略通常依赖于GPU自身的性能提升。而很少有研究专门针对GPU硬件架构进行优化设计。
此外,GPU并行计算面临的一些问题包括:
首先,用于存储邻域点的内存空间没有预先确定大小,导致线程和内存资源的利用效率低下,从而造成内存和计算资源的浪费,限制了GPU在大规模计算中的应用。其次,许多GPU并行计算依然严重依赖全局内存,未能充分利用CUDA内存结构,导致内存带宽的浪费。
最后,很多近场动力学并行算法缺乏通用性。有些算法限制了邻域的大小,只能处理均匀分布且未损坏的离散结构;而其他算法则可能局限于特定的近场动力学理论。
鉴于上述局限,本次研究团队开发了PD-General算法,通过该算法成功提升了内存利用率和计算效率,有效解决了GPU计算中的一些瓶颈,推动了近场动力学领域的进一步发展。
扩展PC计算能力提高计算效率
Warp是GPU中执行并行操作的基本单位,由32个线程组成。因此,研究人员将线程块组织设置为32k(其中k为正整数)。
以内力计算为基础,研究人员在英伟达的Nsight Systems上对三种不同模型中各种线程块组织方式的性能进行了测试和比较。在测试过程中,研究人员分析了单个时间步骤的执行情况,并分别测试了64、128、256、512、768和1024个线程的线程块组织。
测试结果如图所示,图中的条形图表示占用率,折线图则反映了执行效率。结果表明,当每个线程块的线程数为1024时,性能最低。同时,线程块的占用率越高,计算效率也越高。
通常,拥有128至256个线程的线程块组织可以实现最佳性能。考虑到邻域半径可能对结果产生的影响,研究人员最终选择了具有256个线程的线程块组织进行进一步测试。

研究人员还测试了程序的总计算时间,即从程序开始到结束的完整执行时间,涵盖了除数据输出外的所有操作所需的时间。
在实验中,研究人员运行了三种不同的模型:线性程序、OpenMP并行程序和CUDA并行程序。同时,实验还涵盖了7组不同规模的离散结构,点数从2万到200万不等。
此外,研究人员还分析了邻域点数量大于32和小于32的两种情况。下图显示,基于CUDA的并行程序在效率上明显优于OpenMP并行程序和串行程序。

另外,随着物质点数量的增加,基于CUDA的并行程序的效率更加明显。如下图所示,并行程序的初始加速比相对较低,与OpenMP程序相比没有显著差异。然而,随着物质点的增加,加速比开始上升。带裂纹的键型近场动力学加速比是OpenMP的200倍。

在最大规模案例研究中,研究人员将近场动力学的时间复杂度设为O/PN,P为物质点的总数,N为每个物质点的视界点数。此外,研究人员使用ADP、AP、PN表示内存大小(单位为字节)。
实验中,研究人员所使用的GPU理论内存大小为12GB。然而,由于操作系统的要求和CUDA启动占用的内存,只有大约11GB的内存可被用于编程。
因此,研究人员使用11GB作为基线,以确定近场动力学的最大比例。通过代入四个条件:1. 双精度,N=28;2. 双精度,N=36;3. 单精度,N=28;4. 单精度,N=36来代入相应内存计算公式。借此得出了相应条件下的理论内存占用情况(如下表所示)。

实验结果表明,单精度的吞吐量是双精度的64倍,这意味着在较高的精度要求下,双精度的处理速度和运行效率较低,尤其是在处理相同规模的问题时。此外,邻域半径的大小也对程序性能产生了影响。具体来说,邻域点数量越多,执行规模越小,计算效率也随之降低。
研究人员在论文中提到,他们所使用的近场动力学通用模型能够模拟数千万个粒子,并通过优化参数设置,最大可模拟75645000个粒子。具体而言,在单精度下,模拟1000步仅需100秒到600 秒,而在双精度下,模拟同样的步骤则需要900秒到2500秒。
通过这些实验结果,研究人员展示了他们对近场动力学模型及并行计算理论的深刻理解,并成功利用CUDA技术打造了一个高性能、低成本的近场动力学分析框架:PD-General。在这一并行计算框架中,所开发的邻域生成模块显著减少了内存占用的浪费,内存访问模块的优化则大幅提升了计算效率,使得个人计算机也能承担更大规模的计算任务。
这不仅为科学计算提供了更高效的解决方案,也为未来更广泛的应用场景打开了新的可能性。通过优化算法和硬件结合的方式,科研人员展示了技术创新如何有效推动资源利用的最大化,从而降低了高性能计算的门槛,拓宽了其应用领域。
科技正以前所未有的速度和规模发展,引发多个领域的变革,塑造了新的商业模式,甚至重塑了全新社会结构。我们一起,从科技创新中洞察社会转型和升级的机遇。
狂呼科技研究所聚焦科技创新对当今世界的影响,以独特、前瞻的科技视角,洞察科技时代下涌现的“创新革命”。
狂呼,以最具突破性的技术塑造我们的未来,为大众捕捉科技商业先机,探索当今人类社会面临的重大挑战。
联系我们// 相关文章