深圳北理莫斯科大學開發快速近場動力學算法,無需購買英偉達高級GPU也能提升計算速度?

深圳北理莫斯科大学开发快速近场动力学算法,无需购买英伟达高级GPU也能提升计算速度?

發布日期:

科技 Tech


要点:
深圳北理莫斯科大学杨杨副教授团队基于英伟达GPU开发的PD-General算法,通过CUDA编程技术提升计算效率,在不需要升级硬件的情况下,充分挖掘GPU潜力,为科研人员提供了高效的计算方案,展现了算法创新在推动技术进步中的巨大潜力。

科技正以前所未有的速度和规模发展,引发多个领域的变革,塑造了新的商业模式,甚至重塑了全新社会结构。我们一起,从科技创新中洞察社会转型和升级的机遇。

狂呼科技研究所聚焦科技创新对当今世界的影响,以独特、前瞻的科技视角,洞察科技时代下涌现的“创新革命”。

狂呼,以最具突破性的技术塑造我们的未来,为大众捕捉科技商业先机,探索当今人类社会面临的重大挑战。

联系我们// 相关文章

随着DeepSeek的火爆,英伟达的GPU以及其配套的CUDA/Compute Unified Device Architecture统一计算架构,逐渐成为科技界的焦点。越来越多的人开始关注这一强大工具的潜力,尤其在推动深度学习和人工智能领域的快速发展的过程中,GPU的作用愈加显著。

近日,深圳北理莫斯科大学的杨杨副教授及其团队,基于英伟达GPU的强大能力,开发出了一种创新的算法:键型近场动力学并行算法/PD-General。该算法借助GPU的并行计算优势,釆用CUDA编程技术,极大地提升了计算效率。特别值得注意的是,PD-General并不需要升级GPU,依然能够在现有硬件上实现卓越的性能提升。

在AI领域,常有人言“得算法者得天下”。这次的技术突破,正是因为在现有硬件条件下,能够通过更加高效的算法释放出计算资源的潜力,实现了计算效能的最大化。 PD-General可以充分挖掘GPU内部架构的潜力,通过优化对内部寄存器的访问,减少对高性能硬件的依赖,甚至普通的家用GPU也能将原本需要数天才能完成的复杂任务压缩至几小时甚至几分钟。

这项技术的价值不仅在于它为科研人员和开发者提供了一种高效的计算方式,更深层次地体现了技术发展的可持续性:在追求更高性能的同时,我们不必过度依赖昂贵的硬件,而是可以通过算法创新来突破性能瓶颈。这一切正是科技不断向前发展的动力所在,展现了智能算法在推动各个领域突破性进展中的巨大潜力。

与传统的串行程序/Serial和OpenMP并行程序相比,本次算法在性能上实现了显著的提升,分别达到了800倍和100倍的加速效果。 (注:串行程序是指按照指令顺序逐个执行任务,任务完成后下一个才开始。OpenMP/Open Multi-Processing是一种用于共享内存并行编程的API,主要支持C、C++和Fortran语言。

在一百万粒子的典型模拟中,当在低端GPU PC上执行4000次迭代时,本算法在单精度条件下仅需5分钟,双精度条件下则需20分钟。这种计算速度能够大大缩短科研人员在进行复杂材料设计和损伤模拟时的计算时间,让他们更迅速地获得实验结果。

此外,研究团队还提出了一种创新的通用寄存器技术,能够通过高速访问寄存器,减少对全局存储器的依赖,从而进一步提升计算效率。

该算法釆用了粒子并行模式,并通过寄存器优化带宽访问,极大地提高了粒子系统模拟的计算效率。 (注:粒子并行是一种加速粒子系统模拟的方法,其基本思想是将计算任务分配到多个处理器或计算节点上,并行执行以提高整体计算效率。)

与传统的串行程序和其他并行算法相比,本次算法不仅在性能上实现了显著加速,还能够对键型近场动力学/bond based peridynamic,简称BBPD中的变形和裂纹扩展过程进行快速分析。这一算法同样适用于其他近场动力学的理论研究,为各领域的计算任务提供了全新的解决方案。

相关研究论文已以“基于GPU并行计算的快速键型近场动力学程序”/A fast bond-based peridynamic program based on GPU parallel computing为题,发表于“工程分析与边界元素”期刊。深圳北理莫斯科大学杨杨副教授为第一作者和通讯作者,南方科技大学的刘轶军讲席教授和硕士生苏梓鑫为共同作者。

据了解,杨杨是研究力学算法出身,但是参与本次研究的硕士生则是计算机出身,后者非常熟悉计算机架构,正是这样跨学科的交叉融合,使得他们不走寻常路地打造了本次算法。

GPU并行计算亟需破除“窘境”
近场动力学/Peridynamic简称PD,是一种非局部理论框架,通过引入基于积分的控制方程来解决不连续空间建模的问题。与传统方法相比,近场动力学能够在不改变网格的情况下,更精确地对裂纹扩展进行建模。

在这一过程中,求解域需要离散为多个物质点,每个物质点包括位置、体积和密度等信息。为了保证数值计算的稳定性和准确性,通常需要设置较小的增量步长,然而这会导致大量的迭代计算,并消耗大量的计算资源。

与基于经典连续体力学的方法相比,近场动力学不仅计算量大,还需要占用更多的存储空间,这使得计算效率较低。为了提高近场动力学的计算效率,多个研究团队曾提出过不同的优化方法。

在CPU并行加速的研究中,大多数加速优化方法针对的是较小规模的计算任务(通常小于100万个点)。而在大规模模拟中,通常需要依赖超级计算机或多CPU系统,这不仅需要高规格的设备,还不方便用户普遍使用。

早期基于GPU的并行计算研究大多聚焦于将串行程序转换为并行程序,优化策略通常依赖于GPU自身的性能提升。而很少有研究专门针对GPU硬件架构进行优化设计。

此外,GPU并行计算面临的一些问题包括:
首先,用于存储邻域点的内存空间没有预先确定大小,导致线程和内存资源的利用效率低下,从而造成内存和计算资源的浪费,限制了GPU在大规模计算中的应用。其次,许多GPU并行计算依然严重依赖全局内存,未能充分利用CUDA内存结构,导致内存带宽的浪费。

最后,很多近场动力学并行算法缺乏通用性。有些算法限制了邻域的大小,只能处理均匀分布且未损坏的离散结构;而其他算法则可能局限于特定的近场动力学理论。

鉴于上述局限,本次研究团队开发了PD-General算法,通过该算法成功提升了内存利用率和计算效率,有效解决了GPU计算中的一些瓶颈,推动了近场动力学领域的进一步发展。

扩展PC计算能力提高计算效率
Warp是GPU中执行并行操作的基本单位,由32个线程组成。因此,研究人员将线程块组织设置为32k(其中k为正整数)。

以内力计算为基础,研究人员在英伟达的Nsight Systems上对三种不同模型中各种线程块组织方式的性能进行了测试和比较。在测试过程中,研究人员分析了单个时间步骤的执行情况,并分别测试了64、128、256、512、768和1024个线程的线程块组织。

测试结果如图所示,图中的条形图表示占用率,折线图则反映了执行效率。结果表明,当每个线程块的线程数为1024时,性能最低。同时,线程块的占用率越高,计算效率也越高。

通常,拥有128至256个线程的线程块组织可以实现最佳性能。考虑到邻域半径可能对结果产生的影响,研究人员最终选择了具有256个线程的线程块组织进行进一步测试。

研究人员还测试了程序的总计算时间,即从程序开始到结束的完整执行时间,涵盖了除数据输出外的所有操作所需的时间。

在实验中,研究人员运行了三种不同的模型:线性程序、OpenMP并行程序和CUDA并行程序。同时,实验还涵盖了7组不同规模的离散结构,点数从2万到200万不等。

此外,研究人员还分析了邻域点数量大于32和小于32的两种情况。下图显示,基于CUDA的并行程序在效率上明显优于OpenMP并行程序和串行程序。

另外,随着物质点数量的增加,基于CUDA的并行程序的效率更加明显。如下图所示,并行程序的初始加速比相对较低,与OpenMP程序相比没有显著差异。然而,随着物质点的增加,加速比开始上升。带裂纹的键型近场动力学加速比是OpenMP的200倍。

在最大规模案例研究中,研究人员将近场动力学的时间复杂度设为O/PN,P为物质点的总数,N为每个物质点的视界点数。此外,研究人员使用ADP、AP、PN表示内存大小(单位为字节)。

实验中,研究人员所使用的GPU理论内存大小为12GB。然而,由于操作系统的要求和CUDA启动占用的内存,只有大约11GB的内存可被用于编程。

因此,研究人员使用11GB作为基线,以确定近场动力学的最大比例。通过代入四个条件:1. 双精度,N=28;2. 双精度,N=36;3. 单精度,N=28;4. 单精度,N=36来代入相应内存计算公式。借此得出了相应条件下的理论内存占用情况(如下表所示)。

实验结果表明,单精度的吞吐量是双精度的64倍,这意味着在较高的精度要求下,双精度的处理速度和运行效率较低,尤其是在处理相同规模的问题时。此外,邻域半径的大小也对程序性能产生了影响。具体来说,邻域点数量越多,执行规模越小,计算效率也随之降低。

研究人员在论文中提到,他们所使用的近场动力学通用模型能够模拟数千万个粒子,并通过优化参数设置,最大可模拟75645000个粒子。具体而言,在单精度下,模拟1000步仅需100秒到600 秒,而在双精度下,模拟同样的步骤则需要900秒到2500秒。

通过这些实验结果,研究人员展示了他们对近场动力学模型及并行计算理论的深刻理解,并成功利用CUDA技术打造了一个高性能、低成本的近场动力学分析框架:PD-General。在这一并行计算框架中,所开发的邻域生成模块显著减少了内存占用的浪费,内存访问模块的优化则大幅提升了计算效率,使得个人计算机也能承担更大规模的计算任务。

这不仅为科学计算提供了更高效的解决方案,也为未来更广泛的应用场景打开了新的可能性。通过优化算法和硬件结合的方式,科研人员展示了技术创新如何有效推动资源利用的最大化,从而降低了高性能计算的门槛,拓宽了其应用领域。

科技正以前所未有的速度和规模发展,引发多个领域的变革,塑造了新的商业模式,甚至重塑了全新社会结构。我们一起,从科技创新中洞察社会转型和升级的机遇。

狂呼科技研究所聚焦科技创新对当今世界的影响,以独特、前瞻的科技视角,洞察科技时代下涌现的“创新革命”。

狂呼,以最具突破性的技术塑造我们的未来,为大众捕捉科技商业先机,探索当今人类社会面临的重大挑战。

联系我们// 相关文章

免責聲明:本網站提供的信息僅供一般信息分享目的,並不應被視為投資建議。

返回博客
  • Google算力核心技術TPU推動了AI市場替代GPU?

    Google算力核心技术TPU推动了AI市场替代GPU?

    如果不是在行业内,这可能大家的第一个疑问。在市场大多数记忆还停留在TPU 通用性不够,Google 主要用来内用而非对外商用上时,会非常讶异为何到了TPU v7 这一版本,突然开讲TPU 对的 GPU 替代逻辑。

    Google算力核心技术TPU推动了AI市场替代GPU?

    如果不是在行业内,这可能大家的第一个疑问。在市场大多数记忆还停留在TPU 通用性不够,Google 主要用来内用而非对外商用上时,会非常讶异为何到了TPU v7 这一版本,突然开讲TPU 对的 GPU 替代逻辑。

  • CoreWeave基礎AI雲服務的生意模式

    CoreWeave基础AI云服务的生意模式

    CoreWeave客户结构高度集中,目前基本只由AI 模型独角兽,和有能力独自研发/优化AI 模型的大型科技公司构成。在2024 财年CoreWeave 约$19 亿的总营收中,接近80% 的收入只来自两家客户公司-- 微软和英伟达,其中微软一家就占了当年总收入的62%。

    CoreWeave基础AI云服务的生意模式

    CoreWeave客户结构高度集中,目前基本只由AI 模型独角兽,和有能力独自研发/优化AI 模型的大型科技公司构成。在2024 财年CoreWeave 约$19 亿的总营收中,接近80% 的收入只来自两家客户公司-- 微软和英伟达,其中微软一家就占了当年总收入的62%。

  • LULU三季度業績超出公司此前指引

    LULU三季度业绩超出公司此前指引

    Lululemon 的大本营市场北美地区仍然疲软,同比下降1.5%,平均订单金额、转化率及门店客流量仍处于下滑状态。亮眼的是中国地区同比高增43%,增速创近一年以来新高,二季度Lululemon Align 十周年庆典增加了和消费者的互动,带动公司整体的品牌提升。

    LULU三季度业绩超出公司此前指引

    Lululemon 的大本营市场北美地区仍然疲软,同比下降1.5%,平均订单金额、转化率及门店客流量仍处于下滑状态。亮眼的是中国地区同比高增43%,增速创近一年以来新高,二季度Lululemon Align 十周年庆典增加了和消费者的互动,带动公司整体的品牌提升。

  • NVDA財報超市場預期,總收入570億美元!

    NVDA财报超市场预期,总收入570亿美元!

    随着英伟达数据中心的持续增长,当前已经成为公司收入中最大的一项,占比已经接近9 成。作为公司此前主要收入来源的游戏业务,占比已经被压缩至1 成左右。其主要产品包括Blackwell、Hopper 等算力芯片,公司的核心客户是亚马逊、微软、谷歌等云服务大厂。

    NVDA财报超市场预期,总收入570亿美元!

    随着英伟达数据中心的持续增长,当前已经成为公司收入中最大的一项,占比已经接近9 成。作为公司此前主要收入来源的游戏业务,占比已经被压缩至1 成左右。其主要产品包括Blackwell、Hopper 等算力芯片,公司的核心客户是亚马逊、微软、谷歌等云服务大厂。

  • QCOM高通財報,業績相對平淡

    QCOM高通财报,业绩相对平淡

    高通公司本季度业绩相对平淡,收入端的超预期主要来自于旗舰新品的提前发布。至于本季度利润端的回落,主要是受公司计入57 亿美元的递延税资产准备金影响。若剔除该影响,公司本季度的净利润约为26 亿美元。

    QCOM高通财报,业绩相对平淡

    高通公司本季度业绩相对平淡,收入端的超预期主要来自于旗舰新品的提前发布。至于本季度利润端的回落,主要是受公司计入57 亿美元的递延税资产准备金影响。若剔除该影响,公司本季度的净利润约为26 亿美元。

  • AMD財報,市場對數據中心AI Capex依然火熱

    AMD财报,市场对数据中心AI Capex依然火热

    AMD 在2025 年第三季度实现营收92.5 亿美元,同比增长35.6%,市场预期(87.4 亿美元)。收入端的同比增长,主要来自于客户端及游戏业务、数据中心业务的带动。公司本季度毛利率(GAAP)51.7%,同比提升1.6pct。

    AMD财报,市场对数据中心AI Capex依然火热

    AMD 在2025 年第三季度实现营收92.5 亿美元,同比增长35.6%,市场预期(87.4 亿美元)。收入端的同比增长,主要来自于客户端及游戏业务、数据中心业务的带动。公司本季度毛利率(GAAP)51.7%,同比提升1.6pct。

  • AMZN亞馬遜AWS本季營收同比增長20.2%到$309億!

    AMZN亚马逊AWS本季营收同比增长20.2%到$309亿!

    久等的AWS 提速终于到来:目前云业务的增速几乎成为了压倒一切、“决定生死” 的单一指标。而AWS 本季营收同比增长20.2% 到$309 亿,相比上季增速明显提升2.7pct。市场久久期待的AWS 增长再提速终于到来。

    AMZN亚马逊AWS本季营收同比增长20.2%到$309亿!

    久等的AWS 提速终于到来:目前云业务的增速几乎成为了压倒一切、“决定生死” 的单一指标。而AWS 本季营收同比增长20.2% 到$309 亿,相比上季增速明显提升2.7pct。市场久久期待的AWS 增长再提速终于到来。

  • AAPL蘋果2025財年第四季度營收1025億美元,同比增長7.9%!

    AAPL苹果2025财年第四季度营收1025亿美元,同比增长7.9%!

    本季度苹果公司实现营收1025 亿美元,同比增长7.9%,基本符合市场预期(1020 亿美元)。公司本季度收入端的提升,主要受益于iPhone、Mac 和软件服务业务增长的带动。苹果公司毛利率 47.2%,同比增加1pct,好于市场一致预期(46.6%)。

    AAPL苹果2025财年第四季度营收1025亿美元,同比增长7.9%!

    本季度苹果公司实现营收1025 亿美元,同比增长7.9%,基本符合市场预期(1020 亿美元)。公司本季度收入端的提升,主要受益于iPhone、Mac 和软件服务业务增长的带动。苹果公司毛利率 47.2%,同比增加1pct,好于市场一致预期(46.6%)。

1 / 8
1 / 4
1 / 4
  • 從中國經濟看背後困境及發展新構想?

    从中国经济看背后困境及发展新构想?

    中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施,中国经济可能有一个全新的契机注入新的动力,推动经济稳定健康发展。

    从中国经济看背后困境及发展新构想?

    中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施,中国经济可能有一个全新的契机注入新的动力,推动经济稳定健康发展。

  • 在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    在变革中的抉择:当今大环境下如何实现职业规划与人生价值?

    随着时代的变迁,人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同,有些人追求的是即时的快乐和成就感,而有些人则看重长期的进步和自我超越。

    在变革中的抉择:当今大环境下如何实现职业规划与人生价值?

    随着时代的变迁,人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同,有些人追求的是即时的快乐和成就感,而有些人则看重长期的进步和自我超越。

  • 再見愛人:探索現代婚姻中的情感困境

    再见爱人:探索现代婚姻中的情感困境

    芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子,麦琳、李行亮,葛夕、刘爽三对情感关系10年以上的夫妻,以“婚姻纪实观察”为切口,呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

    再见爱人:探索现代婚姻中的情感困境

    芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子,麦琳、李行亮,葛夕、刘爽三对情感关系10年以上的夫妻,以“婚姻纪实观察”为切口,呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

  • 抖音短劇新風潮:中老年人成為新的增長點?

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

1 / 4