深圳北理莫斯科大學開發快速近場動力學算法,無需購買英偉達高級GPU也能提升計算速度?

深圳北理莫斯科大学开发快速近场动力学算法,无需购买英伟达高级GPU也能提升计算速度?

發布日期:

科技 Tech


要点:
深圳北理莫斯科大学杨杨副教授团队基于英伟达GPU开发的PD-General算法,通过CUDA编程技术提升计算效率,在不需要升级硬件的情况下,充分挖掘GPU潜力,为科研人员提供了高效的计算方案,展现了算法创新在推动技术进步中的巨大潜力。

科技正以前所未有的速度和规模发展,引发多个领域的变革,塑造了新的商业模式,甚至重塑了全新社会结构。我们一起,从科技创新中洞察社会转型和升级的机遇。

狂呼科技研究所聚焦科技创新对当今世界的影响,以独特、前瞻的科技视角,洞察科技时代下涌现的“创新革命”。

狂呼,以最具突破性的技术塑造我们的未来,为大众捕捉科技商业先机,探索当今人类社会面临的重大挑战。

联系我们// 相关文章

随着DeepSeek的火爆,英伟达的GPU以及其配套的CUDA/Compute Unified Device Architecture统一计算架构,逐渐成为科技界的焦点。越来越多的人开始关注这一强大工具的潜力,尤其在推动深度学习和人工智能领域的快速发展的过程中,GPU的作用愈加显著。

近日,深圳北理莫斯科大学的杨杨副教授及其团队,基于英伟达GPU的强大能力,开发出了一种创新的算法:键型近场动力学并行算法/PD-General。该算法借助GPU的并行计算优势,釆用CUDA编程技术,极大地提升了计算效率。特别值得注意的是,PD-General并不需要升级GPU,依然能够在现有硬件上实现卓越的性能提升。

在AI领域,常有人言“得算法者得天下”。这次的技术突破,正是因为在现有硬件条件下,能够通过更加高效的算法释放出计算资源的潜力,实现了计算效能的最大化。 PD-General可以充分挖掘GPU内部架构的潜力,通过优化对内部寄存器的访问,减少对高性能硬件的依赖,甚至普通的家用GPU也能将原本需要数天才能完成的复杂任务压缩至几小时甚至几分钟。

这项技术的价值不仅在于它为科研人员和开发者提供了一种高效的计算方式,更深层次地体现了技术发展的可持续性:在追求更高性能的同时,我们不必过度依赖昂贵的硬件,而是可以通过算法创新来突破性能瓶颈。这一切正是科技不断向前发展的动力所在,展现了智能算法在推动各个领域突破性进展中的巨大潜力。

与传统的串行程序/Serial和OpenMP并行程序相比,本次算法在性能上实现了显著的提升,分别达到了800倍和100倍的加速效果。 (注:串行程序是指按照指令顺序逐个执行任务,任务完成后下一个才开始。OpenMP/Open Multi-Processing是一种用于共享内存并行编程的API,主要支持C、C++和Fortran语言。

在一百万粒子的典型模拟中,当在低端GPU PC上执行4000次迭代时,本算法在单精度条件下仅需5分钟,双精度条件下则需20分钟。这种计算速度能够大大缩短科研人员在进行复杂材料设计和损伤模拟时的计算时间,让他们更迅速地获得实验结果。

此外,研究团队还提出了一种创新的通用寄存器技术,能够通过高速访问寄存器,减少对全局存储器的依赖,从而进一步提升计算效率。

该算法釆用了粒子并行模式,并通过寄存器优化带宽访问,极大地提高了粒子系统模拟的计算效率。 (注:粒子并行是一种加速粒子系统模拟的方法,其基本思想是将计算任务分配到多个处理器或计算节点上,并行执行以提高整体计算效率。)

与传统的串行程序和其他并行算法相比,本次算法不仅在性能上实现了显著加速,还能够对键型近场动力学/bond based peridynamic,简称BBPD中的变形和裂纹扩展过程进行快速分析。这一算法同样适用于其他近场动力学的理论研究,为各领域的计算任务提供了全新的解决方案。

相关研究论文已以“基于GPU并行计算的快速键型近场动力学程序”/A fast bond-based peridynamic program based on GPU parallel computing为题,发表于“工程分析与边界元素”期刊。深圳北理莫斯科大学杨杨副教授为第一作者和通讯作者,南方科技大学的刘轶军讲席教授和硕士生苏梓鑫为共同作者。

据了解,杨杨是研究力学算法出身,但是参与本次研究的硕士生则是计算机出身,后者非常熟悉计算机架构,正是这样跨学科的交叉融合,使得他们不走寻常路地打造了本次算法。

GPU并行计算亟需破除“窘境”
近场动力学/Peridynamic简称PD,是一种非局部理论框架,通过引入基于积分的控制方程来解决不连续空间建模的问题。与传统方法相比,近场动力学能够在不改变网格的情况下,更精确地对裂纹扩展进行建模。

在这一过程中,求解域需要离散为多个物质点,每个物质点包括位置、体积和密度等信息。为了保证数值计算的稳定性和准确性,通常需要设置较小的增量步长,然而这会导致大量的迭代计算,并消耗大量的计算资源。

与基于经典连续体力学的方法相比,近场动力学不仅计算量大,还需要占用更多的存储空间,这使得计算效率较低。为了提高近场动力学的计算效率,多个研究团队曾提出过不同的优化方法。

在CPU并行加速的研究中,大多数加速优化方法针对的是较小规模的计算任务(通常小于100万个点)。而在大规模模拟中,通常需要依赖超级计算机或多CPU系统,这不仅需要高规格的设备,还不方便用户普遍使用。

早期基于GPU的并行计算研究大多聚焦于将串行程序转换为并行程序,优化策略通常依赖于GPU自身的性能提升。而很少有研究专门针对GPU硬件架构进行优化设计。

此外,GPU并行计算面临的一些问题包括:
首先,用于存储邻域点的内存空间没有预先确定大小,导致线程和内存资源的利用效率低下,从而造成内存和计算资源的浪费,限制了GPU在大规模计算中的应用。其次,许多GPU并行计算依然严重依赖全局内存,未能充分利用CUDA内存结构,导致内存带宽的浪费。

最后,很多近场动力学并行算法缺乏通用性。有些算法限制了邻域的大小,只能处理均匀分布且未损坏的离散结构;而其他算法则可能局限于特定的近场动力学理论。

鉴于上述局限,本次研究团队开发了PD-General算法,通过该算法成功提升了内存利用率和计算效率,有效解决了GPU计算中的一些瓶颈,推动了近场动力学领域的进一步发展。

扩展PC计算能力提高计算效率
Warp是GPU中执行并行操作的基本单位,由32个线程组成。因此,研究人员将线程块组织设置为32k(其中k为正整数)。

以内力计算为基础,研究人员在英伟达的Nsight Systems上对三种不同模型中各种线程块组织方式的性能进行了测试和比较。在测试过程中,研究人员分析了单个时间步骤的执行情况,并分别测试了64、128、256、512、768和1024个线程的线程块组织。

测试结果如图所示,图中的条形图表示占用率,折线图则反映了执行效率。结果表明,当每个线程块的线程数为1024时,性能最低。同时,线程块的占用率越高,计算效率也越高。

通常,拥有128至256个线程的线程块组织可以实现最佳性能。考虑到邻域半径可能对结果产生的影响,研究人员最终选择了具有256个线程的线程块组织进行进一步测试。

研究人员还测试了程序的总计算时间,即从程序开始到结束的完整执行时间,涵盖了除数据输出外的所有操作所需的时间。

在实验中,研究人员运行了三种不同的模型:线性程序、OpenMP并行程序和CUDA并行程序。同时,实验还涵盖了7组不同规模的离散结构,点数从2万到200万不等。

此外,研究人员还分析了邻域点数量大于32和小于32的两种情况。下图显示,基于CUDA的并行程序在效率上明显优于OpenMP并行程序和串行程序。

另外,随着物质点数量的增加,基于CUDA的并行程序的效率更加明显。如下图所示,并行程序的初始加速比相对较低,与OpenMP程序相比没有显著差异。然而,随着物质点的增加,加速比开始上升。带裂纹的键型近场动力学加速比是OpenMP的200倍。

在最大规模案例研究中,研究人员将近场动力学的时间复杂度设为O/PN,P为物质点的总数,N为每个物质点的视界点数。此外,研究人员使用ADP、AP、PN表示内存大小(单位为字节)。

实验中,研究人员所使用的GPU理论内存大小为12GB。然而,由于操作系统的要求和CUDA启动占用的内存,只有大约11GB的内存可被用于编程。

因此,研究人员使用11GB作为基线,以确定近场动力学的最大比例。通过代入四个条件:1. 双精度,N=28;2. 双精度,N=36;3. 单精度,N=28;4. 单精度,N=36来代入相应内存计算公式。借此得出了相应条件下的理论内存占用情况(如下表所示)。

实验结果表明,单精度的吞吐量是双精度的64倍,这意味着在较高的精度要求下,双精度的处理速度和运行效率较低,尤其是在处理相同规模的问题时。此外,邻域半径的大小也对程序性能产生了影响。具体来说,邻域点数量越多,执行规模越小,计算效率也随之降低。

研究人员在论文中提到,他们所使用的近场动力学通用模型能够模拟数千万个粒子,并通过优化参数设置,最大可模拟75645000个粒子。具体而言,在单精度下,模拟1000步仅需100秒到600 秒,而在双精度下,模拟同样的步骤则需要900秒到2500秒。

通过这些实验结果,研究人员展示了他们对近场动力学模型及并行计算理论的深刻理解,并成功利用CUDA技术打造了一个高性能、低成本的近场动力学分析框架:PD-General。在这一并行计算框架中,所开发的邻域生成模块显著减少了内存占用的浪费,内存访问模块的优化则大幅提升了计算效率,使得个人计算机也能承担更大规模的计算任务。

这不仅为科学计算提供了更高效的解决方案,也为未来更广泛的应用场景打开了新的可能性。通过优化算法和硬件结合的方式,科研人员展示了技术创新如何有效推动资源利用的最大化,从而降低了高性能计算的门槛,拓宽了其应用领域。

科技正以前所未有的速度和规模发展,引发多个领域的变革,塑造了新的商业模式,甚至重塑了全新社会结构。我们一起,从科技创新中洞察社会转型和升级的机遇。

狂呼科技研究所聚焦科技创新对当今世界的影响,以独特、前瞻的科技视角,洞察科技时代下涌现的“创新革命”。

狂呼,以最具突破性的技术塑造我们的未来,为大众捕捉科技商业先机,探索当今人类社会面临的重大挑战。

联系我们// 相关文章

免責聲明:本網站提供的信息僅供一般信息分享目的,並不應被視為投資建議。

返回博客
  • PDD拼多多2026年第一季財報,不及市場預期

    PDD拼多多2026年第一季财报,不及市场预期

    因国内主站营收增长不及预期,营销支出也并未明显下滑,因此实际利润表现并不及预期。分板块来看背后原因,我们认为一方面是 Temu 本季减亏的幅度大概率并没有预期的那么多,另外国内主站的经营利润增长应当也相当有限。

    PDD拼多多2026年第一季财报,不及市场预期

    因国内主站营收增长不及预期,营销支出也并未明显下滑,因此实际利润表现并不及预期。分板块来看背后原因,我们认为一方面是 Temu 本季减亏的幅度大概率并没有预期的那么多,另外国内主站的经营利润增长应当也相当有限。

  • 小米2026年第一季度財報,主要受手機和汽車毛利率同比回落影響

    小米2026年第一季度财报,主要受手机和汽车毛利率同比回落影响

    小米本季度汽车业务毛利率下滑至 20.1%,接近市场预期(20.5%),主要是受均价下滑的影响,其中包含了小米对购置税进行补贴的影响,并在本季度销售了一部分的低价现车。由于毛利率再次回落,海豚君测算本季度小米汽车业务核心经营利润再度陷入亏损 31 亿元。

    小米2026年第一季度财报,主要受手机和汽车毛利率同比回落影响

    小米本季度汽车业务毛利率下滑至 20.1%,接近市场预期(20.5%),主要是受均价下滑的影响,其中包含了小米对购置税进行补贴的影响,并在本季度销售了一部分的低价现车。由于毛利率再次回落,海豚君测算本季度小米汽车业务核心经营利润再度陷入亏损 31 亿元。

  • NVDA英偉達2027財年第一季度財報,收入752億美元,環比增量為129億美元

    英伟达2027财年第一季度财报,收入752亿美元,环比增量为129亿美元

    NVDA核心经营指标:总收入816亿美元,好于上调后的买方预期(780-800亿美元),其中季度环比增长135亿美元,几乎都来自于数据中心业务中Blackwell量产增加的带动。

    英伟达2027财年第一季度财报,收入752亿美元,环比增量为129亿美元

    NVDA核心经营指标:总收入816亿美元,好于上调后的买方预期(780-800亿美元),其中季度环比增长135亿美元,几乎都来自于数据中心业务中Blackwell量产增加的带动。

  • BYD比亞迪2025年第四季度業績仍然不及預期,賣車單價仍處於下行軌道

    比亚迪2025年第四季度业绩仍然不及预期,卖车单价仍处于下行轨道

    比亚迪的业绩仍然不及预期。收入虽超预期,但主要由于非核心的比亚迪电子业务高增带来,而在核心的卖车业务上,卖车单价仍处于下行轨道,卖车成本降幅不够,最后卖车毛利率虽有回暖,但仍低于市场预期。

    比亚迪2025年第四季度业绩仍然不及预期,卖车单价仍处于下行轨道

    比亚迪的业绩仍然不及预期。收入虽超预期,但主要由于非核心的比亚迪电子业务高增带来,而在核心的卖车业务上,卖车单价仍处于下行轨道,卖车成本降幅不够,最后卖车毛利率虽有回暖,但仍低于市场预期。

  • GOOG谷歌TurboQuant新聞導緻MU美光科技等內存股股價暴跌,但這合理嗎?

    GOOG谷歌TurboQuant新闻导致MU美光科技等内存股股价暴跌,但这合理吗?

    消息一出,华尔街一度陷入恐慌:如果 AI 突然间不再需要那么多 RAM 就能运作,这是否意味着内存产业的“超级周期”即将结束?答案是否定的。事实上,从历史规律与经济学角度来看,情况正好相反。要理解这一点,我们只需要观察你电脑上的网页浏览器。

    GOOG谷歌TurboQuant新闻导致MU美光科技等内存股股价暴跌,但这合理吗?

    消息一出,华尔街一度陷入恐慌:如果 AI 突然间不再需要那么多 RAM 就能运作,这是否意味着内存产业的“超级周期”即将结束?答案是否定的。事实上,从历史规律与经济学角度来看,情况正好相反。要理解这一点,我们只需要观察你电脑上的网页浏览器。

  • BABA財報AI投入比較激進

    BABA财报AI投入比较激进

    BABA发布第四季财报后股价下跌,财报显示其营收和利润均大幅低于预期。这家電商巨头的季度净利暴跌67%,而总营收仅增长1.7%约413亿美元。这些表现引发了人们对阿里巴巴在AI人工智能领域巨额投资(总额超过530亿美元)有效性的担忧。

    BABA财报AI投入比较激进

    BABA发布第四季财报后股价下跌,财报显示其营收和利润均大幅低于预期。这家電商巨头的季度净利暴跌67%,而总营收仅增长1.7%约413亿美元。这些表现引发了人们对阿里巴巴在AI人工智能领域巨额投资(总额超过530亿美元)有效性的担忧。

  • MU美光業績,季度毛利率達到 74.4%!

    MU美光业绩,季度毛利率达到 74.4%!

    MU 整体业绩:美光本季度营收 238.6 亿美元,环比增长 75%,好于上调后的买方预期(199 亿美元),本季度收入增长主要来自于 DRAM 和 NAND 业务的双重带动,两大业务环增都在 70% 以上。

    MU美光业绩,季度毛利率达到 74.4%!

    MU 整体业绩:美光本季度营收 238.6 亿美元,环比增长 75%,好于上调后的买方预期(199 亿美元),本季度收入增长主要来自于 DRAM 和 NAND 业务的双重带动,两大业务环增都在 70% 以上。

  • Tencent騰訊業績整體看無驚無喜?

    腾讯业绩整体看无惊无喜?

    腾讯一口气连发多个“龙虾”产品,能够看出公司在元宝春节大战中失利后的焦虑,虽然仓促推出产品还不完善。不过这个紧迫感的转变很关键也很必要。就目前来看,微信入口似乎在 AI 原生应用盛行的当下仍然有无法撼动的地位。

    腾讯业绩整体看无惊无喜?

    腾讯一口气连发多个“龙虾”产品,能够看出公司在元宝春节大战中失利后的焦虑,虽然仓促推出产品还不完善。不过这个紧迫感的转变很关键也很必要。就目前来看,微信入口似乎在 AI 原生应用盛行的当下仍然有无法撼动的地位。

1 / 8
  • Sharpa機器人削蘋果

    Sharpa机器人削苹果

    对人类来说,削苹果是件轻而易举的晨间小事,但对机器人而言,这是双手协调能力的「终极挑战」。 Sharpa机器人正在为能够像人类一样灵巧地完成复杂家务和工业装配的机器人铺平道路。

    Sharpa机器人削苹果

    对人类来说,削苹果是件轻而易举的晨间小事,但对机器人而言,这是双手协调能力的「终极挑战」。 Sharpa机器人正在为能够像人类一样灵巧地完成复杂家务和工业装配的机器人铺平道路。

  • 腫瘤療法突破,中國團隊給癌細胞打上“豬”標簽,癌細胞“偽裝朮”被破解

    肿瘤疗法突破,中国团队给癌细胞打上“猪”标签,癌细胞“伪装术”被破解

    近期,中国科学家在“Cell”杂志上发表的一项突破性研究,为这一顽疾提供了全新思路。他们利用基因编辑技术,将癌细胞改造成免疫系统眼中的“异类”,类似于人体对猪器官产生的超急性排斥反应,从而引发了一场针对癌细胞的精准“免疫歼灭战”。

    肿瘤疗法突破,中国团队给癌细胞打上“猪”标签,癌细胞“伪装术”被破解

    近期,中国科学家在“Cell”杂志上发表的一项突破性研究,为这一顽疾提供了全新思路。他们利用基因编辑技术,将癌细胞改造成免疫系统眼中的“异类”,类似于人体对猪器官产生的超急性排斥反应,从而引发了一场针对癌细胞的精准“免疫歼灭战”。

  • 新型大腦設備首次讀出內心聲音,腦機接口技朮打破失語者困境

    新型大脑设备首次读出内心声音,脑机接口技术打破失语者困境

    新系统的核心原理与常见的“尝试说话”型脑机介面相似,都是在大脑运动皮质植入感测器,这一区域负责向声道肌肉下达运动指令。感测器捕捉到的神经活动会送入机器学习模型,模型依据个人化数据判断信号对应的声音,进而预测使用者想说的单字。

    新型大脑设备首次读出内心声音,脑机接口技术打破失语者困境

    新系统的核心原理与常见的“尝试说话”型脑机介面相似,都是在大脑运动皮质植入感测器,这一区域负责向声道肌肉下达运动指令。感测器捕捉到的神经活动会送入机器学习模型,模型依据个人化数据判断信号对应的声音,进而预测使用者想说的单字。

  • “垃圾DNA”新發現:遠古病毒DNA在人類發育中發揮關鍵作用

    “垃圾DNA”新发现:远古病毒DNA在人类发育中发挥关键作用

    自这类非编码DNA片段首次被发现并被称作“垃圾”以来,生物学家们一直在探讨它们是否真的无用。如今的主流观点认为,这些片段虽不直接参与蛋白质合成,却在整体基因组中占据了极大比例,显示它们可能具有重要功能。

    “垃圾DNA”新发现:远古病毒DNA在人类发育中发挥关键作用

    自这类非编码DNA片段首次被发现并被称作“垃圾”以来,生物学家们一直在探讨它们是否真的无用。如今的主流观点认为,这些片段虽不直接参与蛋白质合成,却在整体基因组中占据了极大比例,显示它们可能具有重要功能。

1 / 4
1 / 4
  • 從中國經濟看背後困境及發展新構想?

    从中国经济看背后困境及发展新构想?

    中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施,中国经济可能有一个全新的契机注入新的动力,推动经济稳定健康发展。

    从中国经济看背后困境及发展新构想?

    中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施,中国经济可能有一个全新的契机注入新的动力,推动经济稳定健康发展。

  • 在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    在变革中的抉择:当今大环境下如何实现职业规划与人生价值?

    随着时代的变迁,人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同,有些人追求的是即时的快乐和成就感,而有些人则看重长期的进步和自我超越。

    在变革中的抉择:当今大环境下如何实现职业规划与人生价值?

    随着时代的变迁,人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同,有些人追求的是即时的快乐和成就感,而有些人则看重长期的进步和自我超越。

  • 再見愛人:探索現代婚姻中的情感困境

    再见爱人:探索现代婚姻中的情感困境

    芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子,麦琳、李行亮,葛夕、刘爽三对情感关系10年以上的夫妻,以“婚姻纪实观察”为切口,呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

    再见爱人:探索现代婚姻中的情感困境

    芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子,麦琳、李行亮,葛夕、刘爽三对情感关系10年以上的夫妻,以“婚姻纪实观察”为切口,呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

  • 抖音短劇新風潮:中老年人成為新的增長點?

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

1 / 4