深圳北理莫斯科大學開發快速近場動力學算法,無需購買英偉達高級GPU也能提升計算速度?

深圳北理莫斯科大学开发快速近场动力学算法,无需购买英伟达高级GPU也能提升计算速度?

發布日期:

科技 Tech


要点:
深圳北理莫斯科大学杨杨副教授团队基于英伟达GPU开发的PD-General算法,通过CUDA编程技术提升计算效率,在不需要升级硬件的情况下,充分挖掘GPU潜力,为科研人员提供了高效的计算方案,展现了算法创新在推动技术进步中的巨大潜力。

科技正以前所未有的速度和规模发展,引发多个领域的变革,塑造了新的商业模式,甚至重塑了全新社会结构。我们一起,从科技创新中洞察社会转型和升级的机遇。

狂呼科技研究所聚焦科技创新对当今世界的影响,以独特、前瞻的科技视角,洞察科技时代下涌现的“创新革命”。

狂呼,以最具突破性的技术塑造我们的未来,为大众捕捉科技商业先机,探索当今人类社会面临的重大挑战。

联系我们// 相关文章

随着DeepSeek的火爆,英伟达的GPU以及其配套的CUDA/Compute Unified Device Architecture统一计算架构,逐渐成为科技界的焦点。越来越多的人开始关注这一强大工具的潜力,尤其在推动深度学习和人工智能领域的快速发展的过程中,GPU的作用愈加显著。

近日,深圳北理莫斯科大学的杨杨副教授及其团队,基于英伟达GPU的强大能力,开发出了一种创新的算法:键型近场动力学并行算法/PD-General。该算法借助GPU的并行计算优势,釆用CUDA编程技术,极大地提升了计算效率。特别值得注意的是,PD-General并不需要升级GPU,依然能够在现有硬件上实现卓越的性能提升。

在AI领域,常有人言“得算法者得天下”。这次的技术突破,正是因为在现有硬件条件下,能够通过更加高效的算法释放出计算资源的潜力,实现了计算效能的最大化。 PD-General可以充分挖掘GPU内部架构的潜力,通过优化对内部寄存器的访问,减少对高性能硬件的依赖,甚至普通的家用GPU也能将原本需要数天才能完成的复杂任务压缩至几小时甚至几分钟。

这项技术的价值不仅在于它为科研人员和开发者提供了一种高效的计算方式,更深层次地体现了技术发展的可持续性:在追求更高性能的同时,我们不必过度依赖昂贵的硬件,而是可以通过算法创新来突破性能瓶颈。这一切正是科技不断向前发展的动力所在,展现了智能算法在推动各个领域突破性进展中的巨大潜力。

与传统的串行程序/Serial和OpenMP并行程序相比,本次算法在性能上实现了显著的提升,分别达到了800倍和100倍的加速效果。 (注:串行程序是指按照指令顺序逐个执行任务,任务完成后下一个才开始。OpenMP/Open Multi-Processing是一种用于共享内存并行编程的API,主要支持C、C++和Fortran语言。

在一百万粒子的典型模拟中,当在低端GPU PC上执行4000次迭代时,本算法在单精度条件下仅需5分钟,双精度条件下则需20分钟。这种计算速度能够大大缩短科研人员在进行复杂材料设计和损伤模拟时的计算时间,让他们更迅速地获得实验结果。

此外,研究团队还提出了一种创新的通用寄存器技术,能够通过高速访问寄存器,减少对全局存储器的依赖,从而进一步提升计算效率。

该算法釆用了粒子并行模式,并通过寄存器优化带宽访问,极大地提高了粒子系统模拟的计算效率。 (注:粒子并行是一种加速粒子系统模拟的方法,其基本思想是将计算任务分配到多个处理器或计算节点上,并行执行以提高整体计算效率。)

与传统的串行程序和其他并行算法相比,本次算法不仅在性能上实现了显著加速,还能够对键型近场动力学/bond based peridynamic,简称BBPD中的变形和裂纹扩展过程进行快速分析。这一算法同样适用于其他近场动力学的理论研究,为各领域的计算任务提供了全新的解决方案。

相关研究论文已以“基于GPU并行计算的快速键型近场动力学程序”/A fast bond-based peridynamic program based on GPU parallel computing为题,发表于“工程分析与边界元素”期刊。深圳北理莫斯科大学杨杨副教授为第一作者和通讯作者,南方科技大学的刘轶军讲席教授和硕士生苏梓鑫为共同作者。

据了解,杨杨是研究力学算法出身,但是参与本次研究的硕士生则是计算机出身,后者非常熟悉计算机架构,正是这样跨学科的交叉融合,使得他们不走寻常路地打造了本次算法。

GPU并行计算亟需破除“窘境”
近场动力学/Peridynamic简称PD,是一种非局部理论框架,通过引入基于积分的控制方程来解决不连续空间建模的问题。与传统方法相比,近场动力学能够在不改变网格的情况下,更精确地对裂纹扩展进行建模。

在这一过程中,求解域需要离散为多个物质点,每个物质点包括位置、体积和密度等信息。为了保证数值计算的稳定性和准确性,通常需要设置较小的增量步长,然而这会导致大量的迭代计算,并消耗大量的计算资源。

与基于经典连续体力学的方法相比,近场动力学不仅计算量大,还需要占用更多的存储空间,这使得计算效率较低。为了提高近场动力学的计算效率,多个研究团队曾提出过不同的优化方法。

在CPU并行加速的研究中,大多数加速优化方法针对的是较小规模的计算任务(通常小于100万个点)。而在大规模模拟中,通常需要依赖超级计算机或多CPU系统,这不仅需要高规格的设备,还不方便用户普遍使用。

早期基于GPU的并行计算研究大多聚焦于将串行程序转换为并行程序,优化策略通常依赖于GPU自身的性能提升。而很少有研究专门针对GPU硬件架构进行优化设计。

此外,GPU并行计算面临的一些问题包括:
首先,用于存储邻域点的内存空间没有预先确定大小,导致线程和内存资源的利用效率低下,从而造成内存和计算资源的浪费,限制了GPU在大规模计算中的应用。其次,许多GPU并行计算依然严重依赖全局内存,未能充分利用CUDA内存结构,导致内存带宽的浪费。

最后,很多近场动力学并行算法缺乏通用性。有些算法限制了邻域的大小,只能处理均匀分布且未损坏的离散结构;而其他算法则可能局限于特定的近场动力学理论。

鉴于上述局限,本次研究团队开发了PD-General算法,通过该算法成功提升了内存利用率和计算效率,有效解决了GPU计算中的一些瓶颈,推动了近场动力学领域的进一步发展。

扩展PC计算能力提高计算效率
Warp是GPU中执行并行操作的基本单位,由32个线程组成。因此,研究人员将线程块组织设置为32k(其中k为正整数)。

以内力计算为基础,研究人员在英伟达的Nsight Systems上对三种不同模型中各种线程块组织方式的性能进行了测试和比较。在测试过程中,研究人员分析了单个时间步骤的执行情况,并分别测试了64、128、256、512、768和1024个线程的线程块组织。

测试结果如图所示,图中的条形图表示占用率,折线图则反映了执行效率。结果表明,当每个线程块的线程数为1024时,性能最低。同时,线程块的占用率越高,计算效率也越高。

通常,拥有128至256个线程的线程块组织可以实现最佳性能。考虑到邻域半径可能对结果产生的影响,研究人员最终选择了具有256个线程的线程块组织进行进一步测试。

研究人员还测试了程序的总计算时间,即从程序开始到结束的完整执行时间,涵盖了除数据输出外的所有操作所需的时间。

在实验中,研究人员运行了三种不同的模型:线性程序、OpenMP并行程序和CUDA并行程序。同时,实验还涵盖了7组不同规模的离散结构,点数从2万到200万不等。

此外,研究人员还分析了邻域点数量大于32和小于32的两种情况。下图显示,基于CUDA的并行程序在效率上明显优于OpenMP并行程序和串行程序。

另外,随着物质点数量的增加,基于CUDA的并行程序的效率更加明显。如下图所示,并行程序的初始加速比相对较低,与OpenMP程序相比没有显著差异。然而,随着物质点的增加,加速比开始上升。带裂纹的键型近场动力学加速比是OpenMP的200倍。

在最大规模案例研究中,研究人员将近场动力学的时间复杂度设为O/PN,P为物质点的总数,N为每个物质点的视界点数。此外,研究人员使用ADP、AP、PN表示内存大小(单位为字节)。

实验中,研究人员所使用的GPU理论内存大小为12GB。然而,由于操作系统的要求和CUDA启动占用的内存,只有大约11GB的内存可被用于编程。

因此,研究人员使用11GB作为基线,以确定近场动力学的最大比例。通过代入四个条件:1. 双精度,N=28;2. 双精度,N=36;3. 单精度,N=28;4. 单精度,N=36来代入相应内存计算公式。借此得出了相应条件下的理论内存占用情况(如下表所示)。

实验结果表明,单精度的吞吐量是双精度的64倍,这意味着在较高的精度要求下,双精度的处理速度和运行效率较低,尤其是在处理相同规模的问题时。此外,邻域半径的大小也对程序性能产生了影响。具体来说,邻域点数量越多,执行规模越小,计算效率也随之降低。

研究人员在论文中提到,他们所使用的近场动力学通用模型能够模拟数千万个粒子,并通过优化参数设置,最大可模拟75645000个粒子。具体而言,在单精度下,模拟1000步仅需100秒到600 秒,而在双精度下,模拟同样的步骤则需要900秒到2500秒。

通过这些实验结果,研究人员展示了他们对近场动力学模型及并行计算理论的深刻理解,并成功利用CUDA技术打造了一个高性能、低成本的近场动力学分析框架:PD-General。在这一并行计算框架中,所开发的邻域生成模块显著减少了内存占用的浪费,内存访问模块的优化则大幅提升了计算效率,使得个人计算机也能承担更大规模的计算任务。

这不仅为科学计算提供了更高效的解决方案,也为未来更广泛的应用场景打开了新的可能性。通过优化算法和硬件结合的方式,科研人员展示了技术创新如何有效推动资源利用的最大化,从而降低了高性能计算的门槛,拓宽了其应用领域。

科技正以前所未有的速度和规模发展,引发多个领域的变革,塑造了新的商业模式,甚至重塑了全新社会结构。我们一起,从科技创新中洞察社会转型和升级的机遇。

狂呼科技研究所聚焦科技创新对当今世界的影响,以独特、前瞻的科技视角,洞察科技时代下涌现的“创新革命”。

狂呼,以最具突破性的技术塑造我们的未来,为大众捕捉科技商业先机,探索当今人类社会面临的重大挑战。

联系我们// 相关文章

免責聲明:本網站提供的信息僅供一般信息分享目的,並不應被視為投資建議。

返回博客
  • 納指標普跌入調整區間極度超賣星期五反彈! | 視頻 Video

    纳指标普跌入调整区间极度超卖星期五反弹! | 视频Video

    在上一周,纳指100和标普500,最大跌幅分别为14%和10%,双双进入了调整区域。星期五,各指数反弹。究竟这是个强反弹抑或约反弹?从日线级别看,这个反弹是不错的,但从周线级别看,这个反弹可能令到好友有点失望。

    纳指标普跌入调整区间极度超卖星期五反弹! | 视频Video

    在上一周,纳指100和标普500,最大跌幅分别为14%和10%,双双进入了调整区域。星期五,各指数反弹。究竟这是个强反弹抑或约反弹?从日线级别看,这个反弹是不错的,但从周线级别看,这个反弹可能令到好友有点失望。

  • 加拿大Hudson's Bay面臨清算危機,百年企業將迎來終結?

    加拿大Hudson's Bay面临清算危机,百年企业将迎来终结?

    随着零售环境的剧烈变化以及消费者需求的转变,这家历史悠久的公司正在面临一场前所未有的危机。在这波商业风暴中,Hudson's Bay是否能够逆风翻槃,重振昔日辉煌,或将永远消失在历史的尘埃中?

    加拿大Hudson's Bay面临清算危机,百年企业将迎来终结?

    随着零售环境的剧烈变化以及消费者需求的转变,这家历史悠久的公司正在面临一场前所未有的危机。在这波商业风暴中,Hudson's Bay是否能够逆风翻槃,重振昔日辉煌,或将永远消失在历史的尘埃中?

  • 特斯拉致匿名信擔憂特朗普報復性關稅,全球貿易戰或加劇市場波動?

    特斯拉致匿名信担忧特朗普报复性关税,全球贸易战或加剧市场波动?

    随着特朗普政府推动的高关税政策,汽车制造商和贸易企业将不可避免地受到冲击。这些政策将不仅影响企业的成本结构,还可能对企业的盈利前景带来重大不确定性,尤其是在那些依赖跨国供应链和出口市场的公司中,投资者可能面临更高的风险。

    特斯拉致匿名信担忧特朗普报复性关税,全球贸易战或加剧市场波动?

    随着特朗普政府推动的高关税政策,汽车制造商和贸易企业将不可避免地受到冲击。这些政策将不仅影响企业的成本结构,还可能对企业的盈利前景带来重大不确定性,尤其是在那些依赖跨国供应链和出口市场的公司中,投资者可能面临更高的风险。

  • Manus AI Agent 爭議背後 | 播客Podcast

    Manus AI Agent 争议背后| 播客Podcast

    Manus AI 全球首个通用AI Agent,Manus 只发放了少量的邀请码,大部分人无法第一时间使用它,这就使得社交媒体上大量用词夸张的褒奖显得空洞、无法验证。人们开始质疑:这款产品,真的有那么厉害吗?

    Manus AI Agent 争议背后| 播客Podcast

    Manus AI 全球首个通用AI Agent,Manus 只发放了少量的邀请码,大部分人无法第一时间使用它,这就使得社交媒体上大量用词夸张的褒奖显得空洞、无法验证。人们开始质疑:这款产品,真的有那么厉害吗?

  • 蜜雪冰城是家怎樣的公司?

    蜜雪冰城是家怎样的公司?

    这两年在消费环境整体低迷的环境下,一家从河南小镇走出的茶饮品牌近年来却以年均近1w 家门店的速度逆势高速扩张,截至招股书披露之际,这家茶饮品牌门店总数超过45000 家,正式超越星巴克成为全球门店最多的连锁现饮品牌。

    蜜雪冰城是家怎样的公司?

    这两年在消费环境整体低迷的环境下,一家从河南小镇走出的茶饮品牌近年来却以年均近1w 家门店的速度逆势高速扩张,截至招股书披露之际,这家茶饮品牌门店总数超过45000 家,正式超越星巴克成为全球门店最多的连锁现饮品牌。

  • 從凱越機車到張雪機車,從草根到世界級賽車品牌的傳奇崛起

    从凯越机车到张雪机车,从草根到世界级赛车品牌的传奇崛起

    张雪,出身草根、怀揣赛车手梦想的普通修车匠,以惊人的执着和实力,从贫困农村孩子到创办凯越机车再到如今的张雪机车,震撼了每一位热爱机车的人。他最终成为了世界上唯一一个既能修车,又能造车,甚至还能亲自上阵参赛的传奇车手。

    从凯越机车到张雪机车,从草根到世界级赛车品牌的传奇崛起

    张雪,出身草根、怀揣赛车手梦想的普通修车匠,以惊人的执着和实力,从贫困农村孩子到创办凯越机车再到如今的张雪机车,震撼了每一位热爱机车的人。他最终成为了世界上唯一一个既能修车,又能造车,甚至还能亲自上阵参赛的传奇车手。

  • 日產汽車推動自動駕駛技朮發展,或重塑全球汽車市場格局?

    日产汽车推动自动驾驶技术发展,或重塑全球汽车市场格局?

    近日,日产汽车/Nissan的一辆无人驾驶实验车在繁忙的市区公共道路上顺畅行驶,且全程无人操作。这是日本首次在这样繁华的市区实现无人驾驶,标志着自动驾驶技术迈出了从实验室到实际应用的关键一步。

    日产汽车推动自动驾驶技术发展,或重塑全球汽车市场格局?

    近日,日产汽车/Nissan的一辆无人驾驶实验车在繁忙的市区公共道路上顺畅行驶,且全程无人操作。这是日本首次在这样繁华的市区实现无人驾驶,标志着自动驾驶技术迈出了从实验室到实际应用的关键一步。

  • 中國大媽Eva Sam,憑借賣金成為全球“嘻哈教母”

    中国大妈Eva Sam,凭借卖金成为全球“嘻哈教母”

    凭借着一间珠宝店,63岁的Eva见证了美国嘻哈音乐从边缘到主流的蜕变,成为这一文化潮流的重要象征之一。她亲眼看着无数Rapper从无名小卒走向辉煌,如今几乎所有嘻哈艺人都尊称她为“嘻哈教母”。

    中国大妈Eva Sam,凭借卖金成为全球“嘻哈教母”

    凭借着一间珠宝店,63岁的Eva见证了美国嘻哈音乐从边缘到主流的蜕变,成为这一文化潮流的重要象征之一。她亲眼看着无数Rapper从无名小卒走向辉煌,如今几乎所有嘻哈艺人都尊称她为“嘻哈教母”。

1 / 8
1 / 4
  • 中國惠州房產中介貸款騙局,為愛買房“殺豬槃”騙局?

    中國惠州房產中介貸款騙局,為愛買房“殺豬槃”騙局?

    “我的前女友叫劉佳”、“前女友叫劉佳”、“劉佳是我前女友”.。以上這些男士的前女友竟然都叫“劉佳”,而更離奇的是,這些男士還都是同一棟樓的業主,他們都表示自己是前女友“劉佳”介紹來買房的。這一切看似巧合,實則隱藏着不為人知的騙局。

    中國惠州房產中介貸款騙局,為愛買房“殺豬槃”騙局?

    “我的前女友叫劉佳”、“前女友叫劉佳”、“劉佳是我前女友”.。以上這些男士的前女友竟然都叫“劉佳”,而更離奇的是,這些男士還都是同一棟樓的業主,他們都表示自己是前女友“劉佳”介紹來買房的。這一切看似巧合,實則隱藏着不為人知的騙局。

  • 美國性勒索與網路犯罪:青少年如何避免成為下一個受害者?

    美国性勒索与网路犯罪:青少年如何避免成为下一个受害者?

    在数字化时代,网络犯罪的形式愈加多样且隐蔽,其中“性勒索”/sextortion已成为一个日益严重的问题。这类网络犯罪不仅涉及个人隐私的泄露,还会对受害者的心理健康和社会生活造成深远影响。 “性勒索”/Sextortion犯罪在现代技术的推动下,呈现出爆发式增长。

    美国性勒索与网路犯罪:青少年如何避免成为下一个受害者?

    在数字化时代,网络犯罪的形式愈加多样且隐蔽,其中“性勒索”/sextortion已成为一个日益严重的问题。这类网络犯罪不仅涉及个人隐私的泄露,还会对受害者的心理健康和社会生活造成深远影响。 “性勒索”/Sextortion犯罪在现代技术的推动下,呈现出爆发式增长。

  • 美國加州洛杉磯野火的“囚犯消防員”

    加州洛杉矶野火的“囚犯消防员”

    加州洛杉矶囚犯参与了构筑防火线、清除废墟及易燃物等工作,弥补了加州消防队伍的不足。然而,他们的低薪待遇却令人震惊。囚犯消防员的收入在每天5.8美元至10.2美元之间,而相比之下,加州的最低工资标准为每小时16.5美元。

    加州洛杉矶野火的“囚犯消防员”

    加州洛杉矶囚犯参与了构筑防火线、清除废墟及易燃物等工作,弥补了加州消防队伍的不足。然而,他们的低薪待遇却令人震惊。囚犯消防员的收入在每天5.8美元至10.2美元之间,而相比之下,加州的最低工资标准为每小时16.5美元。

  • 從吉他少年到海嘎小學教師,顧亞用音樂敲開鄉村孩子通往世界的大門

    从吉他少年到海嘎小学教师,顾亚用音乐敲开乡村孩子通往世界的大门

    2014年,在家人的“怂恿”下,27岁的顾亚参加了乡镇特岗教师的招聘考试,意外地来到了这个偏远的村庄。海嘎村的孩子们大多没有见过吉他,但他们天生拥有出色的嗓音和节奏感。顾亚毅然申请从大湾镇的腊寨小学调动,前往海嘎村当起了老师。

    从吉他少年到海嘎小学教师,顾亚用音乐敲开乡村孩子通往世界的大门

    2014年,在家人的“怂恿”下,27岁的顾亚参加了乡镇特岗教师的招聘考试,意外地来到了这个偏远的村庄。海嘎村的孩子们大多没有见过吉他,但他们天生拥有出色的嗓音和节奏感。顾亚毅然申请从大湾镇的腊寨小学调动,前往海嘎村当起了老师。

1 / 4
  • 從中國經濟看背後困境及發展新構想?

    从中国经济看背后困境及发展新构想?

    中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施,中国经济可能有一个全新的契机注入新的动力,推动经济稳定健康发展。

    从中国经济看背后困境及发展新构想?

    中国未来发展或许可以参考“五环构想”进行战略布局。这一构想包括高等教育培训、创新科技驱动、产品生产销售、市场推广营销、出海战略布局五大领域。通过“五环构想”的实施,中国经济可能有一个全新的契机注入新的动力,推动经济稳定健康发展。

  • 在變革中的抉擇:當今大環境下如何實現職業規劃與人生價值?

    在变革中的抉择:当今大环境下如何实现职业规划与人生价值?

    随着时代的变迁,人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同,有些人追求的是即时的快乐和成就感,而有些人则看重长期的进步和自我超越。

    在变革中的抉择:当今大环境下如何实现职业规划与人生价值?

    随着时代的变迁,人生价值的内涵也变得更加多样化和个性化。每个人对于“成功”和“幸福”的理解不同,有些人追求的是即时的快乐和成就感,而有些人则看重长期的进步和自我超越。

  • 再見愛人:探索現代婚姻中的情感困境

    再见爱人:探索现代婚姻中的情感困境

    芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子,麦琳、李行亮,葛夕、刘爽三对情感关系10年以上的夫妻,以“婚姻纪实观察”为切口,呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

    再见爱人:探索现代婚姻中的情感困境

    芒果TV婚姻纪实观察节目“再见爱人4”邀请黄圣依、杨子,麦琳、李行亮,葛夕、刘爽三对情感关系10年以上的夫妻,以“婚姻纪实观察”为切口,呈现出不同婚姻样本在亲密关系中的挣扎与甜蜜、桎梏与觉醒。

  • 抖音短劇新風潮:中老年人成為新的增長點?

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

    抖音短剧新风潮:中老年人成为新的增长点?

    近日,不少以老年人为主角的抖音短剧“闪婚五十岁”、“金榜题名之母凭子贵”、“人到五十,闪婚霸总”等等登上热度榜单。老年人的婚姻、情感以及生活故事,成了当下短剧创作的“新流量密码”。

1 / 4