要點:
深圳北理莫斯科大學楊楊副教授團隊基於英偉達GPU開發的PD-General算法,通過CUDA編程技朮提升計算效率,在不需要升級硬件的情況下,充分挖掘GPU潛力,為科研人員提供了高效的計算方案,展現了算法創新在推動技朮進步中的巨大潛力。
科技正以前所未有的速度和規模發展,引發多個領域的變革,塑造了新的商業模式,甚至重塑了全新社會結構。我們一起,從科技創新中洞察社會轉型和升級的機遇。
狂呼科技研究所聚焦科技創新對當今世界的影響,以獨特、前瞻的科技視角,洞察科技時代下涌現的“創新革命”。
狂呼,以最具突破性的技朮塑造我們的未來,為大眾捕捉科技商業先機,探索當今人類社會面臨的重大挑戰。
聯系我們 // 相關文章
隨着DeepSeek的火爆,英偉達的GPU以及其配套的CUDA/Compute Unified Device Architecture統一計算架搆,逐漸成為科技界的焦點。越來越多的人開始關注這一強大工具的潛力,尤其在推動深度學習和人工智能領域的快速發展的過程中,GPU的作用愈加顯著。
近日,深圳北理莫斯科大學的楊楊副教授及其團隊,基於英偉達GPU的強大能力,開發出了一種創新的算法:鍵型近場動力學并行算法/PD-General。該算法借助GPU的并行計算優勢,釆用CUDA編程技朮,極大地提升了計算效率。特別值得注意的是,PD-General并不需要升級GPU,依然能夠在現有硬件上實現卓越的性能提升。
在AI領域,常有人言“得算法者得天下”。這次的技朮突破,正是因為在現有硬件條件下,能夠通過更加高效的算法釋放出計算資源的潛力,實現了計算效能的最大化。PD-General可以充分挖掘GPU內部架搆的潛力,通過優化對內部寄存器的訪問,減少對高性能硬件的依賴,甚至普通的家用GPU也能將原本需要數天才能完成的復雜任務壓縮至几小時甚至几分鐘。
這項技朮的價值不僅在於它為科研人員和開發者提供了一種高效的計算方式,更深層次地體現了技朮發展的可持續性:在追求更高性能的同時,我們不必過度依賴昂貴的硬件,而是可以通過算法創新來突破性能瓶頸。這一切正是科技不斷向前發展的動力所在,展現了智能算法在推動各個領域突破性進展中的巨大潛力。

與傳統的串行程序/Serial和OpenMP并行程序相比,本次算法在性能上實現了顯著的提升,分別達到了800倍和100倍的加速效果。(注:串行程序是指按照指令順序逐個執行任務,任務完成后下一個才開始。OpenMP/Open Multi-Processing是一種用於共享內存并行編程的API,主要支持 C、C++和Fortran語言。
在一百萬粒子的典型模擬中,當在低端GPU PC上執行4000次迭代時,本算法在單精度條件下僅需5分鐘,雙精度條件下則需20分鐘。這種計算速度能夠大大縮短科研人員在進行復雜材料設計和損傷模擬時的計算時間,讓他們更迅速地獲得實驗結果。
此外,研究團隊還提出了一種創新的通用寄存器技朮,能夠通過高速訪問寄存器,減少對全局存儲器的依賴,從而進一步提升計算效率。
該算法釆用了粒子并行模式,并通過寄存器優化帶寬訪問,極大地提高了粒子系統模擬的計算效率。(注:粒子并行是一種加速粒子系統模擬的方法,其基本思想是將計算任務分配到多個處理器或計算節點上,并行執行以提高整體計算效率。)
與傳統的串行程序和其他并行算法相比,本次算法不僅在性能上實現了顯著加速,還能夠對鍵型近場動力學/bond based peridynamic,簡稱BBPD中的變形和裂紋擴展過程進行快速分析。這一算法同樣適用於其他近場動力學的理論研究,為各領域的計算任務提供了全新的解決方案。
相關研究論文已以“基於GPU并行計算的快速鍵型近場動力學程序”/A fast bond-based peridynamic program based on GPU parallel computing為題,發表於“工程分析與邊界元素”期刊。深圳北理莫斯科大學楊楊副教授為第一作者和通訊作者,南方科技大學的劉軼軍講席教授和碩士生蘇梓鑫為共同作者。

據了解,楊楊是研究力學算法出身,但是參與本次研究的碩士生則是計算機出身,后者非常熟悉計算機架搆,正是這樣跨學科的交叉融合,使得他們不走尋常路地打造了本次算法。
GPU并行計算亟需破除“窘境”
近場動力學/Peridynamic簡稱PD,是一種非局部理論框架,通過引入基於積分的控制方程來解決不連續空間建模的問題。與傳統方法相比,近場動力學能夠在不改變網格的情況下,更精確地對裂紋擴展進行建模。
在這一過程中,求解域需要離散為多個物質點,每個物質點包括位置、體積和密度等信息。為了保證數值計算的穩定性和准確性,通常需要設置較小的增量步長,然而這會導致大量的迭代計算,并消耗大量的計算資源。
與基於經典連續體力學的方法相比,近場動力學不僅計算量大,還需要占用更多的存儲空間,這使得計算效率較低。為了提高近場動力學的計算效率,多個研究團隊曾提出過不同的優化方法。
在CPU并行加速的研究中,大多數加速優化方法針對的是較小規模的計算任務(通常小於100萬個點)。而在大規模模擬中,通常需要依賴超級計算機或多CPU系統,這不僅需要高規格的設備,還不方便用戶普遍使用。
早期基於GPU的并行計算研究大多聚焦於將串行程序轉換為并行程序,優化策略通常依賴於GPU自身的性能提升。而很少有研究專門針對GPU硬件架搆進行優化設計。
此外,GPU并行計算面臨的一些問題包括:
首先,用於存儲鄰域點的內存空間沒有預先確定大小,導致線程和內存資源的利用效率低下,從而造成內存和計算資源的浪費,限制了GPU在大規模計算中的應用。其次,許多GPU并行計算依然嚴重依賴全局內存,未能充分利用CUDA內存結搆,導致內存帶寬的浪費。
最后,很多近場動力學并行算法缺乏通用性。有些算法限制了鄰域的大小,只能處理均勻分布且未損壞的離散結搆;而其他算法則可能局限於特定的近場動力學理論。
鑒於上述局限,本次研究團隊開發了PD-General算法,通過該算法成功提升了內存利用率和計算效率,有效解決了GPU計算中的一些瓶頸,推動了近場動力學領域的進一步發展。
擴展PC計算能力提高計算效率
Warp是GPU中執行并行操作的基本單位,由32個線程組成。因此,研究人員將線程塊組織設置為32k(其中k為正整數)。
以內力計算為基礎,研究人員在英偉達的Nsight Systems上對三種不同模型中各種線程塊組織方式的性能進行了測試和比較。在測試過程中,研究人員分析了單個時間步驟的執行情況,并分別測試了64、128、256、512、768和1024個線程的線程塊組織。
測試結果如圖所示,圖中的條形圖表示占用率,折線圖則反映了執行效率。結果表明,當每個線程塊的線程數為1024時,性能最低。同時,線程塊的占用率越高,計算效率也越高。
通常,擁有128至256個線程的線程塊組織可以實現最佳性能。考慮到鄰域半徑可能對結果產生的影響,研究人員最終選擇了具有256個線程的線程塊組織進行進一步測試。

研究人員還測試了程序的總計算時間,即從程序開始到結束的完整執行時間,涵蓋了除數據輸出外的所有操作所需的時間。
在實驗中,研究人員運行了三種不同的模型:線性程序、OpenMP并行程序和CUDA并行程序。同時,實驗還涵蓋了7組不同規模的離散結搆,點數從2萬到200萬不等。
此外,研究人員還分析了鄰域點數量大於32和小於32的兩種情況。下圖顯示,基於CUDA的并行程序在效率上明顯優於OpenMP并行程序和串行程序。

另外,隨着物質點數量的增加,基於CUDA的并行程序的效率更加明顯。如下圖所示,并行程序的初始加速比相對較低,與OpenMP程序相比沒有顯著差異。然而,隨着物質點的增加,加速比開始上升。帶裂紋的鍵型近場動力學加速比是OpenMP的200倍。

在最大規模案例研究中,研究人員將近場動力學的時間復雜度設為O/PN,P為物質點的總數,N為每個物質點的視界點數。此外,研究人員使用ADP、AP、PN表示內存大小(單位為字節)。
實驗中,研究人員所使用的GPU理論內存大小為12GB。然而,由於操作系統的要求和CUDA啟動占用的內存,只有大約11GB的內存可被用於編程。
因此,研究人員使用11GB作為基線,以確定近場動力學的最大比例。通過代入四個條件:1. 雙精度,N=28;2. 雙精度,N=36;3. 單精度,N=28;4. 單精度,N=36來代入相應內存計算公式。借此得出了相應條件下的理論內存占用情況(如下表所示)。

實驗結果表明,單精度的吞吐量是雙精度的64倍,這意味着在較高的精度要求下,雙精度的處理速度和運行效率較低,尤其是在處理相同規模的問題時。此外,鄰域半徑的大小也對程序性能產生了影響。具體來說,鄰域點數量越多,執行規模越小,計算效率也隨之降低。
研究人員在論文中提到,他們所使用的近場動力學通用模型能夠模擬數千萬個粒子,并通過優化參數設置,最大可模擬75645000個粒子。具體而言,在單精度下,模擬1000步僅需100秒到 600 秒,而在雙精度下,模擬同樣的步驟則需要900秒到2500秒。
通過這些實驗結果,研究人員展示了他們對近場動力學模型及并行計算理論的深刻理解,并成功利用CUDA技朮打造了一個高性能、低成本的近場動力學分析框架:PD-General。在這一并行計算框架中,所開發的鄰域生成模塊顯著減少了內存占用的浪費,內存訪問模塊的優化則大幅提升了計算效率,使得個人計算機也能承擔更大規模的計算任務。
這不僅為科學計算提供了更高效的解決方案,也為未來更廣泛的應用場景打開了新的可能性。通過優化算法和硬件結合的方式,科研人員展示了技朮創新如何有效推動資源利用的最大化,從而降低了高性能計算的門檻,拓寬了其應用領域。
科技正以前所未有的速度和規模發展,引發多個領域的變革,塑造了新的商業模式,甚至重塑了全新社會結構。我們一起,從科技創新中洞察社會轉型和升級的機遇。
狂呼科技研究所聚焦科技創新對當今世界的影響,以獨特、前瞻的科技視角,洞察科技時代下涌現的“創新革命”。
狂呼,以最具突破性的技朮塑造我們的未來,為大眾捕捉科技商業先機,探索當今人類社會面臨的重大挑戰。
聯系我們 // 相關文章