You are on page 1of 4

第 23 卷 第 6 期 计 算 机 辅 助 工 程 Vol. 23 No. 6

2014 年 12 月 Computer Aided Engineering Dec. 2014

文章编号: 1006 - 0871( 2014) 06-0108-03


DOI: 10. 13340 / j. cae. 2014. 06. 023

基于 NUMECA FINE / Turbo 的并行计算测试


董晶
( 沈阳鼓风机集团股份有限公司,沈阳 110869)

摘要: 为具体了解 CFD 软件 NUMECA FINE / Turbo 的并行计算性能,良好把握后续的科研工作进


度,
分别研究在激活超线程情况下单节点计算与多节点并行计算以及 CPU 在激活超线程前、后计
算速度的差异. 结果表明: 在多节点并行计算时,计算速度与实际参加并行计算的 CPU 物理核心数
量成正比; 在激活超线程的情况下,并行计算节点数在超过实际物理核心数后明显降低计算速度的
提升.
关键词: 并行计算; 超线程; 计算节点数; CPU 核心数量; 计算速度; NUMECA; FINE / Turbo
中图分类号: O246 文献标志码: B

Parallel computing test based on NUMECA FINE / Turbo


DONG Jing
( Shenyang Blower Works Group Co. ,Ltd. ,Shenyang 110869,China)

Abstract: To understand the parallel computing performance of CFD software NUMECA concretely and
have a good grasp of the work progress of the follow-up research,the single node computing and the
multi-node parallel computing are separately researched in the case of activated hyper-thread,and the
difference of computation speed of the CPU before and after activating hyper-thread is obtained. The
results show that,the computation speed is proportional to the actual computational number of physical
CPU cores in the case of multi-node parallel computing; in the case that the hyper-thread is activated,
the ascension of computation speed is obviously reduced when the number of parallel computing nodes is
more than physical cores.
Key words: parallel computing; hyper-thread; computation node number; CPU core number;
computation speed; NUMECA; FINE / Turbo

数值模拟也要花费几十个小时. 因此,并行计算方法
0 引 言 的研究越来越被人们重视.
[4-5]
并行计算,或称平行
计算机产业在不断进步,对计算机系统可提供 计算,是相对于串行计算来说的. 所谓并行计算可分
的计算速度的需求总在不断增长,对计算的要求也 为时间上的并行和空间上的并行. 时间上的并行是
越来越高,因此并行计算的开发和应用也愈发的重 指流水线技术,而空间上的并行则是指用多个处理
[1-3] [6-7]
要. 即使在目前所提供的运算速度最快、容量最 器并发执行计算. 为利用并行计算,通常计算问
大的超级计算机上进行计算,一个三维定常问题的 题表现为以下特征:

收稿日期: 2014-11-11 修回日期: 2014-12-03


作者简介: 董晶( 1971—) ,女,辽宁西丰人,研究方向为信息化技术,( E-mail) dj_dongj@ sina. com

http : / / www. chinacae. cn


第6 期 董晶: 基于 NUMECA FINE / Turbo 的并行计算测试 109

1) 工作可分成离散部分,有助于同时解决; 数约为 3 354 万个.


2) 随时并及时地执行多个程序指令 ; 4) 模型 4 为 AP 1000 屏蔽电机主泵研究迷宫密
3) 多计算资源下解决问题的耗时要少于单个 封的网格模型,见图 3. 在 HP Z820 工作站双 CPU 平
计算资源下的耗时. 台上对网格数量进行调整,网格节点数约为 2 236
本文研究内容为空间上的并行,测试采用具有 万个.
单个 CPU 处理器的 DELL PRECISION T5500 工作站
和具有 2 个 CPU 处理器的 HP Z820 工作站,选取不
同数量线程数和超线程激活前后开展测试 ,得出相
关的对比数据和经验.
NUMECA 是 总 部 位 于 比 利 时 布 鲁 塞 尔 市 的
NUMECA 国际公司的产品,该公司于 1992 年在国
图2 测试模型 2
际著名叶轮机械气体动力学及 CFD 专家、比利时王 Fig. 2 Test model 2
国科学院院士、布鲁塞尔自由大学流体力学系主任
查尔斯·赫思教授的倡导下成立,其核心软件是在
20 世纪八 九 十 年 代 为 欧 洲 宇 航 局 编 写 的 CFD 软
件———欧洲空气动力数值求解器———的基础之上发
展起来 的. 其 分 析 软 件 包 包 括 FINE / Turbo,FINE /
Marine 和 FINE / Open 等,其中均包括前处理、求解
器和后处理 3 个部分. 本文主要采用 FINE / Turbo 模 图3 测试模型 4
块完成相关的计算测试工作. Fig. 3 Test model 4

1 测试模型 2 测试硬件
在测试研究过程中共采用 4 种计算网格模型. NUMECA 软 件 单 点 硬 件 平 台 为 DELL
1) 模型 1 选取长输管线输油泵国产化项目的 PRECISION T5500 机型,Red Hat 6. 0 系统,CPU 为
双吸叶轮与导叶单通道网格计算模型 ,见图 1,在 Intel( R) Xeon( R) X5650 @ 2. 67 GHz,内核数为 6
DELL PRECISION T5500 工作站平台上,开展在激 个,超线程 12 个,内存 48 GiB,硬盘 2 TiB; 并行计算
活超线程的情况下单点计算与多点并行计算速度测 测试硬件平台为 HP Z820 机型,Red Hat 6. 0 系统,
试研究,网格节点数约为 293. 4 万个. CPU 为 Intel Xeon E5-2667 v2 3. 30 GHz,内核数为
16 个,超线程 32 个,内存 64 GiB,硬盘 2 TiB.

3 计算测试
在 激 活 超 线 程 状 态 下 采 用 DELL PRECISION
T5500 完成单线程与多线程测试工作,共完成单节
点、
2 个节点、4 个节点、8 个节点与 10 个节点的并
行计算测试. 计算的收敛曲线见图 4,其中粗网格叠
代 2 次,每次 500 步,细网格计算共完成 6 000 步.
图1 测试模型 1 模型 1 并行计算统计表见表 1,可知计算耗时主要
Fig. 1 Test model 1 集中在细网格计算部分. 计算公式为
2) 模型 2 为国家重大专项“CAP 1400 屏蔽电机 T S = T0 ÷ 6 000 ( 1)
主泵研制”项目研制过程中的 CAP 1400 屏蔽电机 V = 60 ÷ T S ( 2)
主泵水力模型的全通道网格计算模型,见图 2. 开展 式中: T S 为细网格单位步数耗时,s / 步; T0 为 6 000
CPU 在超线程激活前后计算速度差异情况的研究, 步细网格的总耗时,s; V 为计算速度,步 / min. 由表 1
网格节点数约为 1 962. 6 万个. 可知,随着计算节点数的增加: 在计算节点数小于 6
3) 模型 3 以模型 2 为基础,在 HP Z820 工作站 个的范围内,计算速度基本呈线性增加的趋势 ,超过
双 CPU 平台上对网格数量进行调整,得到网格节点 6 个以后计算速度的增速放缓,见图 5a. 初步分析这

http : / / www. chinacae. cn


110 计 算 机 辅 助 工 程 2014 年

种现象产生的原因为实际参加计算的线程数超过
CPU 的物理核心数所致. 图 5b 可以进一步验证上
述分析,图中 5 个节点的数据来源于表 1 中的 10 个
并行节点数的数据. 由此可以认为在使用 NUMECA
开展相关的多节点并行数值计算时,其计算速度与
实际参加并行计算的 CPU 物理核心数量成正比关
系.

图6 测试模型 3 的速度曲线
Fig. 6 Computation speed curve of test model 3

图4 测试模型 1 的收敛曲线
Fig. 4 Convergence curve of test model 1
表1 测试模型 1 并行计算统计表 图7 测试模型 4 速度曲线
Tab. 1 Parallel computing statistics of test model 1 Fig. 7 Computation speed curve of test model 4

方案 1 2 3 4 5 为进一步研究计算工作站在激活超线程前后的
节点数 / 个 1 2 4 8 10 速 度 差 异,采 用 图 2 测 试 模 型 2 及 DELL
2 层粗网格总耗时 T2 / s 131 70 41 40 32 PRECISION T5500 工作站完成相关的对比测试. 在
1 层粗网格总耗时 T1 / s 1 626 869 494 465 384 未激活超线程的情况下,并行计算采用 5 个计算节
T0 / ( s / 步) 189 690 100 316 56 610 52 134 44 084 点,在激活超线程的情况下,并行计算采用 11 个节
T s / ( s / 步) 31. 3 16. 6 9. 4 8. 6 7. 3 点. 计算结果见表 2,可知方案 2 的每步耗时高于方
V / ( 步 / min) 1. 9 3. 6 6. 4 7 8. 2 案 1 约 10. 7% ,方案 1 实际参加计算的物理核数为
5. 5,这与计算机 CPU 实际参加计算的物理核心数
的比例关系基本一致,相差基本为 10% .

表2 超线程激活前后的测试结果
Tab. 2 Test results before and after hyper-thread is activated

总线程 计算用线 细网格计算 细网格每


方案 备注
数 /个 程数 / 个 100 步时间 / s 步耗时 / s

1 12 11 3 167. 1 31. 7 超线程


a) 曲线 1 b) 曲线 2
2 6 5 3 513. 4 35. 1 常规
图5 测试模型 1 计算速度曲线
Fig. 5 Computation speed curves of test model 1

在未激活超线程的情况下,在 HP Z820 工作站


4 结 论
上开展模型 3 的速度测试,测试结果显示计算速度 通 过 在 多 核 CPU 的 计 算 工 作 站 平 台 上 使 用
与并行节点数基本呈线性关系,在并行节点数为 14 NUMECA 进行 2 种情况下并行计算的对比分析,可
时计算速度达到 3. 8 步 / min,具体见图 6. 为进一步 以得出如下结论.
验证,在 HP Z820 工作站上继续开展模型 4 的速度 1) 无论计算模型网格有多少,其计算速度与实
测试,测试结果显示计算速度与并行节点数也基本 际参加并行计算的 CPU 物理核心数基本上成正比
呈线性关系,在并行节点数为 14 时计算速度约 4. 9 关系.
步 / min,具体见图 7. ( 下转第 112 页)

http : / / www. chinacae. cn


112 计 算 机 辅 助 工 程 2014 年

让鼠标在停留 2 s 后开启选择.
8 使用 CATIA 的过程中,由于误操作,CATIA 的
结构树不见了怎么办? 10 CATIA 怎样将绘制好的零件实体转换成曲面
数据?
综合分析各种可能出现的原因,解决方法有:
1) 结构树被隐藏: 按 F3 切换结构树隐藏显示. CATIA 中将零件实体转换成曲面数据,一般会
2) 结构树被移动到屏幕之外的地方或者缩小 保持资料的关联性,需要采用萃取功能. 在延伸式上
得看不到: 点击右下角白色坐标系,使图形变灰,然 选择点对点模式,可以将曲面萃取成为一个关联面 .
后点击全部适应按钮,结构树回到左上方. 如果萃取的曲面不需要关联性,则必须将建立基准
3) 误点结构树的白色线将图形编辑状态切换: 的功能打开. 另外,将零件直接保存为 igs 档案,然
打开工具菜单 → 选项 → 树操作,取消“单击任何分 后重新打开,也可以得到没有关联性的曲面.
支后可以缩放树”,可以解决问题.
11 CATIA 怎样自定义快捷键?
9 在 CATIA 中遇到重叠的线或选择实体的背面
时,除控制显示或隐藏、旋转实体外,还有什么 虽然 CATIA 工具栏的选项很齐全,但是经常需
方法? 要将常用的功能定义成快捷键以提高效率 ,比如将
最常用的“隐藏 / 显示 ”功能的快捷键定义为 Space
将鼠标指针移动到重叠位置时,直接按 Ctrl +
键: 打开工具 → 自定义 → 命令 → 视图,找到“隐藏 /
F11 开启穿透式选择功能,屏幕上显示圆形窗口,上
显示”,点击“显示属性 ”,在加速器中选择“Space”
下左右各一个小三角形决定要选取的对象 ,点击鼠
即可.
标左键确定选取. 这一功能也可以在工具 → 选项 →
( 摘自同济大学郑百林教授《CAE 操作技能与实践》课堂讲义)
浏览中,设置“预选浏览器继于 2. 0 s”. 设置后可以

檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿
( 上接第 110 页)
2) 在激活超线程的情况下,多任务计算工作站 3) 在 CPU 未满负荷运行且参与计算的物理核
使用的并行计算节点数在超过实际物理核心数后会 心数相同的情况下,计算工作站的 CPU 在超线程激
明显地降低计算速度的提升. 活前后,其并行计算的速度基本一致.

参考文献:

[1] 李鹏,邵明刚. 并行计算技术[J]. 中国科技信息,2006( 7) : 254-255.


LI Peng,SHAO Minggang. Parallel computing technologies[J]. China Sci & Technol Inform,2006( 7) : 254-255.
[2] 胡峰,胡保生. 并行计算技术与并行算法综述[J]. 电脑与信息技术,1999,7( 5) : 47-59.
HU Feng,HU Baosheng. Overview on parallel computing technologies and parallel algorithm[J]. Comput & Inform Technol,1999,7 ( 5 ) :
47-59.
[3] 何有世,袁寿其,王大承,等. 计算流体力学 CFD 中的迭代法及其并行计算方法[J]. 中国安全科学学报,2002,12( 3) : 43-45.
HE Youshi,Yuan Shouqi,WANG Dacheng,et al. Iteration and its parallel computation in computational fluid dynamics[J]. China Safety Sci J,
2002,12( 3) : 43-45.
[4] 李珊珊,钱大琳. 基于多核并行计算技术的混合交通微观仿真[J]. 中南大学学报: 自然科学版,2012,43( 12) : 4931-4938.
LI Shanshan,QIAN Dalin. Mixed traffic microscopic simulation based on multi-core parallel computing technology[J]. J Central South Univ: Nat
Sci,2012,43( 12) : 4931-4938.
[5] NAGLE K,RICKERT M. Parallel implementation of TRANSIMS micro-simulation[J]. Parallel Computing,2001,27( 12) : 1611-1639.
[6] 侯中喜,王承尧,梁剑寒. 面向对象技术在 CFD 分区并行计算中的应用研究[J]. 空气动力学学报,2002,20( S1) : 45-51.
HOU Zhongxi,WANG Chengyao,LIAN Jianhan. The study of object-oriented technology applied in zone divided parallel calculation in CFD[J].
Acta Aerodynamica Sinica,2002,20( S1) : 45-51.
[7] 狄鹏. Grbner 基生成算法的并行[D]. 西安: 西安电子科技大学,2008 年. ( 编辑 武晓英)

http : / / www. chinacae. cn

You might also like