Professional Documents
Culture Documents
Abstract: To understand the parallel computing performance of CFD software NUMECA concretely and
have a good grasp of the work progress of the follow-up research,the single node computing and the
multi-node parallel computing are separately researched in the case of activated hyper-thread,and the
difference of computation speed of the CPU before and after activating hyper-thread is obtained. The
results show that,the computation speed is proportional to the actual computational number of physical
CPU cores in the case of multi-node parallel computing; in the case that the hyper-thread is activated,
the ascension of computation speed is obviously reduced when the number of parallel computing nodes is
more than physical cores.
Key words: parallel computing; hyper-thread; computation node number; CPU core number;
computation speed; NUMECA; FINE / Turbo
数值模拟也要花费几十个小时. 因此,并行计算方法
0 引 言 的研究越来越被人们重视.
[4-5]
并行计算,或称平行
计算机产业在不断进步,对计算机系统可提供 计算,是相对于串行计算来说的. 所谓并行计算可分
的计算速度的需求总在不断增长,对计算的要求也 为时间上的并行和空间上的并行. 时间上的并行是
越来越高,因此并行计算的开发和应用也愈发的重 指流水线技术,而空间上的并行则是指用多个处理
[1-3] [6-7]
要. 即使在目前所提供的运算速度最快、容量最 器并发执行计算. 为利用并行计算,通常计算问
大的超级计算机上进行计算,一个三维定常问题的 题表现为以下特征:
1 测试模型 2 测试硬件
在测试研究过程中共采用 4 种计算网格模型. NUMECA 软 件 单 点 硬 件 平 台 为 DELL
1) 模型 1 选取长输管线输油泵国产化项目的 PRECISION T5500 机型,Red Hat 6. 0 系统,CPU 为
双吸叶轮与导叶单通道网格计算模型 ,见图 1,在 Intel( R) Xeon( R) X5650 @ 2. 67 GHz,内核数为 6
DELL PRECISION T5500 工作站平台上,开展在激 个,超线程 12 个,内存 48 GiB,硬盘 2 TiB; 并行计算
活超线程的情况下单点计算与多点并行计算速度测 测试硬件平台为 HP Z820 机型,Red Hat 6. 0 系统,
试研究,网格节点数约为 293. 4 万个. CPU 为 Intel Xeon E5-2667 v2 3. 30 GHz,内核数为
16 个,超线程 32 个,内存 64 GiB,硬盘 2 TiB.
3 计算测试
在 激 活 超 线 程 状 态 下 采 用 DELL PRECISION
T5500 完成单线程与多线程测试工作,共完成单节
点、
2 个节点、4 个节点、8 个节点与 10 个节点的并
行计算测试. 计算的收敛曲线见图 4,其中粗网格叠
代 2 次,每次 500 步,细网格计算共完成 6 000 步.
图1 测试模型 1 模型 1 并行计算统计表见表 1,可知计算耗时主要
Fig. 1 Test model 1 集中在细网格计算部分. 计算公式为
2) 模型 2 为国家重大专项“CAP 1400 屏蔽电机 T S = T0 ÷ 6 000 ( 1)
主泵研制”项目研制过程中的 CAP 1400 屏蔽电机 V = 60 ÷ T S ( 2)
主泵水力模型的全通道网格计算模型,见图 2. 开展 式中: T S 为细网格单位步数耗时,s / 步; T0 为 6 000
CPU 在超线程激活前后计算速度差异情况的研究, 步细网格的总耗时,s; V 为计算速度,步 / min. 由表 1
网格节点数约为 1 962. 6 万个. 可知,随着计算节点数的增加: 在计算节点数小于 6
3) 模型 3 以模型 2 为基础,在 HP Z820 工作站 个的范围内,计算速度基本呈线性增加的趋势 ,超过
双 CPU 平台上对网格数量进行调整,得到网格节点 6 个以后计算速度的增速放缓,见图 5a. 初步分析这
种现象产生的原因为实际参加计算的线程数超过
CPU 的物理核心数所致. 图 5b 可以进一步验证上
述分析,图中 5 个节点的数据来源于表 1 中的 10 个
并行节点数的数据. 由此可以认为在使用 NUMECA
开展相关的多节点并行数值计算时,其计算速度与
实际参加并行计算的 CPU 物理核心数量成正比关
系.
图6 测试模型 3 的速度曲线
Fig. 6 Computation speed curve of test model 3
图4 测试模型 1 的收敛曲线
Fig. 4 Convergence curve of test model 1
表1 测试模型 1 并行计算统计表 图7 测试模型 4 速度曲线
Tab. 1 Parallel computing statistics of test model 1 Fig. 7 Computation speed curve of test model 4
方案 1 2 3 4 5 为进一步研究计算工作站在激活超线程前后的
节点数 / 个 1 2 4 8 10 速 度 差 异,采 用 图 2 测 试 模 型 2 及 DELL
2 层粗网格总耗时 T2 / s 131 70 41 40 32 PRECISION T5500 工作站完成相关的对比测试. 在
1 层粗网格总耗时 T1 / s 1 626 869 494 465 384 未激活超线程的情况下,并行计算采用 5 个计算节
T0 / ( s / 步) 189 690 100 316 56 610 52 134 44 084 点,在激活超线程的情况下,并行计算采用 11 个节
T s / ( s / 步) 31. 3 16. 6 9. 4 8. 6 7. 3 点. 计算结果见表 2,可知方案 2 的每步耗时高于方
V / ( 步 / min) 1. 9 3. 6 6. 4 7 8. 2 案 1 约 10. 7% ,方案 1 实际参加计算的物理核数为
5. 5,这与计算机 CPU 实际参加计算的物理核心数
的比例关系基本一致,相差基本为 10% .
表2 超线程激活前后的测试结果
Tab. 2 Test results before and after hyper-thread is activated
让鼠标在停留 2 s 后开启选择.
8 使用 CATIA 的过程中,由于误操作,CATIA 的
结构树不见了怎么办? 10 CATIA 怎样将绘制好的零件实体转换成曲面
数据?
综合分析各种可能出现的原因,解决方法有:
1) 结构树被隐藏: 按 F3 切换结构树隐藏显示. CATIA 中将零件实体转换成曲面数据,一般会
2) 结构树被移动到屏幕之外的地方或者缩小 保持资料的关联性,需要采用萃取功能. 在延伸式上
得看不到: 点击右下角白色坐标系,使图形变灰,然 选择点对点模式,可以将曲面萃取成为一个关联面 .
后点击全部适应按钮,结构树回到左上方. 如果萃取的曲面不需要关联性,则必须将建立基准
3) 误点结构树的白色线将图形编辑状态切换: 的功能打开. 另外,将零件直接保存为 igs 档案,然
打开工具菜单 → 选项 → 树操作,取消“单击任何分 后重新打开,也可以得到没有关联性的曲面.
支后可以缩放树”,可以解决问题.
11 CATIA 怎样自定义快捷键?
9 在 CATIA 中遇到重叠的线或选择实体的背面
时,除控制显示或隐藏、旋转实体外,还有什么 虽然 CATIA 工具栏的选项很齐全,但是经常需
方法? 要将常用的功能定义成快捷键以提高效率 ,比如将
最常用的“隐藏 / 显示 ”功能的快捷键定义为 Space
将鼠标指针移动到重叠位置时,直接按 Ctrl +
键: 打开工具 → 自定义 → 命令 → 视图,找到“隐藏 /
F11 开启穿透式选择功能,屏幕上显示圆形窗口,上
显示”,点击“显示属性 ”,在加速器中选择“Space”
下左右各一个小三角形决定要选取的对象 ,点击鼠
即可.
标左键确定选取. 这一功能也可以在工具 → 选项 →
( 摘自同济大学郑百林教授《CAE 操作技能与实践》课堂讲义)
浏览中,设置“预选浏览器继于 2. 0 s”. 设置后可以
檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿檿
( 上接第 110 页)
2) 在激活超线程的情况下,多任务计算工作站 3) 在 CPU 未满负荷运行且参与计算的物理核
使用的并行计算节点数在超过实际物理核心数后会 心数相同的情况下,计算工作站的 CPU 在超线程激
明显地降低计算速度的提升. 活前后,其并行计算的速度基本一致.
参考文献: