You are on page 1of 3

O Cluster newton e seu Atual Sistema de Filas

Meira & Fernandez


Centro Nacional de Supercomputa c ao

5 de Novembro de 2009

Nota Introdut oria

A correta utiliza c ao de sistemas computacionais como os disponibilizados pelo Centro Nacional de Supercomputa c ao (CESUP), aproveitando-se dos mesmos todo seu potencial, tem por base um bom conhecimento de sua congura c ao geral, bem como de seu sistema de las. Por este motivo, estamos disponibilizando para nossos usu arios este manual introdut orio, no qual fazemos uma breve descri c ao do cluster newton, destacando seus componentes de processamento e seu atual sistema de las. Na medida em que esta congura c ao for sendo atualizada, este documento tamb em o ser a, procurando manter nossos usu arios sempre informados acerca de tais modica c oes.

Congura c ao do Cluster

O mais novo cluster disponibilizado pelo CESUP conta atualmente com 30 esta c oes Sun Fire X2200+ (cada qual com 2 procs Quad-Core AMD Opteron 2.2 GHz, 16 GB RAM) e performance1 de 2.11 TFlops; 6 esta c oes Sun Fire X2200 (cada qual com 2 procs Dual-Core AMD Opteron 1.8 GHz, 8 GB RAM) e performance de 691 GFlops; 6 esta c oes Sun Fire X4600 (cada qual com 8 procs Quad-Core AMD Opteron 2.3 GHz, 128 GB RAM) e performance de 1.77 TFlops; 1 Data Server Sun Fire X4500 com capacidade de 48TB; 2 Sun Storage Arrays com capacidade total de 36TB; switch InniBand Voltaire ISR9288 de 288 portas. Adicionalmente, o CESUP est a implementando, em car ater experimental, um cluster de GPUs composto por uma unidade AMD Firestream (performance de 500 GFlops) e 8 unidades nVidia Tesla (performance conjugada de 8.28 TFlops).

Hostnames

No que diz respeito aos nomes dos hosts, destaca-se que as esta c oes que formam o enlace Sun Fire X2200+ (thin nodes) foram nomeadas node001,
1

Neste documento o termo performance refere-se ` a performace te orica de pico.

node002, ..., node030; as esta c oes que formam o enlace Sun Fire X4600 (fat nodes) foram nomeadas node035, node036, ..., node040; e as esta c oes que formam o enlace Sun Fire X2200 (gauss nodes) foram nomeadas node041, ..., node046.

Sistema de Filas

Maiores informa c oes sobre como submeter processos (quer diretamente, quer via scripts) ao sistema de las do newton podem ser encontradas em http://www.cesup.ufrgs.br/Servicos/howto_sge_newton.pdf. Quanto as las conguradas e em opera ` c ao no newton atualmente, listam-se as seguintes: p all.q: esta la inclui todos os n os de processamento do sistema (com excess ao dos gauss nodes), e est a dispon vel a usu arios que efetivamente necessitem distribuir seus processos em todos os slots (n ucleos de processamento) do cluster. Por este motivo, para utilizar esta la, os usu arios devem contatar a administra c ao do cluster; p fat small.q: inclui o enlace formado pelas esta c oes Sun Fire X4600. Destinada exclusivamente a usu arios que desejam rodar programas paralelos (usando MPI ou OpenMP) em, no m aximo, 16 slots; p fat mid.q: idem, mas para um n umero de slots entre 16 e 64; p fat large.q: idem, mas para um n umero de slots superior a 64; s fat hour.q: inclui o enlace formado pelas esta c oes Sun Fire X4600. Destinada exclusivamente a usu arios que desejam rodar programas seriais. O tempo de execu c ao (TE) deve ser da ordem de minutos ou horas; s fat day.q: idem, mas para um TE da ordem de dias; s fat week.q: idem, mas para um TE da ordem de semanas; s fat.q: idem, mas sem restri c ao de TE; p thin small.q: representa o enlace formado pelas esta c oes Sun Fire X2200+. Destinada exclusivamente a usu arios que desejam rodar programas paralelos (usando MPI ou OpenMP) em, no m aximo, 16 slots; p thin mid.q: idem, mas para um n umero de slots entre 16 e 64; p thin large.q: idem, mas para um n umero de slots superior a 64;

s thin hour.q: representa o enlace formado pelas esta c oes Sun Fire X2200+. Destinada exclusivamente a usu arios que desejam rodar programas seriais. O tempo de execu c ao (TE) deve ser da ordem de minutos ou horas; s thin day.q: idem, mas para um TE da ordem de dias; s thin week.q: idem, mas para um TE da ordem de semanas; s thin.q: idem, mas sem restri c ao de TE; tesla.q: la experimental, utilizada para testes nas GPUs; cfx.q: la destinada exclusivamente a usu arios dos softwares CFX e Fluent. A utiliza c ao desta la requer autoriza c ao pr evia por parte da administra c ao do cluster; starcd.q: destinada exclusivamente a usu arios do software StarCD. A utiliza c ao desta la tamb em requer autoriza c ao pr evia por parte da administra c ao do cluster; gauss.q: inclui o enlace formado pelas esta c oes Sun Fire X2200 (que destinada exclusivamente a antes compunham o cluster gauss). E usu arios do software BRAMS e/ou usu arios que estejam vinculados a projetos do Laborat orio de Meteorologia e Qualidade do Ar (LMQA) do CEPSRM/UFRGS. Autoriza c ao pr evia para a utiliza c ao tamb em se faz necess aria.

Observa c oes Complementares

Na tentativa de obter o m aximo de desempenho no processamento de seus jobs, principalmente naqueles que realizam diversas opera c oes de entrada e sa da de dados, recomenda-se que os usu arios executem-nos a partir de um diret orio espec co: o /dados. Este diret orio encontra-se no Data Server Sun Fire X4500, que opera sobre um sistema de arquivos de alt ssimo desempenho, com taxas de transfer encia extremamente elevadas.