You are on page 1of 39

MonIP: Servio de Medies

de Desempenho de Redes
Rede Nacional de Ensino e Pesquisa
Alex Soares de Moura alex@rnp.br

GT-ER 39
28 a 30 de Maio de 2015, Rio de Janeiro - RJ

O Problema

O ecossistema de redes de
Pesquisa e Educao
composto de centenas de
redes internacionais,
nacionais, regionais e de
mbito local

Enquanto interconectadas,
cada rede operada por
diferentes organizaes
(domnios) com diferentes
polticas, clientes, modelos
de financiamento, hardware,
largura de banda e
configuraes.
3

O Problema

O Problema
Este complexo conjunto de redes heterogneas precisa ser operada
de forma integrada, fim a fim para suportar colaboraes de
pesquisa cientfica distribudas globalmente
Na prtica, problemas de desempenho so distribudos
Quando uma rede tem baixo desempenho, difcil identificar a
origem, e testes de rede local nem sempre so suficientes

Desempenho das redes: expectativas


Expectativas sobre as transferncias de
dados
Em condies ideais, qual desempenho
voc espera da sua rede?
Quanto tempo demora transferir 1TB em
diferentes velocidades1 ?

e-Cincia requer pesquisa colaborativa,


transferncias de volumes de dados
crescentes e tem como requisito baixo tempo
de transferncia2
Pesquisadores realizam trabalhos cientficos
colaborativos e compartilham dados e
recursos computacionais2
Com essa colaborao, necessrio
movimentar grandes volumes de dados, da
ordem de gigabytes ou at mesmo terabytes
por dia 2

TRANSFERNCIA DE 1TB
Rede (mx.)

Durao

10 Mbps

300h (12,5 dias)

100 Mbps

30h

1 Gbps

3h

10 Gbps

20min

(valores aproximados baseados na


vazo mxima terica de cada rede)

1. Fonte: ESnet Fasterdata - http://fasterdata.es.net/fasterdata-home/requirements-and-expectations/


2. Fonte: RNP Projeto Science DMZ (WRNP 2014): http://indico.rnp.br/getFile.py/access?contribId=31&resId=0&materialId=slides&confId=188

Desempenho das redes: expectativas (2)


Vazo de Dados no Tempo

Quanto tempo demora para transferir N bytes (em bits/s)

Dados
1min
5min
20min
1h
8h
24h
7d
30d

277,78 Tbps 92,59 Tbps 13,23 Tbps 3,09 Tbps


1XB

27,78 Tbps
9,26 Tbps
1,32 Tbps 308,64 Gbps
100PB
2,78 Tbps 925,93 Gbps 132,28 Gbps 30,86 Gbps
10PB 1.333,33 Tbps 266,67 Tbps 66,67 Tbps 22,22 Tbps
133,33 Tbps 26,67 Tbps 6,67 Tbps 2,22 Tbps 277,78 Gbps 92,59 Gbps 13,23 Gbps 3,09 Gbps
1PB
13,33 Tbps
2,67 Tbps 666,67 Gbps 222,22 Gbps 27,78 Gbps 9,26 Gbps 1,32 Gbps 308,64 Mbps
100TB
1,33 Tbps 266,67 Gbps 66,67 Gbps 22,22 Gbps 2,78 Gbps 925,93 Mbps 132,28 Mbps 30,86 Mbps
10TB
133,33 Gbps 26,67 Gbps 6,67 Gbps 2,22 Gbps 277,78 Mbps 92,59 Mbps 13,23 Mbps 3,09 Mbps
1TB
13,33 Gbps 2,67 Gbps 666,67 Mbps 222,22 Mbps 27,78 Mbps 9,26 Mbps 1,32 Mbps 0,31 Mbps
100GB
1,33 Gbps 266,67 Mbps 66,67 Mbps 22,22 Mbps 2,78 Mbps 0,93 Mbps 0,13 Mbps 0,03 Mbps
10GB
133,33 Mbps 26,67 Mbps 6,67 Mbps 2,22 Mbps

1GB
13,33 Mbps 2,67 Mbps 0,67 Mbps 0,22 Mbps

100MB
LEGENDA

Requer vazo abaixo de 100Mbps


Requer vazo entre de 100Mbps e 10Gbps
Requer vazo entre de 10Gbps e 100Gbps
Requer vazo acima de 100Gbps
Nota: Kilo, Mega etc. esto em unidades SI (ex.: 1KB = 1000 bytes)
1. Fonte: Esnet Fasterdata - http://fasterdata.es.net/fasterdata-home/requirements-and-expectations/

Protocolo TCP: ubquo e frgil


As redes fornecem conectividade entre hosts
Como aplicaes e hosts enxergam a rede?
Para uma aplicao, a interface para a outra extremidade um
socket
A comunicao entre aplicaes, na maioria sobre TCP

Protocolo TCP (Transmission Control Protocol)


Para o TCP, perdas de pacotes so interpretadas como
congestionamentos e significam: reduzir a taxa de transmisso
Para o TCP, as perdas de pacotes, somadas alta latncia (alto
RTT) causam enormes impactos no desempenho das redes
O TCP o protocolo mais usado pela grande maioria das
aplicaes de transferncias de dados (HTTP, FTP, SMTP etc)
Ex.: na RNP ~85% do trfego TCP; na Esnet, acima de 95%
8

Falhas completas x Falhas Parciais


Falhas completas so o tipo de problema que todos entendem
Cortes de fibra
Falha de energia
Hardware que para de funcionar

Sistemas de monitoramento so bons em alertar falhas

Ex.: NOC percebe um alerta vermelho


Engenheiros so acionados
Falhas parciais so diferentes e, frequentemente passam
despercebidas
Conectividade bsica funciona
Desempenho sofrvel
Quanto devemos nos importar com falhas parciais?
9

Desempenho do TCP: quanto mais distante, pior.


Falhas parciais causam perdas de pacotes, que o afetam

Vazo (Mbits/Seg)

Vazo com latncia crescente e com perdas de pacotes de 0,0046%

Com perdas, atingir alto desempenho


alm de distncias metropolitanas,
essencialmente impossvel

Latncia Bidirecional (RTT - Round Trip Time) em milissegundos

10

Onde esto os problemas?


Onde esto os problemas?
Links congestionados
ou com falhas entre
domnios

Problemas dependentes
da latncia dentro de domnios
com baixo RTT

Campus
Origem

Campus
Destino

Rede acadmica
Links intra campus
congestionados

Rede metropolitana

11

Testes locais no encontram todas as causas


Testes Locais No Encontram Todas as Causas
Baixo desempenho com RTT
acima de ~10ms

Desempenho bom com RTT


abaixo de ~10ms
Campus
Destino

Backbone
Acadmico

Campus
Origem

Rede Regional

Rede Regional

Switch com buffers


insuficientes

12

Causas de Perdas de Pacotes


Rede Congestionada
Fcil de confirmar via SNMP, simples de consertar com $$
Isto no uma falha parcial; apenas um prob. de capacidade
Com frequncia, pessoas assumem que congestionamento a
causa, quando na verdade no .

Switches com buffers insuficientes descartando pacotes


Difcil confirmar

Firewall com processamento insuficiente descartando pacotes


Difcil confirmar

Conectores ou fibras sujas, nveis pticos falhando


s vezes fcil de confirmar verificando contadores de erros

Host sobrecarregado ou com baixo processamento perdendo


pacotes
Fcil de confirmar olhando a carga de CPU

13

Falhas Parciais (soft failures)


Falhas totais (hard failures) so fceis de detectar e consertar
Falhas parciais (soft network failures) so falhas onde a
conectividade e comunicao bsica funciona, mas no possvel
atingir alto desempenho.
O TCP foi intencionalmente projetado para esconder os erros
transmisses do usurio:
Enquanto o TCP funcionar adequadamente e o sistema
internet no sofrer interrupes, nenhum erro de
transmisso afetar os usurios.
(IEN 129, RFC 716)
Algumas falhas parciais afetam somente fluxos de alta vazo e
fluxos de alta latncia (RTT acima de 100ms).
Falhas parciais podem durar por anos sem serem detectadas
14

Falhas Parciais: Firewalls (1)

Servidor A

e-Cincia e transferncias de dados

Firewall
Linux

Vazo (Mbps)

1 tamanho de arquivo: 1GB


1 ferramenta: xrootd

Vazo (Mbps)

Segurana
Transferncia de arquivos com e sem
Servidor B
firewall
Vazo Xrootd - Arquivo 1G (Mbps)
Servidores fsicos dedicados sem
otimizao
800,00
700,00
Transferncia disco-a-disco:
600,00
Enlaces de 1Gbps, com roteamento
Testes com ou sem regras no firewall

500,00
400,00
300,00
200,00
100,00
0,00

6324 regras iptables


Vazo (Mbps)
1.

Sem
Firewall
795,47

Com
Firewall
24,80

Fonte: RNP Projeto Science DMZ (WRNP 2014): http://indico.rnp.br/getFile.py/access?contribId=31&resId=0&materialId=slides&confId=188

15

Falhas Parciais: Firewalls (2)


Fluxos Tradicionais
Grande nmero de fluxos consumindo pouca banda
Pequena taxa de perda de pacotes no afeta desempenho de forma
significativa.
Filtragem complexa
h"p

smtp

h"p

erp

Fluxos Tradicionais

VoIP

h"p

p2p

imap

h"p

VoIP
imap
erp

Fluxos Cientficos
Pequeno nmero de fluxos consumindo muita banda
Pequena taxa de perda de pacotes afeta desempenho de forma significativa
Controle simples
Transferncia Cien7ca
Fluxos Cien?cos

1.

Fonte: RNP Projeto Science DMZ (WRNP 2014): http://indico.rnp.br/getFile.py/access?contribId=31&resId=0&materialId=slides&confId=188

16

Falhas Parciais: Ajustes em Hosts (1)


Desempenho
Vazo: ajustes nos hosts envolvidos em comunicaes e transferncias
de dados so necessrios em caminhos com alto RTT

Direction

Max throughput(bps)

Mean throughput(bps)

Min throughput(bps)

Src > Dst

906.72M

884.68M

33.37M

Dst > Src

885.58M

814.93M

47.62M
17

Falhas Parciais: Ajustes em Hosts (2)


Desempenho

Ajustes nos hosts podem ser necessrios em caminhos com baixo RTT (~1ms)

Direction

Max throughput(bps)

Mean throughput(bps)

Min throughput(bps)

Src > Dst

940.22M

605.26M

75.66M

Dst > Src

938.07M

590.89M

63.7M

18

Mtricas de Interesse
Use a ferramenta correta para o trabalho
Para determinar a ferramenta correta, preciso iniciar pelo
que se deseja fazer...
Que importante medir?
Perdas ou pacotes for a de sequncia, Duplicao (camada de
transporte)
Banda Alcanvel (p.ex.: vazo ou throughput)
Latncia unidirecional e bidirecional (RTT e One Way Delay)
Variao do atraso (jitter, delay variation)
Utilizao da interface, descartes, erros (camada de rede)
Rotas dos fluxos (traceroute)
MTU (Maximum Transmission Unit)
19

Monitoramento de Rede
Todas as redes possuem algum monitoramento.
Atende necessidades da equipe local para entender o estado da
rede
Essa informao poderia ser til para usurios externos?
Essas ferramentas podem funcionar em multiplos domnios?
Alm dos mtodos passivos, h ferramentas para medies ativas.
Frequentemente precisamos de um valor de vazo (throughput).
( possvel automatizar essa idia?)

Seria bom ter estatsticas de desempenho

(Por dia? Por semana? Por ano? De mltiplos pontos?)

Onde est o middleware de medies?

(Algo que permita a fcil troca de mtricas coletadas localmente, em


escala global?)
20

perfSONAR
Atualmente mais de 1200 pontos de medies

http://stats.es.net/ServicesDirectory/
21 ESnet Advanced Network Technologies (antg@es.net) - 29/05/15

Projeto perfSONAR
expectativas sobre o desempenho das
redes

Projeto iniciado h 10 anos nos EUA, c/


participao da GANT (Europa) e RNP
(Brasil)

Encontrar problemas (soft failures)

Motivao

Ajudar a consertar os problemas em

As redes so parte essencial das


e-Cincias
O desempenho fator crtico
Dificuldades no uso efetivo das redes
WAN por cientistas

O perfSONAR possui:

API padro aberto


Camada de Web Services para
comunicao entre MPs

mltiplos domnios de rede


Os problemas so mais difceis quando
multiplas redes so envolvidas
perfSONAR oferece um padro para
publicao e intercmbio de dados de
monitoramentos ativos e passivos
Esses dados so de interesse para
pesquisadores e operadores de redes

O perfSONAR uma ferramenta para:


Normalizar ou compatibilizar as
22

Servio MonIP
Servio de medies
de desempenho fim-a-fim entre a RNP, seus
clientes, e com outras redes

Melhorar a usabilidade;
Ambiente de verificao e acompanhamento do
desempenho

Escopo e Objetivos (2015)


Atender melhor instituies clientes da RNP;

MEDIES
sob demanda; temporrias e peridicas;

Estender a cobertura do monitoramento at a


rede da instituio cliente;

de alta preciso do desempenho da rede;


da ltima milha;

Colaboraes em projetos de
e-Cincia p.ex: fsica, astronomia e outras
comunidades, colaborando com outas redes
(p.ex.: ESnet, GANT, Internet2, NTT e
RedCLARA);

Backbone: medies entre PoPs


PoPs: medies entre PoPs e clientes
diretamente conectados ao PoP

Usurios gestores de TI e comunidades de


pesquisa;
Equipamentos mais baratos;
Simplificar a instalao;

Internacional: testes a outras redes


acadmicas e instituies (ex.: CERN)
MTRICAS
Perdas de pacotes,
Atraso {bi,uni}direcional
Vazo (banda alcanvel) em TCP e UDP

23

MonIP: Componentes
Interface (GUI)
Portal de Medies

Infraestrutura
Pontos de Medio (Measurement Points - MP)
VMs e Kits Baixo Custo: at 1Gbps
Servidores dedicados: at 10Gbps

Virtualizao
MPs de baixo custo
(kit: 1 Mini PC ou 2 SBCs1 + GPS Adafruit)
1a G. Raspberry Pi e CuBox
CPU ARM, RAM 512MB, NIC 1GbE
2a G. Mini PC Blue Appliance 847
Intel Dual Core 847, 2G RAM, (2x) NICs 1GbE

MP 10G
1a. G. Dell R620 - CPU: Intel Xeon 2GHz
RAM: 16GB, HDD: 2x 500GB (raid 1), NIC:
2x 10GbE + 2x 1GbE (BCM57800)
1. Single Board Computer

24

Kits de Baixo Custo: 1a e 2a gerao


Hardware de 1a Gerao (2013) - Custo total aproximado ~R$ 2.000,00

Raspberry Pi
Testes latncia unidirecional

Adafruit GPS + antena


Sincronizao dos relgios

CuBox Pro
Testes de vazo c/ TCP e UDP

Hardware de 2a Gerao (2014) - Custo total aproximado ~R$ 1.200,00


Reduo de 40% no custo
total entre os kits
da 1a e 2a verso
Blue Appliance 847
Testes vazo e latncia

Adafruit GPS + antena


Sincronizao dos relgios

1. Raspberry Pi http://www.raspberrypi.org/
2. CuBox http://http://cubox-i.com/
3. Componentes MonIP http://goo.gl/rNEFWO
25

MonIP: arquitetura lgica em domnios

Backbone RNP

Internacional

ESnet

RNP

Internet2

...

Outras
NRENs

...

PoP-TO

RNP

PoPs RNP

PoP-AC

PoP-SC

Campus /
Metro

UFSC

IFC

Laboratrio

Lab. A

Lab. B

Domnio

Medies (em ou entre)

RNP

PoPs

PoP

PoP e instituio cliente diretamente conectada

Metro

PoP e Rede Metro

Campus

Campus e laboratrios de pesquisa ou outros


campi

Laboratrio

Dentro do campus

Internacional

Backbone RNP e outras NRENs

26

MonIP: Componentes da Arquitetura


HIERARQUIA

Domnio RNP
Portal de Medies
Mdulo Agendamento
Mdulo Sob-demanda
perfSONAR PHP-MA-SQL
perfSONAR Lookup Service
perfSONAR CLMP

RNP

PoP-XX

CLIENTE
A

COMPONENTES

PoP-YY

CLIENTE
B

Domnio PoP
Portal de Medies
Mdulo Agendamento
Mdulo Sob-demanda
Antena GPS
perfSONAR PHP-MA-SQL
perfSONAR CLMP
Domnio Instituio
Portal de Medies
Mdulo Sob-demanda
Antena GPS de baixo custo
perfSONAR CLMP
27

MonIP: Portal
Interface grfica web
Configuraes, gerenciamento, navegao multinvel (domnios e
hosts) e feedback de usurios (falhas/bugs, sugestes, crticas)

Agendamentos de testes: sob demanda, temporrios e peridicos


Armazenamento e recuperao de medies
Vises: pblica e acesso restrito por senha (em desenv.: federado)
Integrao ao projeto perfSONAR (Global Lookup Service - GLS)
Ferramentas: ping, owamp, bwctl, traceroute* e ndt*

Testes para MPs registrados no GLS


Atualizaes: manual ou automtica

* Em desenvolvimento

28

PoPs
Insittuio

Nveis de Navegao

Backbone

Portal web: navegao hierrquica entre os


vrios pontos de medies
Portal de Medies

Portal de Medies

Portal de
Medies

Portal de
Medies

Portal de Medies

Portal de
Medies

Portal de
Medies
29

Interface do portal web


Acceso
administrativo

ID do
Sitio

Inicio do
Portal

Outros nveis
Escolha
do Idioma do Portal

Nivel
Backbone
RNP

Portais de instituies clientes

30

Interface do portal web: teste de vazo

31

Interface do portal web: teste de latncia

32

MonIP: Realizaes
Prottipos construdos e testados:
MPs para medies at 1Gbps e at 10Gbps (2013-2014)

Piloto realizado com 4 instituies (2013)


Servio em implantao no backbone RNP
Prevista instalao em:
MPs VMs (em todos os PoPs)
MPs 10G (em 11 PoPs)
Kits baixo custo em ~100 instituies clientes da RNP

Transio do Servio Experimental MonIP para produo,


atendendo clientes da RNP
Interoperabilidade com perfSONAR de outras redes
33

Piloto MonIP (Nov/2013)


PoPs: SC e MG ()
Clientes: Mamirau, UFG, IFC-Videira e LCM/UFSC (u)
IDS Mamirau
8 Mbps

PoP-MG
10 Gbps

IFC - Videira
4 Mbps

UFV
310 Mbps

PoP-SC
10 Gbps

UFSC - LCM
10 Mbps

Fonte: RNP Projeto MonIP Piloto 2013: http://goo.gl/gAJfMI

34

MonIP: infraestrutura do Piloto (Nov/2013)


MonIP Pilot
GPS
(Adafruit
)

GPS
(Adafruit
)

Delay Bandwidth
(Raspberry PI) (Cubox)

GPS
(Adafruit
)

Delay Bandwidth
(Raspberry PI) (Cubox)

GPS
(Adafruit
)

Delay Bandwidth
(Raspberry PI) (Cubox)

Delay Bandwidth
(Raspberry PI) (Cubox)

On Demand Tests

Mamirau

UFV

IFC-Videira

LCM

Customer
Site
Scenario

Customer
Site
Scenario

GPS

PoP-MG

GPS

PoP-SC

IP Network

Backbone
Scenario

MP PoP

MP PoP

35

Evoluo e Futuro: apoio do CT-Mon


CT-Mon: Comit Tcnico em Monitoramento de Redes
EQUIPE
Coordenador Artur Ziviani (LNCC)
Secretrio: Alex Moura (RNP)
Membros da comunidade acadmica
Acompanha a evoluo do perfSONAR e em
medies
Apoia a RNP na evoluo do Servio MonIP

Colabora com o esforo de padronizao do


perfSONAR e em nvel nacional e internacional
Reunies presenciais e remotas
Apresentaes de novos desenvolvimentos
Tarefas especficas atribudas a membros do
comit e/ou grupos de estudo/testes

TEMAS
Solues e tecnologias para monitoramento:
Medies ativas e passivas: 1G, 10G, 100Gbps+
Redes sem fio
Metodologias, tcnicas e ferramentas
Grandes eventos: Copa do Mundo, Olimpadas
Transferncias de grandes volumes de dados
Monitorao nas camadas abaixo da camada 3
Gerao de alertas (previso de problemas)
Armazenamento, compactao recuperao e
compartilhamento de dados histricos
Evoluo do trfego na RNP, QoE, DPI etc

Chamadas temticas de P&D de curta durao


36

Equipe

COORDENAO
RNP - Diretoria de Pesquisa e Desenvolvimento
Direo
Direo Adjunta
Gerncia

Michael Stanton
Iara Machado
Alex Soares de Moura

Coordenao

Marcos Schwarz

Coordenao

Fausto Vetter

Desenvolvimento
PoP-SC - Ponto de Presena de Santa Catarina (UFSC)
Coordenao
Coordenao Administrativa do Desenvolvimento
Coordenao Tcnica do Desenvolvimento

Edison Melo
Murilo Vetter

Infraestrutura - Desenvolvimento de Hardware


Desenvolvimento de Hardware e Infraestrutura

Rodrigo Pescador

Desenvolvimento de Hardware e Infraestrutura

Guilherme Rhoden

Desenvolvimento de Hardware e Infraestrutura

Rodrigo Gonalves

Desenvolvimento de Software Web

Paulo Brandtner

Desenvolvimento de Software Web

Luis Fernando Cordeiro

BOLSISTAS
Desenvolvimento de Software

Leonardo Schlter Leite

Desenvolvimento de Software

Kdio Francisco Miguel Colzani

37

Agradecimentos

38

Obrigado!
Alex Soares de Moura
alex.moura@rnp.br
Rede Nacional de Ensino e Pesquisa RNP
Ponto de Presena da RNP em Santa Catarina - PoP-SC
Universidade Federal de Santa Catarina UFSC
Superintendncia de Governana Eletrnica e Tecnologia da
Informao e Comunicao - SeTIC/UFSC