You are on page 1of 68

William Stallings

Arquitetura e Organizao
de Computadores
8a Edio
Captulo 2
Evoluo e desempenho
do computador

Os textos nestas caixas


foram adicionados pelo
Prof. Joubert
slide 1

2010 Pearson Prentice Hall. Todos os direitos reservados.

ENIAC histrico

Electronic Numerical Integrator And Computer.


Eckert e Mauchly.
Universidade da Pensilvnia.
Tabelas de trajetria para armas.
Iniciou em 1943.
Terminou em 1946.
Muito tarde para o esforo de guerra.
Usado at 1955.

slide 2

2010 Pearson Prentice Hall. Todos os direitos reservados.

ENIAC detalhes

slide 3

Decimal (no binrio).


20 acumuladores de 10 dgitos.
Programado manualmente por chaves.
18 000 vlvulas.
30 toneladas.
1 500 ps quadrados.
140 kW de consumo de potncia.
5 000 adies por segundo.
2010 Pearson Prentice Hall. Todos os direitos reservados.

von Neumann/Turing

Conceito de programa armazenado.


Memria principal armazenando programas e dados.
ALU operando sobre dados binrios.
Unidade de controle interpretando e executando
instrues da memria.
Equipamento de entrada e sada operado por unidade
de controle.
Princeton Institute for Advanced Studies.
IAS
Concludo em 1952.
slide 4

2010 Pearson Prentice Hall. Todos os direitos reservados.

Estrutura da mquina de von Neumann

slide 5

2010 Pearson Prentice Hall. Todos os direitos reservados.

Unidade de Controle do Programa

slide 6

2010 Pearson Prentice Hall. Todos os direitos reservados.

slide 7

2010 Pearson Prentice Hall. Todos os direitos reservados.

slide 8

2010 Pearson Prentice Hall. Todos os direitos reservados.

A mquina de von Neumann


TRADUZ
OU
INTERPRETA ???

slide 9

2010 Pearson Prentice Hall. Todos os direitos reservados.

IAS detalhes
1000 palavras de 40 bits.
Nmero binrio.
2 instrues de 20 bits.

slide 10

2010 Pearson Prentice Hall. Todos os direitos reservados.

IAS detalhes
1000 palavras de 40 bits.
Nmero binrio.
2 instrues de 20 bits.
Conjunto de registradores (armazenamento em CPU).
Registrador de buffer de memria (MBR)
Registrador de endereo de memria (MAR)
Registrador de instruo (IBR)
Registrador de buffer de instruo.
Contador de programa (CP)
Acumulador (AC)
Quociente multiplicador (MQ)
slide 11

2010 Pearson Prentice Hall. Todos os direitos reservados.

slide 12

2010 Pearson Prentice Hall. Todos os direitos reservados.

Computadores comerciais

1947 Eckert-Mauchly Computer Corporation.


UNIVAC I (Universal Automatic Computer).
Bir do Censo dos EUA para clculos de 1950.
Tornou-se parte da Sperry-Rand Corporation.

Final da dcada de 1950 UNIVAC II.


Mais rpido.
Mais memria.
slide 13

2010 Pearson Prentice Hall. Todos os direitos reservados.

IBM
Equipamento de processamento de carto perfurado.
1953 0 701
Primeiro computador de programa armazenado da
IBM.
Clculos cientficos.

1955 o 702
Aplicaes comerciais.
Levou srie 700/7000.

slide 14

2010 Pearson Prentice Hall. Todos os direitos reservados.

Segunda Gerao: Transistores

slide 15

Substituram as vlvulas.
Menores.
Mais baratos.
Menos dissipao de calor.
Dispositivo de estado slido.
Feito de silcio (areia).
Inventado em 1947 na Bell Labs.
William Shockley e outros.
2010 Pearson Prentice Hall. Todos os direitos reservados.

Computadores baseados em transistor


Mquinas de segunda gerao.
NCR & RCA produziram mquinas com transistor
pequeno.
IBM 7000.
DEC 1957.
Produziu o PDP-1.

slide 16

2010 Pearson Prentice Hall. Todos os direitos reservados.

Terceira Gerao: circuitos integrados


A Microeletrnica
Literalmente pequena eletrnica.
Um computador composto de portas, clulas de
memria e interconexes.

slide 17

2010 Pearson Prentice Hall. Todos os direitos reservados.

A Microeletrnica
Estas podem ser fabricadas em um
semicondutor.
Por exemplo, wafer
de silcio.

slide 18

2010 Pearson Prentice Hall. Todos os direitos reservados.

Geraes de computadores
Vlvula 1946-1957.
Transistor 1958-1964.
Integrao em pequena escala 1965 em diante.
At 100 dispositivos em um chip.
Integrao em mdia escala 1971.
100-3 000 dispositivos em um chip.
Integrao em grande escala 1971-1977.
3 000 100 000 dispositivos em um chip.
Integrao em escala muito grande 1978 -1991.
100 000 100 000 000 dispositivos em um chip.
Integrao em escala ultragrande 1991.
Mais de 100 000 000 dispositivos em um chip.
slide 19

2010 Pearson Prentice Hall. Todos os direitos reservados.

Lei de Moore

slide 20

Maior densidade de componentes no chip.


Gordon Moore cofundador da Intel.
Nmero de transistores em um chip dobrar a cada ano.
Desde 1970, isso diminuiu um pouco.
Nmero de transistores dobra a cada 18 meses.
Custo de um chip permaneceu quase inalterado.
Maior densidade de empacotamento significa caminhos
eltricos mais curtos, gerando maior desempenho.
Menor tamanho oferece maior flexibilidade.
Reduo nos requisitos de potncia e resfriamento.
Menos interconexes aumenta a confiabilidade.

2010 Pearson Prentice Hall. Todos os direitos reservados.

Crescimento na contagem de
transistores da CPU

slide 21

2010 Pearson Prentice Hall. Todos os direitos reservados.

IBM srie 360


1964.
Substituiu (incompatvel com) srie 7000.
Primeira famlia planejada de computadores.
Conjuntos de instrues semelhantes ou iguais.
SO semelhante ou igual.
Velocidade aumentada.
Nmero cada vez maior de portas de E/S (ou seja,
mais terminais).
Tamanho de memria crescente.
Maior custo.
Estrutura comutada multiplexada.
slide 22

2010 Pearson Prentice Hall. Todos os direitos reservados.

DEC PDP-8
1964.
Primeiro minicomputador (nome deve-se
minissaia!).
No precisava de sala resfriada.
Pequeno o suficiente para ser colocado sobre uma
bancada de laboratrio.
US$ 16 000.
Centenas de milhares de US$ do IBM 360.
Aplicaes embutidas & OEM.
Estrutura de barramento.
slide 23

2010 Pearson Prentice Hall. Todos os direitos reservados.

Estrutura de barramento do DEC PDP-8

slide 24

2010 Pearson Prentice Hall. Todos os direitos reservados.

Memria semicondutora

1970.
Fairchild
Tamanho de um nico core.
Mantm 256 bits.
Leitura no destrutiva.

slide 25

O mesmo usado para chips de circuitos


Integrados poderia ser usado para
Confecco de memrias!!!!

2010 Pearson Prentice Hall. Todos os direitos reservados.

Intel
1971 4004
Primeiro microprocessador.
Todos os componentes da CPU em um nico chip.
4 bits.
Acompanhado em 1972 pelo 8008.
8 bits.
Ambos projetados para aplicaes especficas.
1974 8080.
Primeiro microprocessador de uso geral da Intel.
slide 26

2010 Pearson Prentice Hall. Todos os direitos reservados.

(continuao)

slide 27

2010 Pearson Prentice Hall. Todos os direitos reservados.

(continuao)

slide 28

2010 Pearson Prentice Hall. Todos os direitos reservados.

(continuao)

slide 29

2010 Pearson Prentice Hall. Todos os direitos reservados.

Ganhando velocidade

slide 30

Cache na placa.
Cache L1 & L2 na placa.
Previso de desvio.
Anlise de fluxo de dados.
Execuo especulativa.

2010 Pearson Prentice Hall. Todos os direitos reservados.

Balano do desempenho
Aumento da velocidade do processador.
Aumento da capacidade de memria.
Velocidade da memria fica para trs da
velocidade do processador.

slide 31

2010 Pearson Prentice Hall. Todos os direitos reservados.

Diferena de desempenho entre lgica e


memria

slide 32

2010 Pearson Prentice Hall. Todos os direitos reservados.

Solues
Aumentar nmero de bits recuperados de uma s vez.
Tornar DRAM mais larga ao invs de mais profunda.
Mudar interface da DRAM.
Cache.
Reduzir frequncia de acesso memria.
Cache mais complexa e cache no chip.
Aumentar largura de banda de interconexo.
Barramentos de alta velocidade.
Hierarquia de barramentos.

slide 33

2010 Pearson Prentice Hall. Todos os direitos reservados.

Dispositivos de E/S

Perifricos com demandas intensas de E/S.


Grandes demandas de vazo de dados.
Processadores podem tratar disso.
Problema de movimentar dados.
Solues:
Caching.
Buffering.
Barramentos de interconexo de maior velocidade.
Estruturas de barramentos mais elaboradas.
Configuraes de processador mltiplo.

slide 34

2010 Pearson Prentice Hall. Todos os direitos reservados.

Taxas de dados tpicas dos dispositivos de E/S

slide 35

2010 Pearson Prentice Hall. Todos os direitos reservados.

A chave o balano

slide 36

Componentes do processador.
Memria principal.
Dispositivos de E/S.
Estrutura de interconexo.

2010 Pearson Prentice Hall. Todos os direitos reservados.

Melhorias na organizao e na arquitetura do chip


Aumentar velocidade de hardware do processador.
Deve-se fundamentalmente ao encolhimento do tamanho
das portas lgicas no chip.
Mais portas, reunidas mais de perto, aumentando a
taxa de clock.
Reduo no tempo de propagao dos sinais.
Aumentar tamanho e velocidade das caches.
Dedicando parte do chip do processador para cache.
Tempos de acesso cache caem significativamente.
Mudar organizao e arquitetura do processador.
Aumenta velocidade de execuo efetiva.
Paralelismo.
slide 37

2010 Pearson Prentice Hall. Todos os direitos reservados.

Problemas com velocidade do clock


e densidade lgica
Potncia
Densidade de potncia aumenta com densidade
lgica e velocidade do clock.
Dissipao de calor.
Atraso de RC
Velocidade em que os eltrons fluem pela resistncia
e capacitncia dos fios de metal que os conecta.
Aumentos de atraso medida que o produto RC
aumenta.
Interconexes de fio mais finas, aumentando a resistncia.
Fios mais prximos, aumentando a capacitncia.

slide 38

2010 Pearson Prentice Hall. Todos os direitos reservados.

Continuao
Latncia da memria
Velocidades de memria ficam atrs das
velocidades de processador.

slide 39

2010 Pearson Prentice Hall. Todos os direitos reservados.

Soluo:
Mais nfase em abordagens de organizao e
arquitetura.

slide 40

2010 Pearson Prentice Hall. Todos os direitos reservados.

Aumento da capacidade de cache


Normalmente, dois ou trs nveis de cache entre
processador e memria principal.
Densidade de chip aumentada.
Mais memria cache no chip.
Acesso mais rpido cache.
Chip Pentium dedicou cerca de 10% da rea do chip
cache.
Pentium 4 dedica cerca de 50%.

slide 41

2010 Pearson Prentice Hall. Todos os direitos reservados.

Lgica de execuo mais complexa


Permite execuo de instrues em paralelo.
Pipeline funciona como linha de montagem.
Diferentes estgios de execuo de diferentes
instrues ao mesmo tempo ao longo do pipeline.
Superescalar permite mltiplos pipelines dentro de um
nico processador.
Instrues que no dependem uma da outra podem
ser executadas em paralelo.

slide 42

2010 Pearson Prentice Hall. Todos os direitos reservados.

slide 43

2010 Pearson Prentice Hall. Todos os direitos reservados.

Retornos decrescentes
Complexa organizao interna dos processadores.
Pode obter muito paralelismo.
Aumentos mais significativos provavelmente sero
relativamente modestos.
Benefcios da cache esto chegando ao limite.
Aumentar taxa de clock causa o problema da dissipao
de potncia.
Alguns limites fsicos fundamentais esto sendo
atingidos.

slide 44

2010 Pearson Prentice Hall. Todos os direitos reservados.

Nova tcnica mltiplos cores


Mltiplos processadores em nico chip.
Grande cache compartilhada.
Dentro de um processador, aumento no desempenho
proporcional raiz quadrada do aumento na complexidade.
Se o software puder usar mltiplos processadores, dobrar o
nmero de processadores quase dobra o desempenho.
Assim, use dois processadores mais simples no chip ao invs
de um processador mais complexo.
Com dois processadores, caches maiores so justificadas.
Consumo de potncia da lgica de memria menor que
lgica do processamento.

slide 45

2010 Pearson Prentice Hall. Todos os direitos reservados.

Evoluo do x86
8080
Primeiro microprocessador de uso geral.
Caminho de dados de 8 bits.
Usado no primeiro computador pessoal Altair.
8086 5MHz 29 000 transistores.
Muito mais poderoso.
16 bits.
Cache de instrues, pr-busca poucas instrues.
8088 (barramento externo de 8 bits) usado no primeiro
IBM PC.
80286
16 MB de memria enderevel.
A partir de 1MB.
slide 46

2010 Pearson Prentice Hall. Todos os direitos reservados.

80386
32 bits.
Suporte para multitarefa.
80486
Cache sofisticada e poderosa, pipeline
sofisticado de instruo.
Coprocessador matemtico embutido.

slide 47

2010 Pearson Prentice Hall. Todos os direitos reservados.

Pentium
Superescalar.
Mltiplas instrues executadas em paralelo.

Pentium Pro
Organizao superescalar aumentada.
Renomeao de registrador agressiva.
Previso de desvio.
Anlise de fluxo de dados.
Execuo especulativa.

Pentium II
Tecnologia MMX.
Processamento de grficos, vdeo e udio.

Pentium III
Instrues adicionais de ponto flutuante para grficos 3D.
slide 48

2010 Pearson Prentice Hall. Todos os direitos reservados.

Pentium 4
Nmeros romanos para nmeros arbicos.
Melhorias adicionais de ponto flutuante e multimdia.
Core
Primeiro x86 com dual core.
Core 2
Arquitetura de 64 bits.
Core 2 Quad 3GHz 820 milhes de transistores
Quatro processadores no chip.
Arquitetura x86 dominante fora dos sistemas embarcados.
Organizao e tecnologia mudaram drasticamente.
Arquitetura do conjunto de instrues evoluiu com
compatibilidade.
~1 instruo acrescentada por ms.
500 instrues disponveis.
Veja informaes detalhadas sobre processadores nas pginas
Web da Intel.
slide 49

2010 Pearson Prentice Hall. Todos os direitos reservados.

Sistemas embarcados
ARM
ARM evoluiu dos princpios de projeto RISC.
Usada principalmente em sistemas embarcados.
Usada dentro do produto.
No para computador de uso geral.
Funo dedicada.
Por exemplo, freios ABS no carro.

slide 50

2010 Pearson Prentice Hall. Todos os direitos reservados.

Requisitos dos sistemas embarcados


Diferentes tamanhos.
Diferentes restries, otimizao, reuso.
Diferentes requisitos.
Segurana, confiabilidade, tempo real, flexibilidade e
legislao.
Tempo de vida
Condies ambientais.
Cargas estticas versus dinmicas.
Velocidades de lenta a rpida.
Uso intenso de computao (CPU bound) versus E/S
(I/O bound).
Sistemas de evento discreto at dinmica de tempo
slide 51
2010 Pearson Prentice Hall. Todos os direitos reservados.
contnuo.

slide 52

2010 Pearson Prentice Hall. Todos os direitos reservados.

Possvel organizao de um sistema embarcado

slide 53

2010 Pearson Prentice Hall. Todos os direitos reservados.

Evoluo do ARM
Projetado pela ARM Inc., Cambridge, Inglaterra.
Licenciado aos fabricantes.
Alta velocidade, pequeno tamanho do die, baixos
requisitos de potncia.
PDAs, jogos portteis, telefones.
P.e., iPod, iPhone
Acorn produziu ARM1 & ARM2 em 1985 e ARM3 em
1989.
Acorn, VLSI e Apple Computer fundaram a ARM Ltd.

slide 54

2010 Pearson Prentice Hall. Todos os direitos reservados.

slide 55

2010 Pearson Prentice Hall. Todos os direitos reservados.

Categorias de sistemas de ARM


Embarcados de tempo real.
Plataformas de aplicao.
Linux, Palm OS, Symbian OS, Windows
mobile.
Aplicaes seguras.

slide 56

2010 Pearson Prentice Hall. Todos os direitos reservados.

Avaliao de desempenho
Principais parmetros:
Desempenho, custo, tamanho, segurana, confiabilidade,
consumo de energia.
Velocidade do clock do sistema:
Em Hz ou mltiplos
Velocidade de clock, ciclo de clock, tempo de ciclo.
Sinais na CPU levam tempo para se estabilizarem em 1 ou 0.
Sinais podem mudar em diferentes velocidades.
Operaes precisam ser sincronizadas.
Execuo de instruo em etapas discretas.
Busca, decodificao, load e store, aritmtica ou lgica.
Geralmente requer vrios ciclos de clock por instruo.
Pipelining gera execuo simultnea de instrues.
Assim, velocidade de clock no tudo.
slide 57

2010 Pearson Prentice Hall. Todos os direitos reservados.

Clock do sistema

1 processador de 1GHz recebe 1 bilho de pulsos por segundo


slide 58

2010 Pearson Prentice Hall. Todos os direitos reservados.

Taxa de execuo de instruo


Milhes de instrues por segundo (MIPS).
Milhes de instrues de ponto flutuante por segundo
(MFLOPS).
Altamente dependente do conjunto de instrues,
projeto de compilador, implementao do
processador, hierarquia de cache e memria.

slide 59

2010 Pearson Prentice Hall. Todos os direitos reservados.

CPI mdio: 0,6+(2x0,18)+(4x0,12)+(8x0,1) = 2,24


A taxa MIPS em um processador de 400MHz :
(400x106)/(2,24x106) = 178

slide 60

2010 Pearson Prentice Hall. Todos os direitos reservados.

Benchmarks
Programas elaborados para testar o desempenho.
Escritos em linguagem de alto nvel.
Portveis.
Representa o estilo da tarefa.
Sistemas, numrica, comercial.
Facilmente medidos.
Amplamente distribudos.
P.e., System Performance Evaluation Corporation (SPEC).
CPU2006 para limite de clculo.
17 programas de ponto flutuante em C, C++, Fortran.
12 programas de inteiros em C, C++.
3 milhes de linhas de cdigo.
SPECJVM98, SPECjbb2000, SPECweb99, SPECmail2001
slide 61

2010 Pearson Prentice Hall. Todos os direitos reservados.

Mtrica de velocidade SPEC


nica tarefa.
Runtime bsico para cada programa usando mquina de
referncia.
Resultados so relatados como razo entre o tempo de
referncia e o tempo de execuo do sistema.
Tempo de execuo Trefi para benchmark i na mquina
de referncia.
Tempo de execuo Tsuti do benchmark i na mquina
de teste.

slide 62

2010 Pearson Prentice Hall. Todos os direitos reservados.

Desempenho geral calculado pela mdia das razes


para todos os 12 benchmarks de inteiros.
Usa mdia geomtrica.
Apropriado para nmeros normalizados, como
razes.

slide 63

2010 Pearson Prentice Hall. Todos os direitos reservados.

Mtrica de taxa SPEC

slide 64

Mede vazo ou taxa de uma mquina executando uma srie de


tarefas.
Mltiplas cpias de benchmarks executadas simultaneamente.
Normalmente, mesmo nmero de processadores.
Razo calculada da seguinte forma:
Tempo de execuo de referncia Trefi para benchmark i.
N nmero de cpias executadas simultaneamente.
Tsuti tempo decorrido desde incio da execuo do programa em
todos os N processadores at o trmino de todas as cpias do
programa.
Novamente, uma mdia geomtrica calculada.

2010 Pearson Prentice Hall. Todos os direitos reservados.

Lei de Amdahl
Gene Amdahl [AMDA67].
Speedup em potencial do programa usando mltiplos
processadores.
Concluiu que:
Cdigo precisa ser paralelizvel.
Speedup limitado, gerando retornos decrescentes
para uso de mais processadores.
Dependente da tarefa:
Servidores ganham mantendo mltiplas conexes em
mltiplos processadores.
Bancos de dados podem ser divididos em tarefas
paralelas.
slide 65

2010 Pearson Prentice Hall. Todos os direitos reservados.

Frmula da Lei de Amdahl

Para programa rodando em nico processador:


Frao f do cdigo paralelizvel sem overhead no escalonamento.
Frao (1-f) de cdigo inerentemente serial.
T o tempo de execuo total para o programa no nico
processador.
N o nmero de processadores que exploram totalmente as
partes paralelas do cdigo.

Concluses:
f pequeno, processadores paralelos tm pouco efeito.
N ->, speedup limitado por 1/(1 f).
Retornos decrescentes para o uso de mais processadores.

slide 66

2010 Pearson Prentice Hall. Todos os direitos reservados.

Recursos da Internet
http://www.intel.com/
Procure por Intel Museum
http://www.ibm.com
http://www.dec.com
Charles Babbage Institute
PowerPC
Intel Developer Home

slide 67

2010 Pearson Prentice Hall. Todos os direitos reservados.

Referncias
AMDA67 Amdahl, G. Validity of the Single-Processor
Approach to Achieving Large-Scale Computing
Capability, Proceedings of the AFIPS Conference,
1967.

slide 68

2010 Pearson Prentice Hall. Todos os direitos reservados.