DSP Processor Design Approaches

• Full custom • Standard cell* • Gate array • FPGA (* not directly) • Programmable DSP • Programmable general purpose
* Design domain of EEC 281
EEC 281, Winter 2013, B. Baas

higher performance lower energy (power)  lower per‐part cost 

lower design time  lower one‐time cost
60

 Baas . B.022 um  (22 nm) on the verge of production (Intel) 61 EEC 281.032 um  (32 nm) most advanced in production • 0.VLSI Design Technologies • Characterized by their minimum feature length  (length of transistor’s gate) • 0. Winter 2013.

Full Custom • All transistors and  interconnect drawn by  hand • Full control over sizing  and layout [figure from S. Winter 2013. B. Baas 62 . Hauck] EEC 281.

 B. Baas . Winter 2013.Full Custom • Multiplier chip – – – – – Multiplier I/O pads Clock generator Control logic Buffers  63 EEC 281.

 Baas 64 . Hauck] EEC 281. B. Winter 2013.Standard Cell • Constant‐height  cells • Regular “pin” locations • Regular layout  allows CAD  tools to much  more easily  automatically  place and route  cells [figure from S.

) – FPGA library (CLBs. etc. etc. Winter 2013. NOR. Baas .  Flip‐Flop. LUTs. cell library 65 EEC 281.) (or VHDL) Compiler reports compile script std. B. for example: Design – Standard cell  (NAND.Typical Standard Cell Design Flow • Involves synthesizing Verilog source code to generate a gate  netlist made up of elements from the Standard Cell library • Design Compiler (DC) by Synopsys is the most popular synthesis  tool used in industry • The same Verilog gate design could be netlist synthesized to various Synopsys Verilog libraries.

 Winter 2013. schematic Timing information Gate level dynamic and/or static analysis 66 EEC 281. Baas .Simple diagram of Standard Cell design flow after synthesis Final layout (could be fabricated) Gate level Verilog DRC Design rule check gate level Verilog from synthesis Place & Route LVS Layout vs. B.

 Baas 67 . Winter 2013.Standard Cell • Channels for routing only in older technologies (not necessary  with modern processes with many levels of interconnect) [figure from S. B. Hauck] EEC 281.

 B.Standard Cell • Wireless LAN chip – Ten major standard  cell blocks – Many embedded  memory arrays – Horizontal power  grid stripes 68 EEC 281. Winter 2013. Baas .

Hauck] 69 . regular full‐ custom blocks • Random logic  implemented with  standard cells and  automatic place and  route EEC 281. B. Baas [figure from S. Winter 2013.Combination Standard Cell and Full Custom • Dense.

Gate Array • Polysilicon and  diffusion are the same  for all designs • Metal layers  customized for  particular chips p‐type diffusion PMOS  transistor polysilicon n‐type diffusion NMOS  transistor 70 EEC 281. Winter 2013. Baas . B.

Gate Array • Polysilicon and diffusion the  same for all designs • 0. Winter 2013. Baas 71 . B.125 um example [figure from LETI] EEC 281.

Field Programmable Gate Array (FPGA) • Metal layers now  programmable with  SRAM instead of  hardwired during  manufacture as with a  gate array  • Cells contain general  programmable logic and  registers [figure from S. Hauck] EEC 281. Baas 72 . Winter 2013. B.

 verilog). standard cell – Half: gate array – Shared: FPGA • User writes code (e. B.g. compiles it. Baas .Field Programmable Gate Array (FPGA) • Chips now “designed” with software • User pays for up‐front chip design costs – All: full‐custom.. and  downloads into the chip 73 EEC 281. Winter 2013.

 718  mW @ 1.13 um. Baas 74 .2 V • 8‐way VLIW core • 2‐level memory system • 64 million transistors [figure from S. Agarwala] EEC 281. B. 0.Programmable DSP Processor • TI C64X • 600 MHz. Winter 2013.

General Purpose Processor • Intel 8086 • 4‐12 MHz • 29. Winter 2013.000 transistors 75 EEC 281. Baas . B.

1 Billion Transistors 18.2 mm x 29.Massive Server Processor • • • • • • • • Itanium Poulson 32 nm 3. B.9 mm = 544 mm2 8 multi‐threaded cores 54 MB total on‐die cache 170 Watts TDP [ISSCC 2011] 76 EEC 281. Baas . Winter 2013.

g. e.7 μsec from first sample in ‐> first out c) Numerical precision • Chip area (cost).. area of standard cell netlist • Energy dissipation per workload. 2. Winter 2013.. 250 MSamples/sec b) Latency (low).Key Design Metrics • Performance a) Throughput (high).g.. B. e. e.g. e.g.. mm2 die area. Baas . Joules per JPEG image • Design complexity – Design time = lower performance – Software more important as systems become more complex • Suitability for future fabrication technologies – Many transistors – Faulty devices i) During manufacturing process ii) device wear out due to effects such as NBTI 77 EEC 281.