You are on page 1of 19

Trường đại học công nghiệp Hà nội

Khoa Công Nghệ Thông Tin

----------

BÀI TIỂU LUẬN MÔN HỌC: KIẾN TRÚC MÁY TÍNH

ĐỀ TÀI: Nghiên cứu tìm hiểu về thế hệ vi xử lý InTel Pentium IV

Giáo viên hướng dẫn: Nguyễn Thanh Hải


Lớp: Đại học KTPM3-K9
Nhóm số: 3

Hà Nội, ngày 1 tháng 11 năm 2015

Trường đại học công nghiệp Hà nội


Khoa Công Nghệ Thông Tin
Báo cáo bài tập lớn môn học: Kiến trúc Máy tính

ĐỀ TÀI: Nghiên cứu tìm hiểu về thế hệ vi xử lý InTel Pentium IV

Nhóm thực hiện: Nhóm 3–Lớp KTPM3-K9


Thành viên trong nhóm:
1. Leo thị lan Hương
2. Trần hải Linh
3. Nguyễn thị Nga
4. Nguyễn thị Nhã
5. Trần thị Quyên

Giáo viên hướng dẫn: Nguyễn Thanh Hải


(GV Kiến Trúc Máy Tính)

Hà Nội ,ngày 1 tháng 11 năm 2015

 Mở đầu
1. Nhiệm vụ của bài
Nghiên cứu tìm hiểu về thế hệ vi xử lý InTel Pentium IV.

2. Bố cục
* Lịch sử phát triển của VXL Pentium IV :
- Hoàn cảnh ra đời của VXL Pentium IV.
- Đặc trưng công nghệ chung của VXL Pentium IV.
* Đặc trưng công nghệ chi tiết của từng loại biến thể (version) của VXL
Pentium IV

2
 Nội dung
A.Lịch sử phát triển của VXL Pentium IV

Pentium 4 là bộ vi xử lý kiến trúc x86 thế hệ thứ 7 do Intel sản xuất, và là thiết kế CPU
hoàn toàn mới đầu tiên của họ kể từ Pentium III năm 1995. Thiết kế mới này được gọi
là kiến trúc NetBurst. Không như Pentium II, Pentium III, và các loại Celeron khác
nhau, kiến trúc này khác được tạo mới hoàn toàn và thừa kế rất ít từ thiết kế Pentium
Pro/P6.

Bộ vi xử lý Pentium 4 đầu tiên, mã hiệu là "Willamette", chạy với tốc độ 1.4 và


1.5 GHz và đã được phát hành vào tháng 11 năm 2000 trên nền Socket 423, và sau đó
đã chạy với tốc độ từ 1.5 GHz tới 2 GHz trên Socket 478. Được ghi nhận cùng với sự
ra đời của Pentium 4 là bus FSB(Front side bus) nhanh với tốc độ 400 MT/s. Khi đó,
chip AMD Athlon đang chạy với tốc độ 266 MT/s.

Pentium 4
Dòng vi xử lý Pentium 4 đã kết thúc vào
ngày 27 tháng 7 năm 2006, được thay thể bởi Produced From 2000 to 2008
dòng Intel Core 2 - dòng sử dụng nhân
Max. CPU clock 1.30 GHz to 3.80 GHz
"Conroe".
rate

Pentium 4 được sản xuất vào tháng 11 năm 2011 FSB speeds 400 MT/s to 1066 MT/s

và được giới thiệu là bộ vi xử lý thế hệ mới.


Instruction set x86 (i386), x86-64, MM
Nếu bộ vi xử lý này được đặt số thay vì tên nó X,SSE, SSE2, SSE3
sẽ được gọi là 786 bởi vì nó đại diện cho một
Microarchitecture NetBurst
thế hệ sau những bộ xử lý 686. Vài hình thức
khác nhau của Pentium 4 được ra mắt công Transistors 42M 180nm
55M 130nm
chúng được dựa trên kiến trúc và khuôn bộ xử
169M 130nm (P4EE)
lý được dựa trên các nhân Willametter, 125M 90nm
Northwood và Prescott. 188M 65nm

Socket 423
Socket(s)
Socket 478
3 LGA 775

Predecessor Pentium III

Successor Pentium D
Một số công nghệ nổi bật được áp dụng trong kiến trúc
NetBurst như Hyper Pipelined Technology(Công nghệ siêu
ống) mở rộng số hàng lệnh xử lý, làm hiệu suất máy có thể
tăng 30%. Execution Trace Cache tránh tình trạng lệnh bị
chậm trễ khi chuyển từ bộ nhớ dến CPU, Rapid Execution
Engine tang tốc bộ đồng xử lý toán học, bus hệ thống
(system bus) 400 MHz và 533 MHz; các công nghệ
Advanced Transfer Cache, Advanced Dynamic Execution,
Enhanced Floating point và Multimedia Unit, Streaming SIMD Extensions 2
(SSE2) cũng được cải tiến nhằm tạo ra những BXL tốc độ cao hơn, khả năng tính
toán mạnh hơn, xử lý đa phương tiện tốt hơn. Ghi nhận cùng với sự ra đời của
Pentium 4 là công nghệ Quad Data Rate cho phép FSB (Front Side Bus) đạt đến tốc
độ 400 MHz. Khi đó, chip AMD Athlon đang chạy với tốc độ FSB là 266 MHz
(công nghệ Double Data Rate).

Bộ vi xử lí Pentium IV có đến 42 triệu Tranzito,kích thước chết của nó là 217


mm2,công suất tiêu thụ 55 W khi làm việc ở mức 1,5GHz.Tốc độ bus hệ thống 3,2
GB/s , rất cao ở thời diểm bấy giờ.

Bảng: So sánh hiệu suất Pentium 3 và Pentium 4

Bảng trên là sự so sánh hiệu suất của Pentium IV 1,5GHz và Petium III 1,0
GHz.Rõ ràng ta có thể thấy tính vượt trội dành cho Pentium IV.Các ứng dụng số

4
nguyên cao hơn 15-20 %,trong khi Ứng dụng dấu chấm động và multimedia lên tới
30-70%.
Pentium 4 đầu tiên (tên mã là Willamette) xuất hiện cuối năm 2000 đặt dấu
chấm hết cho “triều đại” Pentium III. Willamette xuất sản xuất trên công nghệ 0,18
có 42 triệu transistor(nhiều hơn gần 50% so với Pentium III),bus hệ thống (system
bus) 400 MHz,bộ nhớ đệm tích hợp L2 256 KB,socket 423 và 478 , Socket 423 chỉ
xuất hiện trong khoảng thời gian rất ngắn, từ tháng 11 năm 2000 đến tháng 8 năm
2001 và bị thay thế bởi socket 478 .P4 Willamette có tốc độ như 1.3, 1.4, 1.5, 1.6,
1.7, 1.8, 1.9 , 2.0 GHz.
P4 Northwood xuất hiện vào tháng 1 năm 2002,được sản xuất trên công nghệ
0,13, có khoảng 55 triệu transistor,bộ nhớ đệm tích hợp L2 512 KB,socket
478.Northwood có 3 dòng gồm Northwood A(system bus 400 MHz),tốc độ 1.6,
1.8, 2.0, 2.2, 2.4, 2.5, 2.6, và 2.8 GHz.Northwoood B(system bus 533 MHz) tốc độ
2.26, 2.4, 2.53, 2.66, 2.8, 3.06 GHz(riêng 3.06 GHz có hỗ trợ công nghệ siêu phân
luồng Hyper Threading-HT).Northwood C (system bus 800 MHz,tất cả hỗ trợ
HT),gồm 2.4,2.6, 3.0, 3.2, 3.4 GHz.
P4 Prescott (năm 2004).Là BXL đầu tiên sản xuất theo công nghệ 90nm,kích
thước vi mạch giảm 50% so với P4 Willamette.Điều này cho phép tích hợp nhiều
transistor hơn trên cùng kích thước (125 triệu transistor so với 55 triệu transistor của
P4 Northwood),tốc độ chuyển đổi của transistor nhanh hơn,tăng khả năng xử lý,tính
toán.Dung lượng bộ nhớ đệm tích hợp L2 của P4 Prescott gấp đôi so với P4
Northwood(1MB so với 512KB).Ngoài tập lệnh MMX,SSE,SSE2,Prescott được bổ
sung tập lệnh SSE3 giúp các ứng dụng xử lý video và game
chạy nhanh hơn.Đây là giai đoạn “giao thời ” giữa socket
478-775LGA,system bus 533 MHz-800MHz và mỗi sản
phẩm được đặt tên khiến người dùng càng bối rối khi chọn
mua.
Prescott A(FSB 533MHz)có các tốc độ 2.4, 2.26, 2.8
(socket 478),Prescott 505 (2,66GHz), 505J(2.66 GHz),506
(2,66 GHz), 511 (2,8GHz), 515J (2,93GHz), 516 (2,93GHz) , 519J (3,06GHz), 519
J(3,06GHz) sử dụng socket 775LGA.

5
Prescott E,F (năm 2004) có bộ nhớ đệm L2 1MB(các phiên bản sau được mở
rộng 2MB),bus hệ thống 800 MHz.Ngoài tập lệnh MMX,SSE2,SSE3 tích
hợp, Prescott E,F còn hỗ trợ công nghệ siêu phân luồng,một số phiên bản sau có hỗ
trợ tính toán 64 bit.
Dòng sử dụng socket 478 gồm Pentium 4 HT 2.8E (2,8GHz), 3.0E (3,0 GHz),
3.2E (3,2 GHz), 3.4E(3,4 GHz).Dòng sử dụng socket 775LGA gồm Pentium
4HT 3.2F, 3.4F, 3.6F, 3.8F, với các tốc độ tương ứng từ 3,2 GHz.Pentium 4
HT 517,520,520J,521,524,530,530J,531,540,540J,541,550,560,560J,561,570J,571
với các tốc độ từ 2.8 GHz đến 3,8 GHz.

*Những điểm kĩ thuật chính của Pentium 4 bao gồm:


 Tốc độ từ 1.3GHz đến 3.8GHz
 phần mềm tương thích với những bộ xử lý Intel 32 bit trước.
 Một số phiên bản hỗ trợ EM64T
 Bus bộ xử lý (font-side) chạy ở 400MHz, 533Mhz, SOOMHz hay 1066MHz.
 Những bộ logic số học (ALUs) chạy gấp hai lần tần số nhân bộ xử lý
 Công nghệ siêu dẫn đường (20-30 tầng)
 Công nghệ siêu phân luồng hỗ trợ tất cả bộ xử lý 2.4GHz và nhanh hơn chạy Bus
800MHz, tất cả bộ xử lý 3.06GHz và nhanh hơn chạy Bus 533MHz.
 Thực thi tập lệnh ngoài lệnh chuyên nghiệp
 Bộ dự đoán phụ được mở rộng
 Bộ nhớ đệm LI 8KB ha>16KB cộng với bộ nhớ đệm theo vết thực thi vi lệnh 12k
 Bộ nhớ đệm L2 56bit trên khuôn tốc độ nhân 256KB, 512KB, 1MB hoặc 2MB kết
hợp 8 đường
 Bộ nhớ đệm L3 tốc độ nhân 2MB tích hợp trên khuôn.
 SSE2-SSE cộng với 144 tập lệnh mới chưa xử lý âm thanh và đồ họa

B. Nội dung trọng tâm

I. Các công nghệ mới

Khả năng cung cấp một số công nghệ mới và các tính năng được tăng cường trên
đây dựa vào các tiến bộ mới nhất của Intel trong lĩnh vực thiết kế mạch, quản lý
việc tiêu thụ năng lượng và tính toán không thể thực hiện được ở các mô hình vi
6
kiến trúc của các thế hệ CPU trước. Bộ dấu chấm động được mở rộng. Có nhiều
trạng thái năng lượng thấp hơn. Intel bỏ những số La Mã bằng một sự chỉ định 4, số
Ả-rập tiêu chuẩn đối với Pentium 4. Bên trong pentium 4 có một kiến trúc mới mà
Intel gọi là vi kiến trúc NetBurst, là thuật ngữ thị trường không phải thuật ngữ kĩ
thuật. Intel dùng NetBurst để thí nghiệm công nghệ siêu đường dẫn, một bộ máy thực
thi nhanh, bus hệ thống tốc độ cao (400MHz, 533MHz, 800MHz và 1066MHz) và bộ
nhớ đệm theo vết thực thi. Công nghệ siêu đường dẫn là làm tăng gấp đôi hay gấp ba
lần độ sâu đường dẫn tập lệnh so với Pentium III ( hay Athlon/Athlon 64) nghĩa là
nhiều bước nhỏ hơn được yêu cầu để thực thi tập lệnh. Mặc dù điều này có thể dường
như kém hữu hiệu, nhưng nó cho phét đạt tới những xung cao hơn nhiều. Bộ máy
thực thi nhanh cho phép hai bộ logic số nguyên ( ALUs) chạy gấp đôi tần số nhanh
bộ xử lý có nghĩa là có những tập lệnh có thể thực thi trong nữa chu kỳ đồng hổ.Bus
hệ thống 400MHz/533MHz/800Mhz/1066Mhz là bus quad-pumped chạy hơn đồng
hồ hệ thống 100Mhz/133Mhz/200Mhz/266Mhz chuyển giao dữ liệu gấp bốn lần
trong mỗi chu kì đồng hồ. Bộ nhớ đệm theo vết thực thi là bộ nhớ đệm L1 tốc độ cao
chưa được lượng 12K những vi hoạt động giải mã. Nó di chuyển bộ giải mã tập lệnh
từ đường dẫn thực thi chính, làm tăng tốc độ xử lý.

Trong những vấn đề trên thì Bus bộ xử lý tốc độ cao là đắng kể nhất, về mặt kỹ thuật
mà nói bus bộ xử lý là bus quad-pumped 100MHz, 133MHz, 200MHz hay 266MHz
chuyển giao dữ liệu gấp bốn lần trong một chu kỳ (4x) cho tốc độ hiệu dụng 400Mhz,
533Mhz,800Mhz hay 1066Mhz bởi vì bus dung lượng 64bit (8byte) cho tốc độ lưu
lượng 3200MBps, 4266MBps, 6400MBps hay 8532MBps.

Trong kiến trúc nội bộ đường dẫn 20 tầng hay 30 tầng của pentium 4 những tập lệnh
đơn bị bả thành nhiều tầng nhỏ hơn so với bộ xử lý trước như pentium III, làm cho nó
hầu như giống bộ xử lý RISC. Không may là có thể thêm vào số chu kỳ thực thi
những tập lệnh nếu chúng không được tối ưu chô bộ xử lý. Một ưu điểm kiến trúc
quan trọng khác là công nghệ siêu phân luồng, có thể được tìm thấy trong tất cả
Pentium 4 2.4GHz và nhanh hơn chạy bus 800MHz hay tất cả Pentium 4 3.06GHz và
nhanh hơn chạy bus 533Mhz. Siêu phân luồng cho phép một bộ xử lý đơn chạy hai
luồng cùng thời, hoạt động như thế nó là hai bộ xử lý thay vì một.

7
Pentium 4 đời đầu sử dụng socket 423 có 423 chân trong sự sắp xếp SPGA 39x39.
Nhưng phiên bản sau cùng socket 47H, phiên bản hiện nay dùng socket T (I.GA775)
có những chân thêm để hỗ trợ tính năng mới như EM64T ( sự mở rộng 64 bit), bit vô
hiệu hóa thực thi ( sự bảo vệ chống những tán công của tràn bộ nhớ đệm), công nghệ
ảo Intel, và những tính năng tiên tieean khác. Celeron không bao giờ được thiết kế để
làm việc trong socket 423, nhưng celeron và celeron D có socket 478 hay socket T
( LGA775), cho phép hệ thống hạ giá so với Pentium 4. Bộ chọn điện áp được tạo ra
nhờ vào Module điều chỉnh điện áp tự động được đặt trên bo mạch chỉ và được nối
đến socket.

1. Hyper-Pipelined Technology - Công nghệ Siêu ống


Là công nghệ mới được giới thiệu trong Vi kiến trúc Netburst™ của Intel. Nó
tăng gấp đôi "độ sâu" của "ống" xử lý lệnh của CPU khi so sánh với mô hình Vi kiến
trúc P6 được sử dụng ở các thế hệ CPU Pentium III. Lệnh được thực hiện trong
20 giai đoạn (20 stages) trong vi kiến trúc Netburst, so với 10 giai đoạn trong vi kiến
trúc P6. Ống lệnh dài giúp chip Pentium 4 có thể đạt được mức xung nhịp cao hơn.

2. Execution Trace Cache


Là bộ nhớ đệm cấp 1 . Bên cạnh 8KB bộ nhớ đệm dùng để chứa dữ liệu ,
Pentium 4 có khả năng lưu trữ đến 12K vi lệnh đã được giải mã nhằm giúp tăng
cường tốc độ thực thi lệnh của CPU.

3. Rapid Execution Engine - Cơ chế thực thi (lệnh) nhanh chóng


Điều này được thực hiện dựa trên hai Đơn vị Luận lý Số Học được thiết kế bên
trong Pentium 4. Nó cho phép Pentium 4 thực hiện các lệnh số học (cộng, trừ, nhân
chia) và luận lý (And, Or...) chính với tốc độ gấp 2 lần tần số xử lý cơ bản của bộ xử
lý. Như vậy CPU Pentium 4 - 2.0Ghz có khả năng thực hiện các lệnh trên với tốc
độ 4.0Ghz và CPU Pentium 4 - 2.53Ghz thực hiện với tốc độ 5.1Ghz.

4. Advanced Transfer Cache (ATC)


Là bộ nhớ đệm cấp 2 (L2 Cache) được thiết kế bên trong Pentium 4. ATC có hai
loại: 512 KB L2 ATC với các tốc độ CPU 2.8Ghz - 2.53Ghz - 2.40Ghz -
2.40(B)Ghz -2.26Ghz - 2.20Ghz - 2.0(A)Ghz và 1.6(A)Ghz; 256 KB L2 ATC với các
tốc độ từ 1.2Ghz - 2.0Ghz. ATC cung cấp kênh truyền có thông lượng rất cao
với nhân của CPU . ATC bao gồm một giao diện 256-bit (32 byte) để truyền dữ liệu
8
trên mỗi xung clock. Điều này cho phép ATC (L2 Cache) hỗ trợ tốc độ cao gấp 4 lần
tốc độ truyền dữ liệu của L2 Cache sử dụng trong các CPU Pentium III.
Ví dụ: CPU Pentium 4 - 2.53Ghz có tốc độ truyền dữ liệu lên tới 81GB/giây,
so với tốc độ truyền dữ liệu 16GB/giây của Pentium III - 1.0 Ghz.

5. Out-Of-Order Execution
Nhân hỗ trợ Out-of-Order Execution có thể sắp xếp lại các vi lệnh, cho phép
lệnh (cùng với đầu vào và các tài nguyên hệ thống cần thiết) để thực thi ngay khi có
thể và tránh lãng phí thời gian. Khi một vi lệnh đang chờ được cấp phát tài nguyên
hoặc dữ liệu, các lệnh khác (thường là trong buffer) có thể chen vào thực thi. Nhờ
thực thi các
lệnh song song, những khoảng trễ của pipeline bị loại bỏ. Nhân có thể thực thi nhiều
lệnh trong mỗi giai đoạn của pipeline. Sau đó in-order retirement unit sẽ tìm các lệnh
được hiện xong và không còn phụ thuộc dữ liệu cũng như liên quan đến các lệnh rẽ
nhánh chưa hoàn thất để xử lý và lưu kết quả ra bộ nhớ theo trật tự ban đầu của nó.

6. Branch Prediction (phỏng đoán nhánh)


Kiến trúc NetBurst có thể nhớ được các nhánh trong chương trình chạy, giúp làm
giảm độ trễ trong quá trình nhảy và nạp đầy ống lệnh , Các nhánh được lưu giữ trên cơ
sở địa chỉ lệnh bên trong Branch Target Buffer (BTB). Bộ vi xử lý có thể dự đoán
được các nhánh sắp tới trước cả khi lệnh rẽ nhánh được thực hiện.

7. Rapid Execution Engine


Trong Pentium 4, có 2 ALU và hai AGU chạy với mức xung gấp đôi xung clock.
Rapid execution engine được giới thiệu là làm giảm độ trễ của việc thực hiện các
phép toán đơn giản . Điều này thực sự có ý nghĩa vì hiệu năng và tốc độ của
vi xử lý phụ thuộc rất nhiều vào các tính toán số nguyên trên ALU.

8. Quad Data Rate


FSB của Pentium 4 có thể truyền bốn lần dữ liệu trong một xung clock . Công nghệ
này là Quad Pumped hay còn gọi là Quad Data Rate (QDR).QDR khiến cho xung nhịp
hiệu dụng tăng lên gấp 4 lần so với xung thực. Nhờ đó các CPU Pentium 4 có thể
đạt đến 400Mhz System bus, tốc độ truyền nhận dữ liệu vào-ra CPU là 3.2GBps
so với tốc độ tương ứng là 1.06GBps của Pentium III (133Mhz system bus).
Real Clock Performance Tranfer Rate
9
100MHz 400MHz 3.2GB/s
133MHz 533MHz 4.2GB/s
200MHz 800MHz 6.4GB/s
266MHz 1066MHz 8.5GB/s

9. Enhanced Floating Point & Multimedia Unit


Bộ xử lý Pentium 4 mở rộng các thanh ghi dấu chấm động lên tới 128bit và tạo thêm
một thanh ghi mở rộng nhằm phục vụ việc di chuyển dữ liệu.
Do vậy, khả năng xử lý các ứng dụng dấu chấm động (tính toán kết cấu, số
liệu tài chính, số liệu khoa học…) và truyền thông đa phương tiện (dựng và xử lý
phim video, xử lý hình ảnh đồ họa…) được tăng cường rất nhiều.

10. Streaming SIMD Extension 2 (SSE2) Instructions


Là tập lệnh hỗ trợ đồ họa mở rộng được thiết kế cho Pentium 4. Vi kiến trúc Netburst
mở rộng khả năng xử lý theo kiểu cấu trúc SIMD của các công nghệ Intel® MMX™
và SSE bằng cách thêm vào 144 lệnh mới. Các lệnh này bao gồm các tác vụ số nguyên
SIMD 128-bit và các tác vụ dấu chấm động . Các lệnh mới này làm tối ưu hóa khả
năng thực hịên các ứng dụng như phim video, xử lý âm thanh - hình ảnh, mã hóa, tính
toán khoa học ...

11. Hyper Threading (siêu phân luồng)


Hyper threading là công nghệ cho phép một CPU vật lý hoạt động trên hệ điều hành
như là hai CPU logic hoạt động song song. Nó dựa trên nguyên tắc là vào một
thời điểm chỉ có một phần tài nguyên của CPU được sử dụng để thực thi lệnh của
một tiến trình, những phần chưa được sử dụng có thể được dùng để thực thi các tiến
trình khác.Trong các CPU sử dụng công nghệ Hyper-Threading, mỗi CPU logic sở
hữu một tập các thanh ghi, kể cả thanh ghi đếm chương trình PC riêng , CPU vật lý sẽ
luân phiên các giai đoạn tìm/giải mã giữa hai CPU logic và chỉ cố gắng thực thi những
thao tác từ hai chuỗi lệnh đồng thời theo cách hướng tới những đơn vị thực thi ít được
sử dụng.

10
II. CẤU TRÚC, CHỨC NĂNG CÁC BỘ PHẬN

*Một số điểm đáng chú ý!!!!


 Công nghệ Hyper Pipelined với pipeline lên tới 20 stage.

FSB của Pentium IV có mức xung tối thiểu là 400MHz nhờ kỹ thuật QDR
(Quad Data Rate), cho phép truyền bốn lần dữ liệu trong một xung clock, nhanh
gấp rưỡi system bus 266MHz sử dụng công nghệ Double Data Rate của AMD.
Nhờ vậy, băng thông lên đến 3.2GB/s.
 Execution Trace Cache: cache lệnh (L1 instruction cache) được chuyển từ trước
Fetch Unit ra phía sau Decode Unit và có tên là “Trace Cache”.
 Có tới 128 thanh ghi, trong khi CPU của Intel thuộc thế hệ thứ 6 (như Pentium II ,
Pentium III) chỉ có 40 thanh ghi.
 Advanced Dynamic Execution, nâng cao khả năng phỏng đoán nhánh và thực hiện
lệnh không theo thứ tự (out-of-order execution).
 Rapid Execute Engine, theo đó ALU của Pentium IV làm việc với xung nhịp gấp
đôi xung clock của CPU.

1.Hyper Pipeline

11
Trong CPU Pentium III thì pipeline có 10 stage (giai đoạn). Pentium IV có 20 stage.
Pentium IV với tên mã “Prescott” 90nm thậm chí còn có tới 31 stage. Intel gọi đây là
công nghệ siêu ống lệnh (Hyper Pipelined Technology).Việc tăng độ dài pipeline
hướng đến mục tiêu tăng xung nhịp. Có nhiều giai đoạn hơn đồng nghĩa với các đơn vị
chức năng có thể được cấu thành với số lượng transitor ít hơn. Và với ít transistor thì
sẽ dễ dàng nâng cao xung nhịp , về cơ bản là như vậy.

20 tầng Pipeline của Pentium IV:

 Stage 1 & 2 - Trace cache next instruction pointer: tìm vi lệnh tiếp
theo sẽ được thực hiện trong BTB (Branch Target Buffer).
 Stage 3 & 4 - Trace cache fetch: nạp vi lệnh từ Trace Cache.
 Stage 5 - Drive: gửi vi lệnh đến resource allocator và mạch RAT.
 Stage 6 - Allocate: kiểm tra tài nguyên CPU cần thiết cho việc thực hiện
lệnh. Ví dụ bộ nhớ được dùng làm bộ đệm.
 Stages 7 & 8 - Rename: nếu chương trình sử dụng một trong tám thanh
ghi chuẩn x86 nó sẽ được đổi tên thành một trong 128 thành ghi của
Pentium IV.
 Stage 9 - Queue: các vi lệnh được đưa vào các hàng đợi dành riêng cho từng
loại (ví dụ: truy cập bộ nhớ, xử lý số nguyên hay dấu chấm động …). Lệnh
nằm yên trong hàng đợi cho đến khi có một chỗ trống tương ứng xuất hiện trong
scheduler.
 Stages 10, 11, 12 - Schedule: scheduler sắp xếp lại các lệnh nhằm giữ cho mọi

execution unit đều hoạt động. Ví dụ, nếu đơn vị xử lý dấu chấm động rảnh
rỗi, scheduler lấy ra một lệnh xử lý dấu chấm động để gửi cho đơn vị đó,
mặc dù lệnh tiếp theo trong chương trình có thể là một lệnh xử lý số
nguyên.
12
 Stages 13 & 14 - Dispatch: gửi vi lệnh tới Execution Unit tương ứng.
 Stages 15 & 16 - Register Files: đọc register file.
 Stage 17 - Execute: vi lệnh được thực hiện.
 Stage 18 - Flags: cờ của vi lệnh được cập nhật.
 Stage 19 - Branch Check: kiểm tra nhánh của chương trình có cùng với
suy đoán của mạch dự đoán rẽ nhánh hay không.
 Stage 20 - Drive: gửi kết quả của việc kiểm tra này tới Branch Target Buffer
(BTB).

Mặc dù về lý thuyết, pipeline dài có thể làm tăng hiệu năng, tuy nhiên, bất chấp
điều này có quá nhiều stage sẽ khiến cho thời gian thực hiện một lệnh dài hơn.
Thứ hai, là một pipeline dài sẽ trở nên rất kém hiệu quả trong những trường hợp
phỏng đoán nhánh sai (branch prediction error). Sẽ mất nhiều thời gian để lấp
đầy pipeline một lần nữa. Intel đã triển khai một vài biện pháp để bù lại sự mất
mát hiệu năng trong những trường hợp này, đó là Execution Trace Cache và
Dynamic Execution Engine.

Thực tế là Pentium IV chỉ nhanh hơn Pentium III nhờ hoạt động ở mức xung
nhịp cao hơn. Với cùng mức xung nhịp, một CPU Pentium III sẽ nhanh hơn
CPU Pentium IV nhờ kích thước pipeline của nó.

Bởi vì sự kém hiệu quả của pipeline trong kiến trúc Netburst, thế hệ vi xử lý thứ
8 của Intel (vi kiến trúc Core) quay trở lại với kiến trúc của Pentium M, một
kiến trúc dựa trên nền tảng của kiến trúc thế hệ thứ 6 thay vì tiếp tục phát triển
thế hệ thứ 7 (Netburst).

2.Bộ Nhớ Đệm


a. Advanced transfer cache
Cache L2 của Pentium 4 kết nối với cache dữ liệu L1 qua bus có độ rộng là 256-
bit. Trong các thế hệ vi xử lí trước của Intel độ rộng này là 64-bit. Với m ột vài phép
toán đơn giản ta sẽ thấy băng thông giữa cache L2 và nhân là 44.8GB/s với Pentium 4
ở mức xung 1.4 GHz và 48GB/s với Pentium 4 ở mức xung 1.5 GHz, nhanh gấp 4
lần so với thế hệ trước với cùng một xung nhịp .
b. Execution trace cache
Cache lệnh được chuyển từ trước Fetch Unit ra phía sau Decode Unit và có tên gọi
mới là "Trace Cache ". Do đó thay vì lưu trữ vi lệnh để chuẩn bị nạp bằng Fetch Unit
13
thì Trace Cache sẽ lưu trữ những vi lệnh đã được giải mã nhờ Decode Unit. Trace
Cache lưu trữ được 12K vi lệnh, mỗi vi lệnh trong Pentium IV có độ rộng 100-
bit nên trong Trace Cache có dung lượng 150KB (12288 x 100 /8).Ý tưởng đằng sau
cách kiến trúc này là để tối ưu vòng lặp bên trong các chương trình. Khi một lệnh được
thực thi nhiều lần , thì vi lệnh đã được giải mã sẵn và lưu trong Trace Cache, và không
cần giải mã lại nhiều lần như các VXL thế hệ trước.Giống như Fetch Unit, Trace
Cache cũng có Branch Target Buffer (BTB) lên tới 4K vi lệnh. Trong CPU của Intel
thế hệ thứ 6, như Pentium III, bộ đệm này chỉ có 512 vi lệnh và trong thế hệ thứ 5, như
bộ xử lý Pentium chỉ có 256 vi lệnh.

3.Bộ giải mã - Decoder


Từ thế hệ thứ 6, CPU của Intel dùng kiến trúc tập lệnh lai CISC/RISC. Bộ vi
xử lí phải chấp nhận các lệnh CISC (Complex Instruction Set Computer), được biết
như là tập lệnh của x86. Ngày nay hầu hết phần mềm sử dụng tập lệnh này. Những bộ
vi xử lí chỉ sử dụng tập lệnh RISC (Reduced Instruction Set Computer) không thể
chạy được những chương trình thông dụng như: Windows, Office...Do đó các CPU
hiện nay trên thị trường của cả Intel, AMD đều sử dụng một bộ giải mã CISC / RISC.
Bên trong CPU xử lí lệnh kiểu RISC nhưng lại chỉ chấp nhận những lệnh CISC ở đầu
vào. Những lệnh CISC x86 được gọi chung là lệnh , còn những lệnh RISC bên trong
được gọi là các vi lệnh . Những vi lệnh RISC này không thể sử dụng trực tiếp do đó
những chương trình sẽ phải sử dụng tập lệnh CISC và được giải mã qua một bộ giải
mã . Mỗi một CPU sử dụng tập lệnh RISC riêng không công bố rộng rãi và nó không
tương thích với vi lệnh của CPU khác. Ví dụ vi lệnh của Pentium III khác với vi lệnh
của Pentium IV , khác với vi lệnh của Athlon 64.
Tuỳ theo tính phức tạp của lệnh x86 mà nó sẽ được decode thành một
số lệnh RISC nào đó. Bộ giải mã của Pentium IV có thể giải mã một lệnh
x86 mỗi xung clock thông thường một lệnh x86 giải mã cần 4 vi lệnh. Nếu một lệnh
x86 phức tạp có thể nhiều hơn 4 vi lệnh, nó được định hướng trong bộ nhớ ROM .
“Microcode ROM” còn được gọi là MIS (Microcode Instruction Sequencer) lưu
danh sách tất cả các lệnh cùng mô tả các vi lệnh tương ứng sẽ được dịch ra.

4.Allocator và Register Renamer


Trong giai đoạn alloc, allocator sẽ:

14
Dành ra một trong 126 reorder buffers (ROB) cho vi lệnh hiện thời. Nó cho phép
thực hiện vi lệnh không theo thứ tự , CPU có thể đặt chúng trở lại thứ tự cũ sử dụng
bảng này. Dành ra một trong 128 register files để lưu trữ kết quả dữ liệu từ xử lí vi
lệnh.
Nếu vi lệnh là nạp (LOAD) hoặc ghi (STORE), có nghĩa là nó sẽ đọc hoặc viết dữ
liệu trên bộ nhớ RAM, nó sẽ dành một trong số 48 bộ đệm nạp (Load Buffers -LB)
hoặc một trong 24 bộ đệm lưu trữ (Store Buffers - SB)tương ứng . Dành ra một đầu
vào trên bộ nhớ hoặc hàng đợi, tuỳ thuộc vào từng vi lệnh . Tập lệnh CISC x86 chỉ
có 08 thanh ghi 32-bit (EAX, EBX, ECX, EDX, EBP, ESI, EDI và ESP). Số này
đơn giản là quá ít, đặc biệt là khi CPU có thể thực thi theo kiểu out-of-order. Do đó,
CPU phải đổi tên và nội dung của những thanh ghi được sử dụng trong chương trình
thành một trong 128 thanh ghi của CPU , điều này cho phép những lệnh sử dụng cùng
thanh ghi có thể chạy đồng thời. Thậm trí out -of-order, có nghĩa là cho phép lệnh thứ
hai chạy trước lệnh thứ nhất ngay cả khi chúng sử dụng cùng một thanh ghi.
Chúng ta cần chú ý rằng Pentium IV thực sự có tới 256 thanh ghi: 128 cho
những lệnh số nguyên và 128 thanh ghi cho lệnh dấu chấm động và lệnh SSE.
Renamer của Pentium IV có khả năng xử lí ba vi lệnh trong một xung clock. Sau đó từ
renamer vi lệnh đi tới hàng đợi.

5.Scheduler
Scheduler là trái tim của hệ thống out-of-order Pentium IV. Mục đính của Scheduler là
giữ cho mọi execution unit trong CPU luôn luôn làm việc. Các vi lệnh tới scheduler sẽ
được nó phân tích và đặt vào một trong bốn scheduler unit tùy theo kiểu của vi lệnh:
Memory scheduler unit: cho những vi lệnh liên quan đến bộ nhớ. Những vi lệnh này
đến từ hàng đợi của các vi lệnh bộ nhớ (memory microinstruction queue).
Fast scheduler unit: cho những vi lệnh đơn giản.
Slow / General FP scheduler unit: cho những vi lệnh khác và những vi lệnh xử lý dấu
chấm động phức tạp.
Simple FP scheduler unit: cho những vi lệnh dấu chấm động đơn giản.Scheduler sắp
xếp những vi lệnh theo kiểu của chúng. Sau đó nó có thể gửi mỗi vi lệnh trực tiếp tới
Execution Unit tương ứng để xử lí.

15
6.Execution Unit
Như đã đề cập, Pentium IV có bốn cổng gửi đi đánh số từ 0 tới 3. Mỗi cổng được nối
tới một, hai hoặc ba đơn vị thực thi (execution unit). Pentium IV có 05 execution unit
làm việc song song (02 FPU cho số dấu chấm động , 03 ALU cho số nguyên) và thêm
02 AGU để đọc và ghi dữ liệu vào bộ nhớ RAM.
Phần chính của Rapid Execution Engine là các rapid execution unit, bao gồm hai
ALU và hai AGU . Các vi lệnh đơn giản có thể được thực thi bằng những đơn vị này
và chỉ mất một nửa xung clock , những lệnh dịch và xoay không thể được thực thi
được bằng các rapid execution unit sẽ được gửi đến “Slow ALU”.
Cổng 0 và 1 có thể gửi hai vi lệnh trong một xung clock tới 2 rapid execution ALU,
do đó số lượng tối đa các vi lệnh có thể được chuyển đi trong một xung clock là 6:
Hai vi lệnh cho cổng 0
Hai vi lệnh cho cổng 1
Một vi lệnh cho cổng 2
Một vi lệnh cho cổng 3
Một điều chúng ta cần nhớ là những lệnh phức tạp có thể cần đến vài xung clock để xử
lí. Ví dụ ở cổng số 1, có một đơn vị xử lý dấu chấm động. Trong khi đơn vị này
đang xử lý một lệnh rất phức tạp mất vài xung clock, cổng 1 sẽ vẫn tiếp tục nhận các
lệnh đơn giản nó và chuyển đến ALU trong khi FPU còn bận. Nếu để ý một chút, ta
thấy Intel đặt vào cùng một cổng một fast unit và một complex (slow) unit. Khi
complex unit còn đang bận tính toán, đơn vị còn lại có thể tiếp tục nhận vi lệnh từ
cổng tương ứng.
Nên, mặc dù tối đa chỉ có 6 lệnh được chuyển, thực sự CPU có thể có đến 7 lệnh
cùng được xử lý một lúc.

16
III. Tập Lệnh
Khuôn dạng lệnh P4

 Các nhóm lệnh:

1. General Pupose (Nhóm lệnh chung)

2. System Instructions (Các lệnh hệ thống)

3. x87 FPU

4. x87 FPU và SIMD

5. Công nghệ MMX

6. SSE

7. SSE2

8. SSE3

9. IA-32e: 64-Bit Mode (chế độ 64 bit)

C. KẾT LUẬN
Intel đã đưa ra Pentium 4 nhằm tập trung vào tốc độ xung nhịp cao với thiết
kế pipeline rất dài. Tuy đúng là cách làm này sẽ tạo ra tốc độ rất cao nhưng nó cũng

17
đồng nghĩa với hiệu suất làm việc lại giảm đi vì việc thực hiện một lệnh cần quá
nhiều giai đoạn. CPU pentium 4 thường có xung nhịp cao hơn những CPU của
AMD, nhưng lại không nhanh hơn khi kiểm nghiệm Benchmark. Điều này khiến
người dùng có khuynh hướng lựa chọn những bộ vi xử lí Penti um 4 vì theo họ bộ vi
xử lí nào có tốc độ cao hơn sẽ chạy hiệu quả hơn, mặc dù điều đó là không phải.
Trong khi đó công nghệ HyperThreading (HT) được giới thiệu vào giai đoạn giữa
của Pentium 4 lại chỉ thành công về khía cạnh … marketing. Lợi ích mà HT đem lại
thấp (và đôi khi còn kém hơn không dùng HT). Trên thực tế, nếu người dùng phổ
thông kích hoạt tính năng “siêu luồng” trên máy tính desktop của mình , họ có thể ch
ng được gì ngoại trừ phải trả giá bằng việc giảm tốc độ tới 10%.Tuy nhiên Pentium 4
không chỉ có những nhược điểm. Với tập lệnh SSE2 và SSE3 cùng những công nghệ
hàng đầu như Quad Data Rate, Trace Cache, Rapid Execution Engine, Dual Channel
Memory, Pentium 4 tỏ ra rất xuất sắc trong các ứng dụng từ văn phòng tới
multimedia. Người dùng các ứng dụng tính toán phức tạp (kiểu như rendering
của Maya, 3DS) sẽ được hưởng lợi rất nhiều từ HyperThreading. Và khi card đồ họa
3D ngày càng trở nên mạnh mẽ, một chip P4 sẽ đem đến nền tảng tuyệt vời cho các
game thủ. Đặc biệt giới overclock rất quan tâm tới nhân Northwood phát hành năm
2002. Với một bo mạch chủ và RAM đủ mạnh, ngay cả những người mới tập
overclock cũng có thể đạt tới 1GHz khi sử dụng giải pháp tản nhiệt thông thường.

Mục Lục

Trường đại học công nghiệp Hà nội...............................................................................1


ĐỀ TÀI.......................................................................................................................... 1
Báo cáo bài tập lớn môn học: Kiến trúc Máy tính..............................................2
Nhóm thực hiện: Nhóm 3–Lớp KTPM3-K9..............................................................2
Giáo viên hướng dẫn: Nguyễn Thanh Hải.................................................................2
 Mở đầu..................................................................................................................... 2
1. Nhiệm vụ của bài..................................................................................................2
2. Bố cục................................................................................................................... 2
 Nội dung................................................................................................................... 3
18
A.Lịch sử phát triển của VXL Pentium IV......................................................................3
*Những điểm kĩ thuật chính của Pentium 4 bao gồm:............................................6
B. Nội dung trọng tâm....................................................................................................7
I. Các công nghệ mới................................................................................................7
1. Hyper-Pipelined Technology - Công nghệ Siêu ống..........................................8
2. Execution Trace Cache......................................................................................8
3. Rapid Execution Engine - Cơ chế thực thi (lệnh) nhanh chóng.........................9
4. Advanced Transfer Cache (ATC).......................................................................9
5. Out-Of-Order Execution....................................................................................9
6. Branch Prediction (phỏng đoán nhánh).............................................................9
7. Rapid Execution Engine..................................................................................10
8. Quad Data Rate................................................................................................10
9. Enhanced Floating Point & Multimedia Unit..................................................10
10. Streaming SIMD Extension 2 (SSE2) Instructions........................................10
11. Hyper Threading (siêu phân luồng)................................................................11
II. CẤU TRÚC, CHỨC NĂNG CÁC BỘ PHẬN....................................................11
*Một số điểm đáng chú ý!!!!................................................................................11
1.Hyper Pipeline...................................................................................................12
2.Bộ Nhớ Đệm......................................................................................................14
3.Bộ giải mã - Decoder.........................................................................................14
4.Allocator và Register Renamer..........................................................................15
5.Scheduler...........................................................................................................16
6.Execution Unit...................................................................................................16
III. Tập Lệnh............................................................................................................17
Khuôn dạng lệnh P4.............................................................................................17
C. KẾT LUẬN.............................................................................................................18

19

You might also like