You are on page 1of 12

Machine Translated by Google 10/1/2023

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP TP.HCM


KHOA KỸ THUẬT HÓA HỌC

Chương 3: PHÂN TÍCH DỮ LIỆU

Võ Thanh Hưởng

01/10/2023 Võ Thanh Hưởng, 0919719697, vothanhhuong@iuh.edu.vn 1

Chương 3. PHÂN TÍCH DỮ LIỆU


3.1. Các loại đại lượng được đo 3.2.
Xu hướng trung tâm của dữ liệu 3.3.
Ước tính tốt nhất về giá trị thực của dữ

liệu 3.4. Các biện pháp phân tán (Lây lan hoặc biến đổi)
3.5. Độ lệch chuẩn của phương tiện mẫu 3.6.
Đánh giá giá trị trung bình mẫu và độ lệch chuẩn bằng phương pháp mã hóa
3.7. Đánh giá giá trị trung bình ước tính tốt nhất và lỗi ít nhất trong nhiều
bộ dữ liệu
Chương
LIỆU
TÍCH
PHÂN
DỮ
3.

01/10/2023 Võ Thanh Hưởng, 0919719697, vothanhhuong@iuh.edu.vn 2

1
Machine Translated by Google 10/1/2023

Mục tiêu chính của bất kỳ thử nghiệm nào là thu thập dữ liệu và xử lý dữ
liệu một cách phù hợp để thu được thông tin/kết luận thực tế hữu ích liên
quan đến đối tượng đang được điều tra. Tuy nhiên, dữ liệu luôn có sự không
chắc chắn do một số yếu tố. Một số trong số này có thể được giảm thiểu hoặc
loại bỏ, trong khi những thứ khác đôi khi vốn có trong nhạc cụ.

Do đó, chúng ta thường phải đối mặt với vấn đề cố gắng tăng thêm lượng
thông tin tối đa từ một nhóm dữ liệu không đưa ra câu trả lời chính xác.

Chương
LIỆU
TÍCH
PHÂN
DỮ
3.

Thông thường, nên tách vỏ trấu ra khỏi hạt. Nói cách khác, chúng tôi cố
gắng ước tính mức độ không chắc chắn trong dữ liệu đã cho. Để làm điều
này, bước đầu tiên là hữu ích để có được một quan điểm rõ ràng về dữ liệu và
bản chất của dữ liệu 'thô'.

01/10/2023 Võ Thanh Hưởng, 0919719697, vothanhhuong@iuh.edu.vn 3

Do đó, dữ liệu thô này được nhóm trong các phạm vi giá trị đo được lựa chọn
thuận tiện khác nhau và tần suất xuất hiện trong các phạm vi đó được xác
định.
Thông thường, người ta thu được biểu đồ của các giá trị đo được so với tần
suất xuất hiện hoặc một tham số liên quan đến tần suất xuất hiện.
Điều này thường đưa ra một mô tả trực quan tốt về dữ liệu, nghĩa là dữ liệu
có xu hướng tự nhóm lại ở một vùng trung tâm hay không, mức độ phân tán
khỏi vùng trung tâm, liệu phân phối có đối xứng hay không, v.v. Do đó phụ
thuộc vào loại và bản chất phân phối của dữ liệu đã cho, phân tích thống kê
Chương
LIỆU
TÍCH
PHÂN
DỮ
3.

phù hợp được sử dụng để giải thích kết quả từ dữ liệu đã cho về mức độ phân
tán, mức độ tin cậy, v.v.

01/10/2023 Võ Thanh Hưởng, 0919719697, vothanhhuong@iuh.edu.vn 4

2
Machine Translated by Google 10/1/2023

3.1. Các loại đại lượng được đo

01/10/2023 Võ Thanh Hưởng, 0919719697, vothanhhuong@iuh.edu.vn 5

Nói chung, chúng ta bắt gặp hai loại đại lượng đo là đại lượng rời rạc và
liên tục. oĐại lượng rời rạc Đại lượng rời rạc là những đại lượng được tạo
thành từ các sự kiện cơ bản có giá trị riêng biệt. Rất thường xuyên, đây là
những số nguyên hoặc số nguyên, nhưng không nhất thiết chúng phải luôn như
vậy. Ví dụ, có thể có 2 đến 3 con trong một gia đình nhưng không phải
là 2,5.

Tương tự như vậy, khi một con súc sắc được tung ra, chúng ta mong muốn
nhận được một giá trị số nguyên trong khoảng từ 1 đến 6, nghĩa là không
lường
lượng
loại
3.1.
Các
đại
Các
đo

thể nhận được giá trị như 4,5. Cách đơn giản nhất để trình bày dữ liệu đó
là sắp xếp dữ liệu theo thứ tự tăng dần và vẽ đồ thị giống như biểu đồ
tần số tuyệt đối (hoặc biểu đồ thanh và đường) với đại lượng đo được là
trục hoành và tần suất xuất hiện là tọa độ. Ngoài ra, thứ tự của biểu đồ
tần suất có thể được tạo thành không có thứ nguyên bằng cách chia tần
suất xuất hiện của sự kiện cho tổng số sự kiện. Biểu đồ như vậy sau đó
được gọi là biểu đồ tần số tương đối.

01/10/2023 Võ Thanh Hưởng, 0919719697, vothanhhuong@iuh.edu.vn 6

3
Machine Translated by Google 10/1/2023

oĐại lượng rời rạc

lường
lượng
loại
3.1.
Các
đại
Các
đo

01/10/2023 Võ Thanh Hưởng, 0919719697, vothanhhuong@iuh.edu.vn 7

oĐại lượng rời rạc


Bài toán: Hai con súc sắc tung 200 lần. Các kết quả sau đây thu được.
Chỉ ra sự phân bố tần số một cách phù hợp bằng sơ đồ.

lường
lượng
loại
3.1.
Các
đại
Các
đo

01/10/2023 Võ Thanh Hưởng, 0919719697, vothanhhuong@iuh.edu.vn 8

số 8

4
Machine Translated by Google 10/1/2023

oĐại lượng rời rạc


Bài toán: Hai con súc sắc tung 200 lần. Các kết quả sau đây thu được.
Chỉ ra sự phân bố tần số một cách phù hợp bằng sơ đồ.

lường
lượng
loại
3.1.
Các
đại
Các
đo

01/10/2023 Võ Thanh Hưởng, 0919719697, vothanhhuong@iuh.edu.vn 9

o Số lượng phân phối liên tục


Đại lượng phân bố liên tục là đại lượng mà các biến cố có thể có giá trị
bất kỳ giữa các giới hạn cho trước. Nói cách khác, chúng ta có thể nói
rằng luôn có thể có một giá trị trung gian giữa hai giá trị điển hình bất
kỳ, bất kể chúng có thể gần nhau đến mức nào. Ví dụ, các ổ bi do một
máy nào đó sản xuất có thể có đường kính bất kỳ giữa giới hạn tối đa và tối
thiểu. Tương tự như vậy, quyền số của tất cả nam giới trong quần thể là
một biến phân phối liên tục. Bất kể hai trọng số được chọn có thể nằm
trong một phạm vi giá trị nhất định nào, giá trị khả thi khác luôn có thể
lường
lượng
loại
3.1.
Các
đại
Các
đo

được xác định giữa chúng.

01/10/2023 Võ Thanh Hưởng, 0919719697, vothanhhuong@iuh.edu.vn 10

10

5
Machine Translated by Google 10/1/2023

Biểu đồ
o Biểu đồ là một màn hình đồ họa của dữ liệu mẫu nói chung là liên tục và
trong đó trục hoành biểu thị các giá trị được ghi và tung độ biểu thị tần
suất xuất hiện trong một phạm vi giá trị đo được xác định. oDo đó, một
phần quan trọng của việc tạo biểu đồ là nhóm quan sát thành các nhóm phù
hợp (còn được gọi là khoảng, lớp hoặc ô) bằng cách chọn ranh giới.

lường
lượng
loại
3.1.
Các
đại
Các
đo

01/10/2023 Võ Thanh Hưởng, 0919719697, vothanhhuong@iuh.edu.vn 11

11

Histogram
oBiểu diễn đồ thị tần suất tuyệt đối của các đại lượng phân bố liên tục

lường
lượng
loại
3.1.
Các
đại
Các
đo

01/10/2023 Võ Thanh Hưởng, 0919719697, vothanhhuong@iuh.edu.vn 12

12

6
Machine Translated by Google 10/1/2023

Histogram
oNormalised Histogram

lường
lượng
loại
3.1.
Các
đại
Các
đo

01/10/2023 Võ Thanh Hưởng, 0919719697, vothanhhuong@iuh.edu.vn 13

13

Histogram
oNormalised Histogram
Chúng ta quyết định nhóm dữ liệu đã cho thành m lớp chẳng hạn, và chọn các
. lớp
giá trị biên của lớp là x0 , x1 , x2 . .xm,
, . khác ra
nhau

trong
tần
như các
suất
f1 ,
khoảng

f2 ., xi
.
thời
., .,
.gian
xảy
fi , . . ., fm, tương ứng. Tổng số lần đo

lường
lượng
loại
3.1.
Các
đại
Các
đo
Tần số tương đối ở lớp thứ i

= /

Chuẩn hóa tần số ở lớp thứ i


=
-

01/10/2023 Võ Thanh Hưởng, 0919719697, vothanhhuong@iuh.edu.vn 14

14

7
Machine Translated by Google 10/1/2023

Histogram
oVí dụ: Vẽ biểu đồ chuẩn hóa của dữ liệu sau

lường
lượng
loại
3.1.
Các
đại
Các
đo

01/10/2023 Võ Thanh Hưởng, 0919719697, vothanhhuong@iuh.edu.vn 15

15

Histogram
oVí dụ: Vẽ biểu đồ chuẩn hóa của dữ liệu sau

lường
lượng
loại
3.1.
Các
đại
Các
đo

01/10/2023 Võ Thanh Hưởng, 0919719697, vothanhhuong@iuh.edu.vn 16

16

số 8
Machine Translated by Google 10/1/2023

Histogram
oVí dụ: Vẽ biểu đồ chuẩn hóa của dữ liệu sau

lường
lượng
loại
3.1.
Các
đại
Các
đo

01/10/2023 Võ Thanh Hưởng, 0919719697, vothanhhuong@iuh.edu.vn 17

17

Histogram
oPhạm vi giá trị:
= -
oTrước khi chúng ta quyết định khoảng lớp, số lớp, ranh giới lớp, v.v., cần
lưu ý những điểm sau để vẽ biểu đồ: 1. khoảng lớp phải chứa tất cả dữ
liệu, 2. thực tế là có ít nhất 6 khoảng thời gian trong lớp nhưng không
quá 16 khoảng thời gian trong lớp, và 3. mỗi phần dữ liệu phải tương ứng
và được tính trong một và chỉ một khoảng thời gian trong lớp.

lường
lượng
loại
3.1.
Các
đại
Các
đo
oĐể thỏa mãn các tiêu chí nêu trên, nhìn chung quy trình sau đây được thực
hiện: Xác định phạm vi giá trị Giá trị của được chia cho một giá trị làm
tròn phù hợp của “khoảng cách lớp” sao cho “số lượng lớp” nằm trong khoảng
từ 6 đến 16. Trong thuận
thực tế,
lợi chúng đượcsogiữ
cho việc nguyên,
sánh vì nó
tần suất tạohiện
xuất điềugiữa
kiệncác
nhóm khác nhau, bằng cách loại bỏ sự cần thiết phải tính đến sự khác biệt
về quy mô khoảng cách giữa các lớp

01/10/2023 Võ Thanh Hưởng, 0919719697, vothanhhuong@iuh.edu.vn 18

18

9
Machine Translated by Google 10/1/2023

Biểu đồ oĐể
đáp ứng các tiêu chí nêu trên, thông thường quy trình sau
được tuân
theo: Sau khi quyết định khoảng cách lớp và số lượng lớp, điểm giữa lớp và
ranh giới lớp được xác định • Điểm giữa lớp hoặc điểm lớp là giá trị của
biến nằm giữa ranh giới lớp trên và lớp dưới. • Bây giờ, một cân nhắc quan
trọng khi xác định các ranh giới lớp khác nhau là không phép đo nào rơi vào
ranh giới để chúng ta có thể dễ dàng xác định một quan sát cụ thể thuộc về
lớp nào. • Do đó, thông thường chúng ta cố định giá trị ranh giới của lớp
lường
lượng
loại
3.1.
Các
đại
Các
đo

thành một chữ số có nghĩa nhiều hơn so với các quan sát. Điều này đảm bảo
rằng không có dữ liệu nào trùng với ranh giới.

01/10/2023 Võ Thanh Hưởng, 0919719697, vothanhhuong@iuh.edu.vn 19

19

Biểu đồ oĐể
đáp ứng các tiêu chí nêu trên, thông thường quy trình sau
được thực
hiện như sau: Sau đó, dữ liệu thô được nhóm thành các lớp được chọn khác nhau.
Điều này được thực hiện tốt nhất bằng cách sử dụng bảng kiểm đếm hoặc bảng
điểm. • Số quan sát nằm trong giới hạn của một lớp cụ thể được gọi là tần
suất của lớp.
Cuối cùng, sơ đồ hình ảnh biểu thị tần số lớp/tần số tương đối hoặc tỷ lệ
phần trăm của tần số theo thứ tự đối với các lớp khác nhau là trục hoành, được
lường
lượng
loại
3.1.
Các
đại
Các
đo

gọi là tần số tuyệt đối/tần số tương đối hoặc biểu đồ tần số phần trăm, tương
ứng, tùy thuộc vào kích thước của các giá trị tần số được sử dụng để biểu diễn
tọa độ được vẽ.

01/10/2023 Võ Thanh Hưởng, 0919719697, vothanhhuong@iuh.edu.vn 20

20

10
Machine Translated by Google 10/1/2023

Biểu đồ
oMột cách khác để mô tả biểu đồ phân bố tần suất là vẽ đa giác tần suất. o
Điều này có được bằng cách vẽ đồ thị các tần số lớp khác nhau so với các
điểm giữa của lớp. o Ngoài ra, nó thu được bằng cách nối các điểm giữa của
các thanh tần số của biểu đồ tần số tuyệt đối bằng một đường cong trơn.

lường
lượng
loại
3.1.
Các
đại
Các
đo

01/10/2023 Võ Thanh Hưởng, 0919719697, vothanhhuong@iuh.edu.vn 21

21

Histogram
oNgoài ra, phân phối tần suất có thể được biểu diễn bằng các điểm giữa tích
lũy so với lớp. Một đường cong như vậy được gọi là ogive. oCó thể vẽ một
ogive để thể hiện tần suất xuất hiện dưới dạng phân bố tần suất tích lũy
“nhiều hơn” hoặc “nhỏ hơn”.

lường
lượng
loại
3.1.
Các
đại
Các
đo

01/10/2023 Võ Thanh Hưởng, 0919719697, vothanhhuong@iuh.edu.vn 22

22

11
Machine Translated by Google 10/1/2023

Ví dụ: Một nhà chế tạo thép đã kiểm tra độ bền của một loại mối nối tán
đinh cụ thể. Bảng sau đây cho biết độ bền tính bằng kN của một mẫu gồm 100
mối nối. Chọn khoảng lớp phù hợp/số lượng lớp và oXây dựng dữ liệu nhóm thể
hiện ranh giới lớp, nhãn hiệu lớp, tần số tương đối và tần số chuẩn hóa
oBiểu diễn dữ liệu dưới dạng biểu đồ tần số số, oVẽ đa giác tần số theo
tần số tương đối, oVẽ một biểu đồ được chuẩn hóa, o Vẽ một đường cong ogive
biểu thị % nhỏ hơn tần số tích lũy.

1447 1478 1469 1446 1433 1469 1478 1447 1426 1469 chúng
lường
lượng
loại
3.1.
Các
đại
Các
đo

1470 1484.4 1449 1436 1468 1482 1448 1441 1469.5 1481
1453 1442.5 1474 1430.5 1453 1436.5 1471 1480.5 1449
1437 1475 1480.5 1449 1474.5 1488 1417 1471 1491 1423.5
1471 1492 1439 1486 1457 1449.5 1457 1489 1457 1441 1494
1513 1458 1505.5 1495 1458.5 1464 1496 1464.5 1499 1461
1501 1464 1456 1459 1457.5 1459 1459 1461.5 1456 1461
1465 1461 1461.5 1462 1465 1463.5 1470 1466 1469 1466
01/10/2023 Võ Thanh Hưởng, 0919719697, vothanhhuong@iuh.edu.vn 23

23

12

You might also like