Xac Sut VS THNG Ke

XÁC SUẤT VS THỐNG
KÊ
PHẠM ĐĂNG QUYẾT

phamdangquyet@gmail.com
GIỚI THIỆU
Xác suất và thống kê (Probability and statistics) là hai ngành học liên quan nhưng riêng biệt
XÁC SUẤT THỐNG KÊ

■ Từ xác suất (probability) bắt nguồn từ ■ Thuật ngữ “thống kê” của tiếng Anh “statistics” có gốc từ
chữ probare trong tiếng Latin và có nghĩa là "để chứng “state” (nghĩa là quốc gia), nguồn gốc La tinh “statisticum
minh, để kiểm chứng". Nói một cách đơn collegium” nghĩa là “hội đồng quốc gia”. Theo tiếng Đức,
giản, probable là một trong nhiều từ dùng để chỉ những “statistik” có nghĩa gốc là “công tác dữ liệu của quốc gia”.
sự kiện hoặc kiến thức chưa chắc chắn, và thường đi ■ Ban đầu, thống kê dùng để diễn tả các hoạt động ghi
kèm với các từ như "có vẻ là", "mạo hiểm", "may rủi", chép số liệu của một quốc gia như dân số, tài sản,
"không chắc chắn" hay "nghi ngờ", tùy vào ngữ cảnh. thuế. Thống kê có thể được cho là đã bắt đầu trong nền
"Cơ hội" (chance), "cá cược" (odds, bet) là những từ cho văn minh cổ xưa, ít nhất là từ cuối thế kỷ thứ 5 TCN,
khái niệm tương tự. nhưng cho đến thế kỷ 18 thì nó mới chịu ảnh hưởng
■ Xác suất chính là một khái niệm được nói đến khi tính nhiều hơn từ số học và lý thuyết xác suất. Xác suất đã
khả năng xác suất xảy ra của các sự kiện, sự vật trong trở thành một trong những công cụ thống kê cơ bản.
tương lai mà khả năng xảy ra những sự kiện này sẽ ■ Thống kê là một phần toán học của khoa học gắn liền với
không có bất kì điều gì có thể dự đoán chính xác được. tập hợp dữ liệu, phân tích, giải thích hoặc thảo luận về
■ Lý thuyết xác suất là ngành toán học chuyên nghiên một vấn đề nào đó, và trình bày dữ liệu. Có thể xem
cứu xác suất đã được phát triển vào thế kỷ 17. Lý thuyết thống kê là một môn khoa học riêng biệt chứ không phải
xác suất biểu diễn các khái niệm xác suất bằng các thuật là một nhánh của toán học, nó chính là một phần của
ngữ hình thức - nghĩa là các thuật ngữ mà có thể xác khoa học dữ liệu. Mục tiêu cuối cùng của nó là chuyển
định một cách độc lập với ý nghĩa của nó. Các thuật ngữ dữ liệu thành kiến thức và hiểu biết về thế giới xung
hình thức này được thao tác bởi các quy luật toán học và quanh chúng ta.
logic, và kết quả thu được sẽ được chuyển dịch trở lại
miền (domain) của bài toán.
GIỚI THIỆU
Xác suất và thống kê (Probability and statistics) là hai ngành học liên quan nhưng riêng biệt
John Wilder Tukey (1915 – 2000) was an

American mathematician best known for development of
the Fast Fourier Transform (FFT) algorithm and box plot
XÁC SUẤT VS THỐNG KÊ
■ Lý thuyết xác suất là ngành toán học chuyên ■ Lý thuyết thống kê liên quan tới những lập luận
nghiên cứu xác suất logic cơ bản giải thích của phương pháp tiếp cận
kết luận thống kê, cũng bao gồm toán thống kê.
■ Thuật ngữ ■ Thuật ngữ
■ NGẪU NHIÊN VÀ XÁC SUẤT ■ TỔNG THỂ VÀ MẪU
■ Một hiện tượng ngẫu nhiên có các kết cục ■ Toàn bộ nhóm các cá thể mà chúng ta muốn có
không thể dự đoán trước nhưng lại có quy luật thông tin về nó được gọi là tổng thể.
phân bố nhất định sau nhiều lần lặp lại thử
nghiệm. ■ Một mẫu là một phần của tổng thể mà thực tế
chúng ta khảo sát để thu thập thông tin.
■ Xác suất của một biến cố là tỉ lệ số lần xuất
hiện biến cố đó sau nhiều lần lặp đi lặp lại thử ■ THAM SỐ VÀ THỐNG KÊ
nghiệm về một hiện tượng ngẫu nhiên.
■ Tham số là một số diễn tả tổng thể. Một tham số
■ KHÔNG GIAN MẪU VÀ BIẾN CỐ là một số cố định, nhưng trong thực tế chúng ta
■ Không gian mẫu S của một hiện tượng ngẫu không biết giá trị của nó.
nhiên là tập hợp của tất cả các kết cục có thể
xảy ra. ■ Thống kê là một số diễn tả mẫu. Giá trị của thống
kê được biết khi chúng ta lấy mẫu, nhưng nó có
■ Biến cố là một kết cục hoặc một tập hợp các thể thay đổi theo từng mẫu. chúng ta thường sử
kết cục của một hiện tượng ngẫu nhiên. Một dụng một thống kê để ước lượng một tham số
biến cố là tập con của không gian mẫu. chưa biết.
■ Thuật ngữ ■ Thuật ngữ
■ MÔ HÌNH XÁC SUẤT ■ THỐNG KÊ MÔ TẢ
■ Sự mô tả một hiện tượng ngẫu nhiên bằng ■ Dữ liệu: Dữ liệu là các con số trong một ngữ
ngôn ngữ toán học gọi là mô hình xác suất. cảnh cụ thể, và chúng ta cần hiểu ngữ cảnh
đó nếu chúng ta muốn làm các con số trở
■ Biến ngẫu nhiên là biến lấy các giá trị bằng nên có nghĩa.
số xác định bởi kết cục của một hiện tượng
ngẫu nhiên. ■ Các biến: Bất kỳ tệp dữ liệu nào cũng đều
chứa các thông tin về một nhóm nào đó của
■ Phân bố xác suất của một biến ngẫu nhiên X các cá thể. Thông tin được tổ chức vào các
cho ta biết các giá trị có thể có của X là gì và biến.
xác suất được tìm cho các giá trị đó như thế
nào. ■ Phân bố của một biến cho chúng ta biết nó
nhận những trị số nào và nhận những trị số
đó bao nhiêu lần.
■ QUY LUẬT SỐ LỚN ■ THỐNG KÊ MÔ TẢ - CÁC PHÂN BỐ
■ Phân bố xác suất chuẩn
■ Trung bình, phương sai và độ lệch
chuẩn của biến ngẫu nhiên
■ Quy luật số lớn chỉ ra rằng trung bình các
giá trị của X trong nhiều lần thử phải tiến gần
đến µ.
■ Quy luật số lớn theo xác suất và thống kê
cho rằng khi kích thước mẫu tăng lên, giá trị
trung bình của nó sẽ gần với mức trung bình
của toàn bộ tổng thể.
■ ĐỊNH LÝ GIỚI HẠN TRUNG TÂM ■ THỐNG KÊ SUY LUẬN – KHOẢNG TIN CẬY
■ Định lý giới hạn trung tâm tuyên bố rằng
đối với n lớn, phân bố mẫu của 𝑥 gần đúng
phân bố Chuẩn N(μ, σ/ 𝑛 ) cho bất kỳ tổng
thể nào với trung bình μ và độ lệch chuẩn
hữu hạn σ.
■
Khi cỡ mẫu được tăng lên, sự phân bố lấy mẫu của trung bình sẽ xấp xỉ phân phối chuẩn. Điều này là đúng
không phân biệt hình dạng phân bố của các giá trị cá thể trong tổng thể.
Xác suất: Tại sao? ■ THỐNG KÊ SUY LUẬN – SAI SÔ CHUẨN
Thống kê không chứng minh bất cứ điều gì ...? Nó

chỉ hiển thị ngoài nghi ngờ hợp lý rằng một cái
gì đó là sai
... Do đó, chúng ta sử dụng xác suất để nêu rõ mức
độ tự tin của mình trong việc chỉ ra một cái gì
đó là sai lầm
■
Xác suất: Tại sao? ■ THỐNG KÊ SUY LUẬN – KIỂM ĐỊNH GIẢ
THUYẾT
Trong thống kê, tôi không thể chứng minh bất
cứ điều gì là đúng, nhưng chỉ cho thấy ngoài
nghi ngờ hợp lý rằng một cái gì đó là sai
Vì vậy, với mỗi tuyên bố này tôi sẽ nói rằng
không có sự khác biệt giữa các trung bình
mẫu và trung bình tổng thể được giả thuyết
■
Xác suất: Tại sao? ■ SUY LUẬN THỐNG KÊ CHO HỒI QUI
Thống kê không chứng minh bất cứ điều gì ...? Nó

chỉ hiển thị ngoài nghi ngờ hợp lý rằng một cái
gì đó là sai
... Do đó, chúng ta sử dụng xác suất để nêu rõ mức
độ tự tin của mình trong việc chỉ ra một cái gì
đó là sai lầm
■
Xác suất có điều kiện ■ SUY LUẬN BAYES
■ Xác suất mà biến cố A xảy ra, cho rằng biến cố ■ Định lý Bayes điều chỉnh các xác suất khi được cho
B đã xảy ra bằng chứng mới theo cách sau đây:
P ( A and B )
P( A | B) 
P( B)
■ H0 đại diện cho một giả thuyết, gọi là một giả thuyết
■ Xác suất tiên nghiệm (prior probability) hay xác không (null hypothesis)
suất vô điều kiện (unconditional probability): là
xác suất của một sự kiện trong điều kiện không ■ P(H0) được gọi là xác suất tiên nghiệm của H0
có tri thức bổ sung cho sự có mặt hay vắng mặt
của nó. ■ P(E|H0) được gọi là xác suất có điều kiện của việc
quan sát thấy bằng chứng E nếu biết rằng giả thuyết
■ Xác suất hậu nghiệm (posterior probability ) H0 là đúng
hay xác suất có điều kiện (conditional
probability): là xác suất của một sự kiện khi biết ■ P(E) được gọi là xác suất biên của E hay bằng chứng:
trước một hay nhiều sự kiện khác xác suất của việc chứng kiến bằng chứng mới E dưới
■ tất cả các giả thuyết loại trừ nhau đôi một.
■ P(H0|E) được gọi là xác suất hậu nghiệm của H0 nếu
biết E
Ý nghĩa của việc kiểm định - Frequentist vs Bayesian ■ Bayes Factor (BF)
■ p-value ■ Bayes Factor tương đương với giá trị p trong thống kê Bayesian.
■ Trong đó, tính t-score cho một mẫu cụ thể từ một phân bố mẫu Hãy hiểu nó một cách toàn diện.
có cỡ mẫu cố định đã được tính. Sau đó, p-values được dự ■ Null hypothesis trong Bayesian giả định phân bố xác suất ∞ chỉ
đoán. Chúng ta có thể giải thích các p-values như (lấy ví dụ
trường hợp p-value = 0,02 cho một phân bố có mean = 100): ở một giá trị cụ thể của một tham số (VD: θ = 0.5) và xác suất
Có 2% xác suất rằng mẫu sẽ có mean = 100. bằng không ở những nơi khác. (M1)
■ Sự giải thích này có một khiếm khuyết là đối với phân phối mẫu ■ Giả thuyết thay thế (alternative hypothesis) là tất cả các giá trị
của các cỡ mẫu khác nhau, thì phải có t-scores khác nhau và từ của θ đều có thể, do đó một đường cong dẹt đại diện cho sự
đó có p-values khác nhau. Nó hoàn toàn vô lý. Một p-value < phân bố này. (M2)
0.05 không đảm bảo rằng giả thuyết null sai hoặc p-values lớn
hơn 5% cũng không đảm bảo là giả thuyết null đúng. ■ Bây giờ, phân phối hậu nghiệm của dữ liệu mới biểu diễn như
hình dưới.
■ Trong bảng A (thể hiện ở bên): thanh trái (M1) là xác suất prior
của null hypothesis.
■ Trong bảng B (hiển thị), thanh bên trái là xác suất posterior của
null hypothesis.
■ Bayes Factor được định nghĩa là tỷ lệ của các posterior
odds/prior odds. Để bác bỏ một giả thiết null, ưu tiên BF <1/10.
Ý nghĩa của việc kiểm định - Frequentist vs Bayesian ■ Khoảng mật độ cao (HDI)
■ Khoảng tin cậy (CI) ■ HDI được hình thành từ phân phối hậu nghiệm sau
khi quan sát dữ liệu mới. Vì HDI là xác suất, HDI 95%
■ Khoảng tin cậy cũng bị khiếm khuyết tương tự. Hơn cho 95% giá trị đáng tin cậy nhất. Nó cũng đảm bảo
nữa vì CI không phải là một sự phân bố xác suất, nên rằng 95% giá trị sẽ nằm trong khoảng này không
không có cách nào để biết những giá trị nào có thể giống như CI.
xảy ra nhất.
■ HDI 95% trong phân phối prior là rộng hơn so với
HDI 95% trong phân phối postorior. Điều này có được
là do độ tin cậy vào HDI tăng lên khi quan sát dữ liệu
mới.
Rủi ro Bayes ■ Quyết định Bayes
■ Định nghĩa : Rủi ro Bayes của hàm quyết định d được ■ Định nghĩa: Nguyên tắc quyết định Bayes là một hàm
định nghĩa là
quyết định d* giảm tối thiểu rủi ro Bayes.
■ Đó là d* thỏa mãn
■ Trong đó kỳ vọng được thực hiện với đối θ.
■ Nếu xác suất phân bố π(θ) là rời rạc, hàm rủi ro có công ■ ở đây:
thức như sau: inf R( , d )  max (lowerR ( , d ))
d d
R( , d )   R( i , d ) ( i )
i
■ Khi phân bố hậu định π(θ|x) là có sẵn, rủi ro Bayes được
viết là
■ Trong đó f(x) là hàm mật độ xác suất biên của X được tìm
thấy từ mật độ xác suất chung của X và θ.
Triết lý trong ứng dụng của xác suất ■ Ứng dụng thống kê
■ Một số nhà thống kê chỉ gán các xác suất cho các biến cố ngẫu ■ “Thống kê ứng dụng” bao gồm thống kê mô tả và các ứng
nhiên, ví dụ, các biến ngẫu nhiên, mà cho kết quả thử nghiệm dụng của thống kê suy luận.
thực hay mang tính lý thuyết; đó là những nhà tần suất học
(frequentist). ■ Thống kê được áp dụng cho một loạt các môn học, bao
gồm cả khoa học tự nhiên và xã hội, chính trị và kinh
■ Một số khác lại gán xác suất với những mệnh đề không chắc doanh.
chắn, tùy theo mức độ chủ quan (personal probability) tin vào
sự đúng đắn của nó. Những người như vậy là các nhà Bayes ■ Các công cụ thống kê cần thiết cho việc phân tích, dự báo
(Bayesian). và đưa ra quyết định dựa trên dữ liệu.
■ Ảnh hưởng chính của lý thuyết xác suất trong cuộc sống hằng ■ Suy luận có các ứng dụng trong trí tuệ nhân tạo và các hệ
ngày đó là việc xác định rủi ro và trong buôn bán hàng hóa.
chuyên gia. Các kỹ thuật suy luận Bayes đã là một phần căn
■ Chính phủ cũng áp dụng các phương pháp xác suất để điều tiết bản của các kỹ thuật nhận dạng mẫu bằng máy tính kể từ
môi trường hay còn gọi là phân tích đường lối. cuối thập kỷ 1950.
■ Trong kinh tế, xác suất đóng góp rất nhiều cho việc tính toán và ■ Gần đây, suy luận Bayes đã trở nên thông dụng trong cộng
đưa ra các giải pháp nghiên cứu thị trường,... đồng phylogenetics; các ứng dụng như BEAST và MrBayes
cho phép ước lượng đồng thời nhiều tham số nhân khẩu
■ Lý thuyết xác suất đóng một vai trò trung tâm trong các thuật học và tiến hóa.
toán machine learning để có thể đưa ra các dự đoán dễ xảy ra
nhất.
Triết lý trong ứng dụng của xác suất ■ Ứng dụng thống kê
■ Phân tích quyết định trong điều kiện không chắc chắn, ví dụ:
■ Rất có thể hoàn cảnh kinh tế khó khăn hiện tại ở Mỹ và Anh sẽ ảnh hưởng đến số lượng các sinh viên đến
du học. Kết quả là lượng sách kỳ vọng bán cho sinh viên sẽ giảm và/hoặc thay đổi bất thường. Giả định bạn
thực hiện 1 vài nghiên cứu thị trường (ví dụ hỏi các đồng nghiệp của mình) về quan điểm của họ để thấy
được ảnh hưởng đó đến hoạt động của công ty bạn. Gợi ý rằng công ty có thể kỳ vọng khoản lợi nhuận
£1.5 triệu nếu số sinh viên đến học (đối với những người mới tham gia trong năm tới) giảm lượng nhỏ,
khoản lợi nhuận £0.5 triệu nếu số sinh viên giảm lượng vừa phải và mất £2 triệu nếu số sinh viên giảm
lượng lớn.
■ Bạn ước tính rằng khả năng có thể xảy ra của các sự kiện này là P(nhỏ)=0.4, P(vừa phải)=0.3, P(lớn )=0.3.
■ Do đó trong khi cây bộ giải pháp trên cho biết lợi nhuận có thể, quan tâm với xác suất thị trường ‘phỏng
đoán tốt nhất’ là quan tâm đối với công ty. Để có khả năng bù đắp này công ty của bạn đang xem xét việc
phân bổ lại năng lực sản xuất bằng việc cho thuê nó cho 1 tổ chức khác.
■ Nếu họ làm điều này, tổn thất tiềm năng của lợi nhuận sẽ không đáng kể như dự kiến ở trên (do thu nhập
cho thuê bổ sung), nhưng nó sẽ hạn chế năng lực sản xuất của công ty, nếu số sinh viên kỳ vọng giảm
không xảy ra.
■ Trong kịch bản này, bạn có lợi nhuận dự kiến £1 triệu nếu số sinh viên giảm 1 lượng nhỏ, lợi nhuận £0.75
triệu nếu số sinh viên giảm lượng vừa phải và mất £0.5 nếu số sinh viên giảm nhiều.
■ Do vậy xây dựng cây tiếp theo như 1 sự kết hợp các cây trước đó:
■ EMVwPI=(0.4)(1.5)+(0.3)(0.75)+(-0.5)(0.3)=0.675(triệu £) – có nghĩa là các EMV tốt nhất được đưa ra cho

mỗi trạng thái tự nhiên sau khi xem xét cả hai đầu ra quyết định (cho thuê hoặc không cho thuê).
■ EMV của thông tin hoàn hảo = EMVwPI – EMV(cho thuê) = 0.675 - 0.475 = 0.2 (triệu £)
■ Ban quản trị công ty quyết định sẽ là thận trọng để chờ đến tháng 9 và khi đó sử dụng dữ liệu về số lượng
sinh viên đăng ký học trong ‘khoảng thời gian bù’, như là chỉ dẫn chỉ định tốt nhất cho việc nhập học thực
tế kỳ vọng của sinh viên.
■ Do đó người ta lập luận rằng khoảng thời gian bù hoạt động trong tháng 9 có vẻ đòi hỏi nhiều năng lực sản
xuất hơn từ công ty và lựa chọn cho thuê trở nên ít hấp dẫn hơn.
■ Ước tính xác suất cho khoảng thời gian bù bận rộn (CP) là P(CP|s1)=0.3, P(CP|s2)=0.2, P(CP|s3)=0.5, trong
đó si (i = 1…3) biểu thị các đầu ra của trạng thái tự nhiên đối với số lượng sinh viên giảm ít, vừa phải và
nhiều tương ứng.
■ Để xem quyết định này ảnh hưởng như thế nào đến bộ giải pháp cho vấn đề, chúng ta cần quay lại và xem
lại cây và xem xét dữ liệu thị trường mới thay đổi giả định trước đó như thế nào trong phân tích của chúng
ta? D1 và D2 đề cập đến quyết định ‘không cho thuê’ và ‘cho thuê’.
■ Phần của cây mới (nút 10, 11 và 5) - được giải quyết trước đó trong thảo luận. Nút 6, 7, 8, và 9 được giải
quyết bằng việc xem xét trật tự logic của quyết định. Chúng ta biết trong ví dụ P(S1|D1) thể hiện xác suất
đầu tiên trên nút 6, tiếp theo sau là P(S2|D1) và P(S3|D1). Đầu ra của sự kiện thứ 2 là tương tự, P(S1|D2),
P(S2|D2) và P(S3|D2). Chúng ta cũng đã xác định xác suất tiếp theo P(CP|s1)=0.3, P(CP|s2)=0.2,
P(CP|s3)=0.5, tại đó trong đó si (i = 1…3) Nói cách khác, chúng ta cần điều chỉnh xác suất tiền định với
thông tin có điều kiện mới này.
■ Điều này có thể đạt được bằng việc sử dụng phiên bản điều chỉnh Bayesian. Xem xét khoảng thời gian bù
bận rộn đầu tiên.
■ Và như vậy đối với nút 8 và nút 9: nút 9 EMV (cho thuê) và nút 8 EMV (không cho thuê):
■ EMV(9) = (0.36)(1) + (0.18)(0.75) + (0.45)(-0.5)
■ EMV(8) = (0.36)(1.5) + (0.18)(0.5) + (0.45)(-2)
■ Tương tự, chúng ta có thể tạo ra xác suất hậu định đối với khoảng thời gian bù không bận rộn
■ Và như vậy đối với nút 6 và nút 7: trong đó nút 7 EMV (cho thuê) và nút 6 EMV (không cho thuê) đối với
khoảng thời gian bù không bận rộn.
■ EMV(7) = (0.42)(1) + (0.36)(0.75) + (0.22)(-0.5)
■ EMV(6) = (0.42)(1.5) + (0.36)(0.5) + (0.22)(-2)
■ Cuối cùng, do nút EMV(10) và EMV(11) đã được xác định trước đó. Do đó khá đơn giản xác định EMV(3),
EMV(4) và EMV(5) và do đó EMV(2)
■ Trong ví dụ, ước tính xác suất có điều kiện (có thể được trình bày như nghiên cứu thị trường mới nói là
thuận lợi hay bất lợi để giới thiệu sản phẩm hay bán sản phẩm) đòi hỏi 1 sự điều chỉnh được thực hiện cho
xác suất tiền định trước đó và trận tự logic của cây quyết định.
■ Điều này được mô tả là phiên bản điều chỉnh Bayesian.

Xac Sut VS THNG Ke

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Xac Sut VS THNG Ke

Uploaded by

Copyright:

Available Formats

XÁC SUẤT VS THỐNG

PHẠM ĐĂNG QUYẾT

XÁC SUẤT THỐNG KÊ

XÁC SUẤT THỐNG KÊ

John Wilder Tukey (1915 – 2000) was an

Thống kê không chứng minh bất cứ điều gì ...? Nó

Thống kê không chứng minh bất cứ điều gì ...? Nó

■ EMVwPI=(0.4)(1.5)+(0.3)(0.75)+(-0.5)(0.3)=0.675(triệu £) – có nghĩa là các EMV tốt nhất được đưa ra cho

You might also like