Professional Documents
Culture Documents
Xac Sut VS THNG Ke
Xac Sut VS THNG Ke
KÊ
■
Khi cỡ mẫu được tăng lên, sự phân bố lấy mẫu của trung bình sẽ xấp xỉ phân phối chuẩn. Điều này là đúng
không phân biệt hình dạng phân bố của các giá trị cá thể trong tổng thể.
XÁC SUẤT VS THỐNG KÊ
XÁC SUẤT THỐNG KÊ
Xác suất: Tại sao? ■ THỐNG KÊ SUY LUẬN – SAI SÔ CHUẨN
■
XÁC SUẤT VS THỐNG KÊ
XÁC SUẤT THỐNG KÊ
Xác suất: Tại sao? ■ THỐNG KÊ SUY LUẬN – KIỂM ĐỊNH GIẢ
THUYẾT
Trong thống kê, tôi không thể chứng minh bất
cứ điều gì là đúng, nhưng chỉ cho thấy ngoài
nghi ngờ hợp lý rằng một cái gì đó là sai
Vì vậy, với mỗi tuyên bố này tôi sẽ nói rằng
không có sự khác biệt giữa các trung bình
mẫu và trung bình tổng thể được giả thuyết
■
XÁC SUẤT VS THỐNG KÊ
XÁC SUẤT THỐNG KÊ
Xác suất: Tại sao? ■ SUY LUẬN THỐNG KÊ CHO HỒI QUI
■
XÁC SUẤT VS THỐNG KÊ
XÁC SUẤT THỐNG KÊ
Xác suất có điều kiện ■ SUY LUẬN BAYES
■ Xác suất mà biến cố A xảy ra, cho rằng biến cố ■ Định lý Bayes điều chỉnh các xác suất khi được cho
B đã xảy ra bằng chứng mới theo cách sau đây:
P ( A and B )
P( A | B)
P( B)
■ H0 đại diện cho một giả thuyết, gọi là một giả thuyết
■ Xác suất tiên nghiệm (prior probability) hay xác không (null hypothesis)
suất vô điều kiện (unconditional probability): là
xác suất của một sự kiện trong điều kiện không ■ P(H0) được gọi là xác suất tiên nghiệm của H0
có tri thức bổ sung cho sự có mặt hay vắng mặt
của nó. ■ P(E|H0) được gọi là xác suất có điều kiện của việc
quan sát thấy bằng chứng E nếu biết rằng giả thuyết
■ Xác suất hậu nghiệm (posterior probability ) H0 là đúng
hay xác suất có điều kiện (conditional
probability): là xác suất của một sự kiện khi biết ■ P(E) được gọi là xác suất biên của E hay bằng chứng:
trước một hay nhiều sự kiện khác xác suất của việc chứng kiến bằng chứng mới E dưới
■ tất cả các giả thuyết loại trừ nhau đôi một.
■ P(H0|E) được gọi là xác suất hậu nghiệm của H0 nếu
biết E
XÁC SUẤT VS THỐNG KÊ
XÁC SUẤT THỐNG KÊ
Ý nghĩa của việc kiểm định - Frequentist vs Bayesian ■ Bayes Factor (BF)
■ p-value ■ Bayes Factor tương đương với giá trị p trong thống kê Bayesian.
■ Trong đó, tính t-score cho một mẫu cụ thể từ một phân bố mẫu Hãy hiểu nó một cách toàn diện.
có cỡ mẫu cố định đã được tính. Sau đó, p-values được dự ■ Null hypothesis trong Bayesian giả định phân bố xác suất ∞ chỉ
đoán. Chúng ta có thể giải thích các p-values như (lấy ví dụ
trường hợp p-value = 0,02 cho một phân bố có mean = 100): ở một giá trị cụ thể của một tham số (VD: θ = 0.5) và xác suất
Có 2% xác suất rằng mẫu sẽ có mean = 100. bằng không ở những nơi khác. (M1)
■ Sự giải thích này có một khiếm khuyết là đối với phân phối mẫu ■ Giả thuyết thay thế (alternative hypothesis) là tất cả các giá trị
của các cỡ mẫu khác nhau, thì phải có t-scores khác nhau và từ của θ đều có thể, do đó một đường cong dẹt đại diện cho sự
đó có p-values khác nhau. Nó hoàn toàn vô lý. Một p-value < phân bố này. (M2)
0.05 không đảm bảo rằng giả thuyết null sai hoặc p-values lớn
hơn 5% cũng không đảm bảo là giả thuyết null đúng. ■ Bây giờ, phân phối hậu nghiệm của dữ liệu mới biểu diễn như
hình dưới.
■ Trong bảng A (thể hiện ở bên): thanh trái (M1) là xác suất prior
của null hypothesis.
■ Trong bảng B (hiển thị), thanh bên trái là xác suất posterior của
null hypothesis.
■ Bayes Factor được định nghĩa là tỷ lệ của các posterior
odds/prior odds. Để bác bỏ một giả thiết null, ưu tiên BF <1/10.
XÁC SUẤT VS THỐNG KÊ
XÁC SUẤT THỐNG KÊ
Ý nghĩa của việc kiểm định - Frequentist vs Bayesian ■ Khoảng mật độ cao (HDI)
■ Khoảng tin cậy (CI) ■ HDI được hình thành từ phân phối hậu nghiệm sau
khi quan sát dữ liệu mới. Vì HDI là xác suất, HDI 95%
■ Khoảng tin cậy cũng bị khiếm khuyết tương tự. Hơn cho 95% giá trị đáng tin cậy nhất. Nó cũng đảm bảo
nữa vì CI không phải là một sự phân bố xác suất, nên rằng 95% giá trị sẽ nằm trong khoảng này không
không có cách nào để biết những giá trị nào có thể giống như CI.
xảy ra nhất.
■ HDI 95% trong phân phối prior là rộng hơn so với
HDI 95% trong phân phối postorior. Điều này có được
là do độ tin cậy vào HDI tăng lên khi quan sát dữ liệu
mới.
XÁC SUẤT VS THỐNG KÊ
XÁC SUẤT THỐNG KÊ
Rủi ro Bayes ■ Quyết định Bayes
■ Định nghĩa : Rủi ro Bayes của hàm quyết định d được ■ Định nghĩa: Nguyên tắc quyết định Bayes là một hàm
định nghĩa là
quyết định d* giảm tối thiểu rủi ro Bayes.
■ Đó là d* thỏa mãn
■ Trong đó kỳ vọng được thực hiện với đối θ.
■ Nếu xác suất phân bố π(θ) là rời rạc, hàm rủi ro có công ■ ở đây:
thức như sau: inf R( , d ) max (lowerR ( , d ))
d d
R( , d ) R( i , d ) ( i )
i
■ Khi phân bố hậu định π(θ|x) là có sẵn, rủi ro Bayes được
viết là
■ Trong đó f(x) là hàm mật độ xác suất biên của X được tìm
thấy từ mật độ xác suất chung của X và θ.
XÁC SUẤT VS THỐNG KÊ
XÁC SUẤT THỐNG KÊ
Triết lý trong ứng dụng của xác suất ■ Ứng dụng thống kê
■ Một số nhà thống kê chỉ gán các xác suất cho các biến cố ngẫu ■ “Thống kê ứng dụng” bao gồm thống kê mô tả và các ứng
nhiên, ví dụ, các biến ngẫu nhiên, mà cho kết quả thử nghiệm dụng của thống kê suy luận.
thực hay mang tính lý thuyết; đó là những nhà tần suất học
(frequentist). ■ Thống kê được áp dụng cho một loạt các môn học, bao
gồm cả khoa học tự nhiên và xã hội, chính trị và kinh
■ Một số khác lại gán xác suất với những mệnh đề không chắc doanh.
chắn, tùy theo mức độ chủ quan (personal probability) tin vào
sự đúng đắn của nó. Những người như vậy là các nhà Bayes ■ Các công cụ thống kê cần thiết cho việc phân tích, dự báo
(Bayesian). và đưa ra quyết định dựa trên dữ liệu.
■ Ảnh hưởng chính của lý thuyết xác suất trong cuộc sống hằng ■ Suy luận có các ứng dụng trong trí tuệ nhân tạo và các hệ
ngày đó là việc xác định rủi ro và trong buôn bán hàng hóa.
chuyên gia. Các kỹ thuật suy luận Bayes đã là một phần căn
■ Chính phủ cũng áp dụng các phương pháp xác suất để điều tiết bản của các kỹ thuật nhận dạng mẫu bằng máy tính kể từ
môi trường hay còn gọi là phân tích đường lối. cuối thập kỷ 1950.
■ Trong kinh tế, xác suất đóng góp rất nhiều cho việc tính toán và ■ Gần đây, suy luận Bayes đã trở nên thông dụng trong cộng
đưa ra các giải pháp nghiên cứu thị trường,... đồng phylogenetics; các ứng dụng như BEAST và MrBayes
cho phép ước lượng đồng thời nhiều tham số nhân khẩu
■ Lý thuyết xác suất đóng một vai trò trung tâm trong các thuật học và tiến hóa.
toán machine learning để có thể đưa ra các dự đoán dễ xảy ra
nhất.
XÁC SUẤT VS THỐNG KÊ
XÁC SUẤT THỐNG KÊ
Triết lý trong ứng dụng của xác suất ■ Ứng dụng thống kê
XÁC SUẤT VS THỐNG KÊ
■ Phân tích quyết định trong điều kiện không chắc chắn, ví dụ:
■ Rất có thể hoàn cảnh kinh tế khó khăn hiện tại ở Mỹ và Anh sẽ ảnh hưởng đến số lượng các sinh viên đến
du học. Kết quả là lượng sách kỳ vọng bán cho sinh viên sẽ giảm và/hoặc thay đổi bất thường. Giả định bạn
thực hiện 1 vài nghiên cứu thị trường (ví dụ hỏi các đồng nghiệp của mình) về quan điểm của họ để thấy
được ảnh hưởng đó đến hoạt động của công ty bạn. Gợi ý rằng công ty có thể kỳ vọng khoản lợi nhuận
£1.5 triệu nếu số sinh viên đến học (đối với những người mới tham gia trong năm tới) giảm lượng nhỏ,
khoản lợi nhuận £0.5 triệu nếu số sinh viên giảm lượng vừa phải và mất £2 triệu nếu số sinh viên giảm
lượng lớn.
■ Bạn ước tính rằng khả năng có thể xảy ra của các sự kiện này là P(nhỏ)=0.4, P(vừa phải)=0.3, P(lớn )=0.3.
XÁC SUẤT VS THỐNG KÊ
■ Phân tích quyết định trong điều kiện không chắc chắn, ví dụ:
■ Do đó trong khi cây bộ giải pháp trên cho biết lợi nhuận có thể, quan tâm với xác suất thị trường ‘phỏng
đoán tốt nhất’ là quan tâm đối với công ty. Để có khả năng bù đắp này công ty của bạn đang xem xét việc
phân bổ lại năng lực sản xuất bằng việc cho thuê nó cho 1 tổ chức khác.
■ Nếu họ làm điều này, tổn thất tiềm năng của lợi nhuận sẽ không đáng kể như dự kiến ở trên (do thu nhập
cho thuê bổ sung), nhưng nó sẽ hạn chế năng lực sản xuất của công ty, nếu số sinh viên kỳ vọng giảm
không xảy ra.
■ Trong kịch bản này, bạn có lợi nhuận dự kiến £1 triệu nếu số sinh viên giảm 1 lượng nhỏ, lợi nhuận £0.75
triệu nếu số sinh viên giảm lượng vừa phải và mất £0.5 nếu số sinh viên giảm nhiều.
XÁC SUẤT VS THỐNG KÊ
■ Phân tích quyết định trong điều kiện không chắc chắn, ví dụ:
■ Do vậy xây dựng cây tiếp theo như 1 sự kết hợp các cây trước đó: