You are on page 1of 28

Chương 7 :

PHÂN BỐ XÁC SUẤT


Xác suất được sử dụng cho nhiều thứ hơn là tính toán khả năng xảy ra của một sự
kiện, nó có thể tóm tắt khả năng của tất cả các kết quả có thể xảy ra .
Một thứ được quan tâm trong xác suất được gọi là biến ngẫu nhiên và mối quan hệ
giữa kết quả có thể xảy ra đối với một biến ngẫu nhiên được gọi là phân phối xác
suất.
Cấu trúc và kiểu phân phối xác suất khác nhau dựa trên các thuộc tính của biến
ngẫu nhiên, chẳng hạn như liên tục hoặc rời rạc .
Trong hướng dẫn này , bạn sẽ biết :
· Các biến ngẫu nhiên trong xác suất có miền xác định và có thể liên tục hoặc
rời rạc.
· Phân phối xác suất là mối quan hệ giữa các giá trị có thể có và xác suất cho
một biến ngẫu nhiên
· Mật độ xác suất hoặc các hàm khối lượng ánh xạ ,các hàm phân phối tích
lũy

7.1 Hướng dẫn tổng quan : được chia làm 4 phần

1 . Biến ngẫu nhiên


2. Phân phối xác suất
3. Phân phối xác suất rời rạc
4. Phân phối xác suất liên tục

7.2 Biến ngẫu nhiên:


Biến ngẫu nhiên là một đại lượng được tạo ra một cách ngẫu nhiên .Một
biến ngẫu nhiên thường được biểu thị là một chữ cái viết hoa.
ví dụ : X và các giá trị của ngẫu nhiên của đồng tiền có mặt sấp và ngửa

Các giá trị mà một biến ngẫu nhiên có thể nhận được gọi là miền của một
biến ngẫu nhiên ,biến có thể rời rạc hoặc liên tục.
a. Biến ngẫu nhiên rời rạc
Một biến ngẫu nhiên rời rạc có một tập hợp hữu hạn các trạng thái:
ví dụ : màu sắc của một chiếc ô tô hay tung một đông xu
Biến ngẫu nhiên rời rạc Giá trị là tập hợp hữu hạn các trạng thái.

b. Biến ngẫu nhiên liên tục :


Một biến ngẫu nhiên liên tục có một loạt các giá trị số: for
ví dụ: chiều cao của con người , cân nặng

Biến ngẫu nhiên liên tục: là một loạt các số có giá trị thực giá trị
Ngoài ra : Biến ngẫu nhiên Boolean. Giá trị là từ tập {true, false}

7.3 Phân Phối Xác Suất


Phân phối xác suất là xác suất các giá trị có thể có của một ngẫu nhiên biến
đổi. Hai tính chất quan trọng của phân phối xác suất
+ Giá trị kỳ vọng
+ Phương sai
a. Giá trị kỳ vọng: Giá trị trung bình của một biến ngẫu nhiên
Giá trị trung bình hoặc giá trị trung bình của một biến ngẫu nhiên X. Đây là
giá trị có khả năng xảy ra nhất hoặc kết quả với xác suất cao nhất. Nó thường được
biểu thị là một hàm của chữ hoặc chữ E với dấu ngoặc vuông
ví dụ: E [X] cho giá trị mong đợi của X hoặc E [f (x)]

trong đó:
hàm f () được sử dụng để lấy mẫu một giá trị từ miền của X
b. Phương sai: Mức chênh lệch trung bình của các giá trị xung quanh giá trị kỳ
vọng
Phương sai là mức chênh lệch của các giá trị của một biến ngẫu nhiên so với giá
trị trung bình. Thường là được ký hiệu là một hàm Var;
ví dụ : Var (X) là phương sai của biến ngẫu nhiên X hoặc Var (f (x)) cho
phương sai của các giá trị được rút ra từ miền của X bằng cách sử dụng hàm f ()
7.4 Phân phối xác suất rời rạc

Phân phối xác suất rời rạc tóm tắt các xác suất cho một biến ngẫu nhiên rời rạc.
Hàm khối lượng xác suất, hoặc PMF, xác định phân phối xác suất cho một biến ngẫu
nhiên. Nó là một hàm gán xác suất cho các giá trị rời rạc cụ thể. Rời rạc phân phối xác
suất có hàm phân phối tích lũy, hoặc CDF. Đây là một chức năng ấn định xác suất để một
biến ngẫu nhiên rời rạc có giá trị nhỏ hơn hoặc bằng giá trị rời rạc cụ thể.

Chức năng hàm khối xác suất. Xác suất cho một giá trị của một biến ngẫu nhiên rời rạc.

Chức năng phân phối tích lũy. Xác suất nhỏ hơn hoặc bằng một giá trị đối với biến
ngẫu nhiên.

Các giá trị của biến ngẫu nhiên có thể có hoặc không theo thứ tự, nghĩa là chúng có
thể hoặc có thể không được sắp xếp trên một dãy số, ví dụ: đếm có thể, màu xe không
thể. Trong trường hợp này, cấu trúc của PMF và CDF có thể không liên tục, hoặc có thể
không tạo thành một quá trình chuyển đổi gọn gàng hoặc rõ ràng trong tương đối xác suất
trên các giá trị. Giá trị mong đợi cho một biến ngẫu nhiên rời rạc có thể được tính toán từ
một mẫu sử dụng chế độ, ví dụ: tìm giá trị chung nhất. Tổng các xác suất trong PMF
bằng một. Một số ví dụ về phân phối xác suất rời rạc nổi tiếng bao gồm:

· Bernoulli và phân phối nhị thức.


· Phân phối đa thức và đa thức.
· Phân phối Poisson.

Một số ví dụ về các miền phổ biến với các phân phối xác suất rời rạc nổi tiếng bao gồm:

· Xác suất của các cuộn xúc xắc tạo thành một phân bố đồng đều rời rạc.
· Xác suất của việc lật đồng xu tạo thành một phân phối Bernoulli.
· Xác suất màu xe tạo thành một phân phối đa thức.
· Chúng ta sẽ xem xét kỹ hơn các phân phối xác suất rời rạc trong Chương 8.

7.5 Phân phối xác suất liên tục

Phân phối xác suất liên tục tóm tắt xác suất cho một ngẫu nhiên liên tục biến đổi.
Hàm phân phối xác suất, hoặc PDF, xác định phân phối xác suất cho một biến ngẫu nhiên
liên tục. Lưu ý sự khác biệt trong tên từ ngẫu nhiên rời rạc biến có hàm khối lượng xác
suất hoặc PMF. Giống như một phân phối xác suất rời rạc, phân phối xác suất liên tục
cũng có hàm phân phối tích lũy, hoặc CDF, xác định xác suất của một giá trị nhỏ hơn
hoặc bằng một giá trị số cụ thể từ miền.

Hàm phân phối xác suất. Xác suất cho một giá trị cho một ngẫu nhiên liên tục Biến đổi.

Chức năng phân phối tích lũy. Xác suất nhỏ hơn hoặc bằng một giá trị đối với biến
ngẫu nhiên.

Phân phối xác suất liên tục là một chức năng liên tục, cấu trúc tạo thành một đường cong
mượt mà. Một số ví dụ về nổi tiếng phân phối xác suất liên tục bao gồm:

· Phân phối chuẩn hoặc Gaussian.


· Phân phối hàm mũ.
· Phân phối Pareto.
Một số ví dụ về các miền có phân phối xác suất liên tục nổi tiếng bao gồm:

· Xác suất chiều cao của con người tạo thành một phân phối Chuẩn.
· Khả năng phim ăn khách hình thành nên quy luật quyền lực.
· Xác suất của các mức thu nhập tạo thành phân phối Pareto.

Chúng ta sẽ xem xét kỹ hơn các phân phối xác suất liên tục trong Chương 9.

7.6 Đọc thêm

Phần này cung cấp nhiều tài nguyên hơn về chủ đề nếu bạn muốn đi sâu hơn.

7.6.1 Sách

· Probability Theory: The Logic of Science, 2003.

https://amzn.to/2lnW2pp

· Introduction to Probability, 2nd edition, 2019.

https://amzn.to/2xPvobK

· Probability: For the Enthusiastic Beginner, 2016.

https://amzn.to/2jULJsu

7.6.2 Bài báo

· Random variable, Wikipedia.

https://en.wikipedia.org/wiki/Random_variable

· Moment (mathematics), Wikipedia.

https://en.wikipedia.org/wiki/Moment_(mathematics)

· Probability distribution, Wikipedia.

https://en.wikipedia.org/wiki/Probability_distribution
· List of probability distributions, Wikipedia.

https://en.wikipedia.org/wiki/List_of_probability_distributions

7.7 Tóm tắt

Trong hướng dẫn này, bạn đã khám phá ra một giới thiệu nhẹ nhàng về phân phối xác
suất. Đặc biệt, bạn đã học:

· Các biến ngẫu nhiên trong xác suất có miền xác định và có thể liên tục hoặc rời
rạc.
· Phân phối xác suất tóm tắt mối quan hệ giữa các giá trị có thể có và xác suất cho
một biến ngẫu nhiên.
· Mật độ xác suất hoặc hàm khối lượng ánh xạ các giá trị với xác suất và phân phối
tích lũy các hàm tion ánh xạ các kết quả nhỏ hơn hoặc bằng một giá trị cho một
xác suất.

7.7.1 Tiếp theo

Trong hướng dẫn tiếp theo, bạn sẽ khám phá cách lấy mẫu và sử dụng các phân phối xác
suất rời rạc.

8.5 Phân phối Multinoulli


Phân phối Multinoulli, còn được gọi là phân phối phân loại, bao gồm trường
hợp một sự kiện sẽ có một trong K kết quả có thể xảy ra.
x∈{1,2,3,···,K}
Phân phối có thể được tóm tắt với p biến từ p1 đến pK, mỗi biến xác định
xác suất của một kết quả phân loại nhất định từ 1 đến K và trong đó tổng tất cả các
xác suất bằng 1.
P (x = 1) = p1
P (x = 2) = p1
P (x = 3) = p3
···
P (x = K) = pK
vd:
Một lần tung xúc xắc sẽ có kết quả là 1 trong : {1; 2; 3; 4; 5; 6} K = 6.
è Trong trường hợp tung xúc xắc, xác suất cho mỗi giá trị sẽ là 1/6, hoặc
khoảng 0,166 hoặc khoảng 16,6%.

8.6 Phân phối đa thức (Multinomial)


Việc lặp lại nhiều phép thử Multinoulli độc lập sẽ tuân theo một phân phối
đa thức. Phân phối Multinomial là một tổng quát của phân phối nhị thức cho một
biến rời rạc với K kết quả.

èPhân phối Multinomial như bao gồm một chuỗi các cuộn xúc xắc độc lập.
Phân phối Multinomial được tóm tắt bởi một biến ngẫu nhiên rời rạc với K kết quả,
xác suất cho mỗi kết quả từ p1 đến pK và n lần thử liên tiếp .
vd
Có 3 loại (K = 3) với xác suất (p = 33,33%) và 100 lần thử nghiệm.
è Chúng ta sử dụng hàm NumPy đa thức () để mô phỏng 100 thử nghiệm
độc lập và tóm tắt số lần sự kiện đó dẫn đến mỗi danh mục nhất định. Hàm nhận cả
số lần thử nghiệm và xác suất cho mỗi danh mục dưới dạng danh sách.
Code:
Mô phỏng một quy trình đa thức từ numpy.random nhập đa thức
# ví dụ về mô phỏng một quy trình đa thức
from numpy.random import multinomial
# xác định các tham số của phân phối
p = [1.0/3.0, 1.0/3.0, 1.0/3.0]
k = 100
# run a single simulation
cases = multinomial(k, p)
for i in range(len(cases)):
print('Case %d: %d' % (i+1, cases[i]))
Chúng ta sẽ được mỗi case có kết quả là khoảng 33 . Chạy ví dụ báo cáo từng
trường hợp và số lượng sự kiện. Một chuỗi 100 lần thử nghiệm ngẫu nhiên khác
nhau sẽ cho kết quả mỗi lần mã được chạy, vì vậy kết quả cụ thể mỗi lần chạy sẽ
khác nhau.
Chúng ta có thể mong đợi trường hợp lý tưởng gồm 100 thử nghiệm sẽ dẫn
đến 33 trường hợp, 33 và 34 trường hợp cho các sự kiện 1, 2 và 3 tương ứng.
Có thể tính toán xác suất của sự kết hợp cụ thể này xảy ra trong thực tế bằng
cách sử dụng hàm khối lượng xác suất hoặc hàm multinomial.pmf () SciPy.
#tính xác suất cho một số sự kiện nhất định của mỗi loại
from scipy.stats import multinomial
# xác định các tham số của phân phối
p = [1.0/3.0, 1.0/3.0, 1.0/3.0]
k = 100
# xác định phân phối
dist = multinomial(k, p)
#xác định một số kết quả cụ thể từ 100 thử nghiệm
cases = [33, 33, 34]
# tính xác suất cho trường hợp
pr = dist.pmf(cases)
# print as a percentage
print('Case=%s, Probability: %.3f%%' % (cases, pr*100))

Việc chạy ví dụ báo cáo xác suất nhỏ hơn 1% đối với số lượng lý tưởng là [33, 33,
34] cho mỗi lần xuất hiện .

9.1 The Problem of Automatic Speech Recognition(Nhận dạng lời nói tự động)
Trong xử lý ngôn ngữ tự nhiên, bài toán trong việc tương tác giữa người và máy
móc luôn được quan tâm đặc biệt. Một hệ thống đối thoại qua lời nói (Spoken
Dialog System) là một hệ thống máy tính có khả năng giao tiếp với một người qua
giọng nói. SDS có 2 thành phần chính mà không có trong một hệ thống đối thoại
qua văn bản:

 Một bộ nhận dạng lời nói.


 Một mô-đun chuyển từ văn bản đến lời nói.

Một trong những thách thức quan trọng nhất phải đối mặt trong SDS là vấn đề
hiểu được lời nói. Khi đó, hệ thống nhận dạng lời nói tự động (ASR) sẽ tham gia
vào dịch tín hiệu lời nói thành một tập những lệnh mà hệ thống có thể hiểu được.

Mục đích của hệ thống ASR là để thu được thứ tự từ khả dĩ nhất được cho bởi tín
hiệu âm thanh phát ra từ người nói. Đầu tiên, tín hiệu âm thanh được xử lý bằng
việc trích xuất thông tin liên quan và nhận một chuỗi những quan sát âm thanh x ̅ =
x1, x2, ..., xT với t từ 1 đến T. Tiếp theo, bộ giải mã có được những chuỗi từ liên kết
với các đại diện âm thanh được cung cấp. 

9.2 Building a Speech Recognition System(Xây dựng hệ thống nhận diện giọng
nói)

Phát triển một hệ thống nhận dạng giọng nói chất lượng cao thực sự là một bài
toán khó. Khó khăn của công nghệ nhận dạng giọng nói có thể được mô tả chung
theo một số khía cạnh như được thảo luận dưới đây:

 Kích thước của từ vựng: ảnh hưởng đến sự dễ dàng của việc phát triển một
ASR.(kích thước từ vựng càng lớn thì việc nhận dạng càng khó.)

 Đặc điểm của channel - Chất lượng chanel cũng là một yếu tố quan trọng. Ví
dụ, lời nói của con người có băng thông cao với dải tần đầy đủ, trong khi lời
nói qua điện thoại bao gồm băng thông thấp với dải tần hạn chế. Lưu ý rằng
nó khó hơn trong phần sau.

 Chế độ nói - Việc phát triển ASR dễ dàng cũng phụ thuộc vào chế độ nói, đó
là liệu bài phát biểu có ở chế độ từ riêng biệt, hoặc chế độ từ được kết nối
hay ở chế độ nói liên tục. Lưu ý rằng một bài phát biểu liên tục khó nhận ra
hơn.
 Phong cách nói - Bài phát biểu được đọc có thể theo phong cách trang
trọng, hoặc tự phát và đối thoại với phong cách bình thường. Cái sau khó
nhận ra hơn.

 Sự phụ thuộc người nói - Lời nói có thể phụ thuộc vào người nói, sự thích
ứng của người nói hoặc độc lập với người nói. Rất khó nhất để xây dựng
một diễn giả độc lập

 Loại tiếng ồn - Tiếng ồn là một yếu tố khác cần xem xét khi phát triển ASR.
Tỷ lệ tín hiệu trên tiếng ồn có thể nằm trong nhiều phạm vi khác nhau, tùy
thuộc vào môi trường âm thanh quan sát ít hơn so với nhiều tiếng ồn xung
quanh 
- Nếu tỷ lệ tín hiệu trên nhiễu lớn hơn 30dB, nó được coi là dải cao
- Nếu tỷ lệ tín hiệu trên nhiễu nằm trong khoảng từ 30dB đến 10db, nó được
coi là SNR trung bình
- Nếu tỷ lệ tín hiệu trên nhiễu nhỏ hơn 10 dB, nó được coi là dải tần thấp

 Đặc điểm của micrô - Chất lượng của micrô có thể tốt, trung bình hoặc dưới
trung bình. Ngoài ra, khoảng cách giữa miệng và micro phone có thể khác
nhau. Các yếu tố này cũng cần được xem xét đối với hệ thống công nhận.

9.3 The Decision Processes in ASR(Quá trình xử lí trong hệ thống nhận diện
giọng nói)
Mô Hình Markov ẩn:
Mô hình Markov ẩn (HMM) là mô hình thống kê trong đó hệ thống được mô hình
hóa được cho là mộ t quá trình Markov với các tham số không biết trước và nhiệm
vụ là xác định các tham số ẩn từ các tham số quan sát được, dựa trên sự thừa
nhận này. Các tham số của mô hình được rút ra sau đó có thể sử dụng để thực
hiện các phân tích kế tiếp, ví dụ cho các ứng dụng nhận dạng mẫu. HMM là một
tiến trình ngẫu nhiên kép, bao gồm mộ t tiến trình ẩn chuyển trạng thái theo chuỗi
Markov rời rạc và thuần nhất, xen kẽ với mộ t tiến trình phát sinh dãy định O1, sau
đó, tại thời điểm t = 2, mô hình chuyển sang trạng thái q2 và phát sinh ký hiệu
quan sát O2. Cứ tiếp tục như vậy cho đến thời điểm t = T, mô hình phát sinh được
dãy quan sát O = (O1, O2, …, OT) bằng dãy trạng thái Q = (q1, q2, …, qT). Dãy trạng
thái Q phụ thuộ c vào xác suất chọn trạng thái khởi đầu πi và xác suất chuyển aij.
Dãy ký hiệu quan sát {Ot} được HMM phát sinh ra phụ thuộ c vào dãy trạng thái Q
và các hàm đo xác suất phát xạ mẫu bj(.). Trong trường hợp tập V các ký hiệu
quan sát là không gian mẫu không đếm được, các hàm bj(.) có thể cho bằng hàm
mật độ của mộ t phân phối xác suất nào đó.

9.5 Phân phối Pareto


Phân phối Pareto được đặt tên theo Vilfredo Pareto và có thể được gọi là
phân phối luật quyền lực. Nó cũng liên quan đến nguyên tắc Pareto (hoặc quy
tắc 80/20) là một heuristic cho các biến ngẫu nhiên liên tục theo phân bố
Pareto, trong đó 80% các sự kiện được bao phủ bởi 20% phạm vi kết quả, ví
dụ: hầu hết các sự kiện được rút ra từ chỉ 20% phạm vi của biến liên tục.
Nguyên tắc Pareto chỉ là một sự độc quyền cho một phân phối Pareto cụ thể,
đặc biệt là phân phối Pareto Loại II, có lẽ thú vị nhất và chúng tôi sẽ tập trung
vào đó. Một số ví dụ về các tên miền có sự kiện phân phối Pareto bao gồm:
· Thu nhập của các hộ gia đình trong một quốc gia.
· Tổng doanh số bán sách.
· Điểm số của người chơi trong một đội thể thao.
Phân bố có thể được xác định bằng cách sử dụng một tham số:
· Hình dạng (alpha or α): Độ dốc của sự giảm dần trong xác suất.
Các giá trị cho tham số hình dạng thường nhỏ, chẳng hạn như từ 1 đến 3, với
nguyên tắc Pareto được đưa ra khi alpha được đặt thành 1.161. Chúng ta có
thể xác định một phân phối với hình dạng 1,1 và mẫu số ngẫu nhiên từ phân
phối này. Chúng ta có thể đạt được điều này bằng cách sử dụng hàm pareto()
NumPy.
# sample a pareto distribution
from numpy.random import pareto
# define the distribution
alpha = 1.1
n = 10
# generate the sample
sample = pareto(alpha, n)
print(sample)
Chạy ví dụ sẽ in ra 10 số được lấy mẫu ngẫu nhiên từ phân phối đã xác định.
[0.5049704 0.0140647 2.13105224 3.10991217 2.87575892 1.06602639
0.22776379 0.37405415 0.96618778 3.94789299]
Chúng ta có thể xác định phân bố Pareto bằng hàm pareto() SciPy và sau đó
tính toán các thuộc tính, chẳng hạn như khoảnh khắc, PDF, CDF và hơn thế
nữa. Ví dụ dưới đây xác định một loạt các quan sát từ 1 đến khoảng 10 và
tính toán xác suất và xác suất tích lũy cho mỗi loại và vẽ biểu đồ kết quả.
# pdf and cdf for a pareto distribution
from scipy.stats import pareto
from matplotlib import pyplot
# define distribution parameter
alpha = 1.5
# create distribution
dist = pareto(alpha)
# plot pdf
values = [value/10.0 for value in range(10, 100)]
probabilities = [dist.pdf(value) for value in values]
pyplot.plot(values, probabilities)
pyplot.show()
# plot cdf
cprobs = [dist.cdf(value) for value in values]
pyplot.plot(values, cprobs)
pyplot.show()
Việc chạy ví dụ đầu tiên sẽ tạo ra một biểu đồ đường kết quả so với xác suất,
hiển thị hình dạng phân phối xác suất Pareto quen thuộc.

Hình 9.5: Biểu đồ đường thẳng của các sự kiện so với xác suất hoặc hàm mật
độ xác suất cho phân phối Pareto.
Tiếp theo, xác suất tích lũy cho mỗi kết quả được tính toán và vẽ biểu đồ
dưới dạng biểu đồ đường thẳng, cho thấy mức tăng ít dốc hơn so với phân
phối hàm mũ đã thấy trong phần trước.

Hình 9.6: Biểu đồ dòng sự kiện so với xác suất tích lũy hoặc hàm mật độ tích
lũy cho phân phối Pareto.
10.1 Tổng quan hướng dẫn
Hướng dẫn này được chia thành bốn phần; đó là:
1. Mật độ xác suất
2. Tóm tắt mật độ bằng biểu đồ histogram
3. Ước tính mật độ tham số
4. Ước tính mật độ phi tham số
10.2 Mật độ xác suất
Một biến ngẫu nhiên x có phân phối xác suất p (x). Mối quan hệ giữa các kết quả
của một biến ngẫu nhiên và xác suất của nó được gọi là mật độ xác suất, hay đơn
giản là tỉ trọng. Nếu một biến ngẫu nhiên là liên tục, thì xác suất có thể được tính
bằng hàm mật độ xác suất, gọi tắt là PDF. Hình dạng của hàm mật độ xác suất trên
miền cho một biến ngẫu nhiên được gọi là phân phối xác suất và phân phối xác
suất chung có các tên, chẳng hạn như đồng nhất, bình thường, hàm mũ, v.v. Cho
một biến ngẫu nhiên, chúng tôi quan tâm đến mật độ xác suất của nó. Ví dụ, đưa ra
một mẫu ngẫu nhiên của một biến, chúng tôi có thể muốn biết những thứ như hình
dạng của phân phối xác suất, giá trị có khả năng xảy ra nhất, mức chênh lệch giá trị
và các thuộc tính khác. Biết phân phối xác suất cho một biến ngẫu nhiên có thể
giúp tính toán các khoảnh khắc phân phối, như giá trị trung bình và phương sai,
nhưng cũng có thể hữu ích cho các những cân nhắc, như xác định xem một quan
sát có thể xảy ra hoặc rất khó xảy ra và có thể là một ngoại lệ hoặc bất thường. Vấn
đề là, chúng ta có thể không biết phân phối xác suất cho một biến ngẫu nhiên.
Chúng tôi hiếm khi biết việc phân phối vì chúng tôi không có quyền truy cập vào
tất cả những gì có thể kết quả cho một biến ngẫu nhiên. Trên thực tế, tất cả những
gì chúng ta có thể tiếp cận là một mẫu quan sát. Như như vậy, chúng ta phải chọn
một phân phối xác suất. Vấn đề này được gọi là ước tính mật độ xác suất, hoặc đơn
giản là ước tính mật độ, như chúng tôi đang sử dụng các quan sát trong một mẫu
ngẫu nhiên để ước tính mật độ chung của các xác suất ngoài mẫu dữ liệu chúng tôi
có sẵn. Có một vài bước trong quy trình mật độ ước lượng cho một biến ngẫu
nhiên. Bước đầu tiên là xem xét mật độ quan sát trong mẫu ngẫu nhiên với biểu đồ
đơn giản. Từ biểu đồ, chúng tôi có thể xác định được một phân bố xác suất phổ
biến và dễ hiểu có thể được sử dụng, chẳng hạn như phân bổ. Nếu không, chúng
tôi có thể phải điều chỉnh một mô hình để ước tính phân phối. Trong các phần sau,
chúng ta sẽ lần lượt xem xét kỹ hơn từng bước một. chúng tôi sẽ tập trung vào dữ
liệu đơn biến, ví dụ: một biến ngẫu nhiên, trong hướng dẫn này để đơn giản hóa.
Mặc dù các bước có thể áp dụng cho dữ liệu đa lượng biến, chúng có thể trở nên
khó khăn hơn nếu số của các biến số tăng lên.
10.3 Tóm tắt mật độ bằng biểu đồ
Bước đầu tiên trong ước tính mật độ là tạo một biểu đồ của các quan sát trong ngẫu
nhiên mẫu vật. Biểu đồ là một âm mưu bao gồm việc nhóm các quan sát đầu tiên
vào các thùng và đếm số lượng sự kiện rơi vào mỗi thùng. Số lượng hoặc tần số
quan sát, trong mỗi bin sau đó được vẽ dưới dạng biểu đồ thanh với các thùng trên
trục x và tần số trên trục y. Việc lựa chọn số lượng thùng rất quan trọng vì nó kiểm
soát độ thô của phân phối (số thanh) và lần lượt, mật độ của các quan sát được vẽ
biểu đồ như thế nào. Nó là một tốt ý tưởng thử nghiệm với các kích thước thùng
khác nhau cho một mẫu dữ liệu nhất định để có nhiều góc nhìn hoặc các lượt xem
trên cùng một dữ liệu.\ Ví dụ: các quan sát từ 1 đến 100 có thể được chia thành 3
thùng (1-33, 34-66, 67-100), có thể quá thô hoặc 10 thùng (1-10, 11-20, ..., 91-
100), có thể chụp tốt hơn tỉ trọng. Một biểu đồ có thể được tạo bằng cách sử dụng
thư viện Matplotlib và hàm hist (). Dữ liệu được cung cấp dưới dạng đối số đầu
tiên và số lượng thùng được chỉ định thông qua các thùng đối số dưới dạng một số
nguyên (ví dụ: 10) hoặc dưới dạng một chuỗi các ranh giới của mỗi thùng (ví dụ:
[1, 34, 67, 100]). Đoạn mã dưới đây tạo một biểu đồ với 10 ngăn cho một mẫu dữ
liệu.

Liệt kê 10.1: Ví dụ về vẽ biểu đồ


Chúng tôi có thể tạo một mẫu ngẫu nhiên được rút ra từ phân phối chuẩn và giả
như chúng tôi không biết phân phối, sau đó tạo biểu đồ dữ liệu. Hàm NumPy bình
thường sẽ đạt được điều này và chúng tôi sẽ tạo ra 1.000 mẫu có giá trị trung bình
là 0 và độ lệch chuẩn là 1,
ví dụ. một Gaussian tiêu chuẩn. Ví dụ đầy đủ được liệt kê dưới đây.

Liệt kê 10.2: Ví dụ về vẽ biểu đồ có 10 thùng.


Chạy ví dụ sẽ rút ra một mẫu quan sát ngẫu nhiên và tạo biểu đồ với 10 thùng.
Chúng ta có thể thấy rõ hình dạng của phân phối chuẩn. Lưu ý rằng kết quả của
bạn sẽ khác với bản chất ngẫu nhiên của mẫu dữ liệu. Hãy thử chạy ví dụ một vài
lần.
Hình 10.1: Lô biểu đồ với 10 thùng của một mẫu dữ liệu ngẫu nhiên.
Chạy ví dụ với các thùng được đặt thành 3 làm cho phân phối chuẩn ít rõ ràng hơn

Hình 10.2: Lô biểu đồ với 3 thùng của một mẫu dữ liệu ngẫu nhiên.
Xem lại biểu đồ của một mẫu dữ liệu với một loạt các số lượng thùng khác nhau sẽ
hữu ích để xác định xem liệu mật độ có giống như một phân phối xác suất chung
hay không. Ở hầu hết các trường hợp, bạn sẽ thấy một phân phối đơn phương thức,
chẳng hạn như hình dạng chuông quen thuộc của bình thường, hình dạng phẳng
của đồng phục, hoặc hình dạng giảm dần hoặc tăng dần của hàm mũ hoặc Pareto
phân bổ. Bạn cũng có thể thấy các phân bố phức tạp, chẳng hạn như hai đỉnh
không biến mất với số lượng thùng khác nhau, được gọi là phân phối hai phương
thức, hoặc nhiều đỉnh, được gọi là như một phân phối đa phương thức. Bạn cũng
có thể thấy mật độ tăng đột biến cho một giá trị nhất định hoặc phạm vi giá trị nhỏ
chỉ ra các giá trị ngoại lệ, thường xảy ra ở phần cuối của phân phối ở xa từ phần
còn lại của mật độ.
10.4 Ước tính mật độ tham số
Hình dạng biểu đồ của hầu hết các mẫu ngẫu nhiên sẽ khớp với phân phối xác suất
nổi tiếng. Các phân phối phổ biến là phổ biến vì chúng xảy ra lặp đi lặp lại ở các
và đôi khi là các miền không mong muốn. Làm quen với các phân phối xác suất
phổ biến vì nó sẽ giúp bạn xác định một phân phối nhất định từ biểu đồ. Sau khi
xác định, bạn có thể cố gắng ước tính mật độ của biến ngẫu nhiên với phân phối
xác suất đã chọn. Điều này có thể đạt được bằng cách ước tính các tham số của
phân phối từ một mẫu ngẫu nhiên của dữ liệu. Ví dụ: phân phối chuẩn có hai tham
số: giá trị trung bình và tiêu chuẩn sự lệch lạc. Với hai tham số này, bây giờ chúng
ta biết hàm phân phối xác suất. Các thông số này có thể được ước tính từ dữ liệu
bằng cách tính giá trị trung bình của mẫu và mẫu độ lệch chuẩn. Chúng tôi gọi quá
trình này là ước tính mật độ tham số. Lý do là rằng chúng tôi đang sử dụng các
hàm được xác định trước để tóm tắt mối quan hệ giữa các quan sát và xác suất của
chúng có thể được kiểm soát hoặc cấu hình bằng các tham số, do đó là tham số.
Một lần chúng tôi đã ước tính mật độ, chúng tôi có thể kiểm tra xem nó có phù hợp
hay không. Điều này có thể được thực hiện bằng nhiều cách, nhu la:
· Vẽ đồ thị hàm mật độ và so sánh hình dạng với biểu đồ.
· Lấy mẫu hàm mật độ và so sánh mẫu tạo ra với mẫu thực.
· Sử dụng kiểm tra thống kê để xác nhận dữ liệu phù hợp với phân phối.
Chúng ta có thể chứng minh điều này bằng một ví dụ. Chúng tôi có thể tạo một
mẫu ngẫu nhiên gồm 100 quan sát từ phân phối chuẩn với giá trị trung bình là 50
và độ lệch chuẩn là 5.

Liệt kê 10.3: Ví dụ về lấy mẫu ngẫu nhiên một phân phối xác suất chuẩn.
Sau đó, chúng tôi có thể giả vờ rằng chúng tôi không biết phân phối xác suất và có
thể xem xét biểu đồ và đoán rằng nó là bình thường. Giả sử rằng nó là bình thường,
sau đó chúng ta có thể tính toán các tham số của phân phối, cụ thể là giá trị trung
bình và độ lệch chuẩn. Chúng tôi sẽ không mong đợi giá trị trung bình và độ lệch
chuẩn là 50 và 5 chính xác với kích thước mẫu nhỏ và nhiễu trong quá trình lấy
mẫu.

Liệt kê 10.4: Ví dụ về tính toán các khoảnh khắc của một mẫu dữ liệu.
Sau đó, điều chỉnh phân phối với các tham số này, được gọi là ước tính mật độ
tham số của mẫu dữ liệu của chúng tôi. Trong trường hợp này, chúng ta có thể sử
dụng hàm Norm () SciPy.

Liệt kê 10.5: Ví dụ về xác định phân phối xác suất chuẩn.


Sau đó, chúng tôi có thể lấy mẫu các xác suất từ phân phối này cho một loạt các
giá trị trong miền, trong trường hợp này là từ 30 đến 70.

Liệt kê 10.6: Ví dụ về tính xác suất mong đợi của các giá trị cụ thể.
Cuối cùng, chúng ta có thể vẽ biểu đồ của mẫu dữ liệu và chồng lên một biểu đồ
dòng của các xác suất được tính cho phạm vi giá trị từ PDF. Điều quan trọng,
chúng tôi có thể chuyển đổi số lượng hoặc tần số trong mỗi ô của biểu đồ thành
xác suất chuẩn hóa để đảm bảo trục y của biểu đồ khớp với trục y của biểu đồ
đường. Điều này có thể đạt được bằng cách thiết lập mật độ đối số là True trong
lệnh gọi hist ().

Liệt kê 10.7: Ví dụ về biểu đồ các giá trị quan sát được so với xác suất dự kiến.
Liên kết các đoạn mã này lại với nhau, ví dụ hoàn chỉnh về ước tính mật độ tham
số là được liệt kê dưới đây.

Liệt kê 10.8: Ví dụ về ước lượng mật độ xác suất tham số.


Việc chạy ví dụ trước tiên sẽ tạo ra mẫu dữ liệu, sau đó ước tính các tham số của
phân phối xác suất chuẩn. Lưu ý rằng kết quả của bạn sẽ khác nhau do tính chất
ngẫu nhiên của mẫu dữ liệu. Hãy thử chạy ví dụ một vài lần. Trong trường hợp
này, chúng ta có thể thấy rằng và độ lệch chuẩn có một số nhiễu và hơi khác so với
các giá trị mong đợi của 50 và 5 tương ứng. Tiếng ồn là nhỏ và phân phối dự kiến
sẽ vẫn phù hợp.

Liệt kê 10.9: Ví dụ đầu ra từ ước lượng mật độ xác suất tham số.
Tiếp theo, tệp PDF phù hợp bằng cách sử dụng các thông số ước tính và biểu đồ
của dữ liệu với 10 thùng được so sánh với xác suất cho một loạt các giá trị được
lấy mẫu từ PDF. Chúng tôi có thể thấy điều đó PDF là một kết hợp tốt cho dữ liệu
của chúng tôi.
Hình 10.3: Biểu đồ mẫu dữ liệu với lớp phủ hàm mật độ xác suất cho bình thường
Phân bổ.
Có thể dữ liệu khớp với phân phối xác suất chung, nhưng yêu cầu biến đổi trước
khi ước lượng mật độ tham số. Ví dụ: bạn có thể có các giá trị ngoại lệ xa trung
bình hoặc trung tâm của khối lượng của phân phối. Điều này có thể có ảnh hưởng
của đưa ra các ước tính không chính xác về các thông số phân phối và do đó, gây
ra tình trạng không phù hợp với dữ liệu. Những ngoại lệ này nên được loại bỏ
trước khi ước tính các tham số phân phối. Một ví dụ khác là dữ liệu có thể bị lệch
hoặc bị dịch chuyển sang trái hoặc phải. Trong trường hợp này, bạn có thể cần
phải chuyển đổi dữ liệu trước khi ước tính các tham số, chẳng hạn như lấy nhật ký
hoặc bình phương root, hoặc nói chung, sử dụng một phép biến đổi sức mạnh
như phép biến đổi Box-Cox. Những loại các sửa đổi đối với dữ liệu có thể không rõ
ràng và ước tính mật độ tham số hiệu quả có thể yêu cầu một quá trình lặp đi lặp
lại:
· Vòng lặp cho đến khi phù hợp với việc phân phối đến dữ liệu là đủ tốt:
1. Ước tính các tham số phân phối
2. Xem lại tệp PDF kết quả dựa trên dữ liệu
3. Chuyển đổi dữ liệu để phù hợp hơn với phân phối
10.5 Ước tính mật độ phi tham số
Trong một số trường hợp, một mẫu dữ liệu có thể không giống với phân bố xác
suất phổ biến hoặc không thể dễ dàng thực hiện để phù hợp với phân phối. Điều
này thường xảy ra khi dữ liệu có hai đỉnh (phân phối hai phương thức) hoặc nhiều
đỉnh (phân phối đa phương thức). Trong trường hợp này, mật độ tham số ước tính
là không khả thi và các phương pháp thay thế có thể được sử dụng mà không sử
dụng một phân phối chung. Thay vào đó, một thuật toán được sử dụng để xấp xỉ sự
phân bố xác suất của dữ liệu không có phân phối được xác định trước, được gọi là
phương pháp phi tham số.
Các phân phối vẫn sẽ có các thông số nhưng không thể kiểm soát trực tiếp trong
cùng một cách như phân phối xác suất đơn giản. Ví dụ, một phương pháp phi âm
thanh có thể ước tính mật độ bằng cách sử dụng tất cả các quan sát trong một mẫu
ngẫu nhiên, trong thực tế làm cho tất cả các quan sát trong thông số mẫu. Có lẽ
cách tiếp cận phi âm thanh phổ biến nhất để ước tính chức năng mật độ xác suất
của một ngẫu nhiên liên tục biến được gọi là làm mịn hạt nhân, hoặc ước tính mật
độ hạt nhân, gọi tắt là KDE.
· Ước tính mật độ Kernel: phương pháp phi tham số để sử dụng bộ dữ liệu
để ước tính xác suất cho các điểm mới.
Trong trường hợp này, hạt nhân là một hàm toán học trả về xác suất cho một giá trị
nhất định của một biến ngẫu nhiên. Hạt nhân làm mịn hoặc nội suy xác suất một
cách hiệu quả phạm vi kết quả cho một biến ngẫu nhiên như vậy tổng xác suất
bằng một, tổng các xác suất bằng một, một yêu cầu về xác suất hoạt động tốt. Chức
năng của hạt nhân có trọng số đóng góp của các quan sát từ một mẫu dữ liệu dựa
trên mối quan hệ hoặc khoảng cách của chúng với một mẫu truy vấn nhất định mà
xác suất được yêu cầu. Một tham số, được gọi là tham số làm mịn hoặc băng
thông, kiểm soát phạm vi, hoặc cửa sổ quan sát từ mẫu dữ liệu góp phần ước tính
xác suất cho một mẫu nhất định. Do đó, ước tính mật độ hạt nhân đôi khi được gọi
là cửa sổ Parzen-Rosenblatt, hoặc đơn giản là cửa sổ Parzen, theo tên các nhà phát
triển của phương pháp.
· Thông số làm mịn (băng thông): Tham số kiểm soát số lượng mẫu hoặc
cửa sổ các mẫu được sử dụng để ước tính xác suất cho một điểm mới.
Cửa sổ lớn có thể dẫn đến mật độ thô với ít chi tiết, trong khi cửa sổ nhỏ có thể có
quá nhiều chi tiết và không đủ mượt mà hoặc tổng quát để che phủ mới hoặc
những ví dụ chưa từng thấy. Sự đóng góp của các mẫu trong cửa sổ có thể được
định hình bằng cách sử dụng chức năng, đôi khi được gọi là chức năng cơ sở, ví
dụ: đồng phục bình thường, v.v., với khác nhau ảnh hưởng đến độ trơn của hàm
mật độ kết quả.
· Hàm cơ bản ( kernel): Hàm được chọn được sử dụng để kiểm soát sự đóng
góp của các mẫu trong tập dữ liệu nhằm ước tính xác suất của một điểm
mới.
Do đó, có thể hữu ích khi thử nghiệm với các kích thước cửa sổ khác nhau và các
chức năng đóng góp khác nhau và đánh giá kết quả dựa trên biểu đồ của dữ liệu.
Chúng tôi có thể chứng minh điều này với một ví dụ. Đầu tiên, chúng ta có thể xây
dựng phân phối hai phương thức bằng cách kết hợp các mẫu từ hai phân phối
chuẩn khác nhau. Cụ thể, 300 ví dụ với giá trị trung bình là 20 và tiêu chuẩn độ
lệch 5 (đỉnh nhỏ hơn) và 700 ví dụ với giá trị trung bình là 40 và độ lệch chuẩn là 5
(đỉnh lớn hơn). Các phương tiện được chọn gần nhau để đảm bảo phân phối chồng
lên nhau trong mẫu kết hợp. Ví dụ đầy đủ về việc tạo mẫu này với phân phối xác
suất hai phương thức và vẽ biểu đồ được liệt kê bên dưới.
# ví dụ về mẫu dữ liệu hai phương thức
from matplotlib import pyplot
from numpy.random import normal
from numpy import hstack
# tạo một mẫu
sample1 = normal(loc=20, scale=5, size=300)
sample2 = normal(loc=40, scale=5, size=700)
sample = hstack((sample1, sample2))
# vẽ biểu đồ histogram
pyplot.hist(sample, bins=50)
pyplot.show()
Mục lục 10.10: Ví dụ về việc tạo và vẽ một mẫu dữ liệu hai phương thức.
Chạy ví dụ sẽ tạo ra mẫu dữ liệu và vẽ biểu đồ. Lưu ý rằng kết quả của bạn sẽ khác
nhau do tính chất ngẫu nhiên của mẫu dữ liệu. Hãy thử chạy một vài ví dụ lần.
Chúng tôi có ít mẫu có giá trị trung bình là 20 so với các mẫu có giá trị trung bình
là 40, chúng ta có thể thấy điều này được phản ánh trong biểu đồ với mật độ mẫu
khoảng 40 lớn hơn so với khoảng 20. Dữ liệu với phân phối này không hoàn toàn
phù hợp với phân phối xác suất chung, theo thiết kế. Đây là một trường hợp tốt để
sử dụng phương pháp ước tính mật độ hạt nhân không tham số.

Hình 10.4: Lô biểu đồ của mẫu dữ liệu có phân phối xác suất hai mẫu.
Ước lượng mật độ nhân. Đầu tiên, lớp được xây dựng với các đối số băng thông
(kích thước cửa sổ) và hạt nhân (hàm cơ sở) mong muốn. Bạn nên thử nghiệm các
cấu hình khác nhau trên dữ liệu của bạn. Trong trường hợp này, chúng tôi sẽ thử
băng thông là 2 và nhân Gaussian. Sau đó, lớp được phù hợp trên một mẫu dữ liệu
thông qua hàm fit (). Hàm mong muốn dữ liệu có dạng 2D với biểu mẫu [hàng,
cột], do đó chúng tôi có thể định hình lại mẫu dữ liệu của mình để có 1.000 hàng
và 1 cột.
#mật độ phù hợp
model = KernelDensity(bandwidth=2, kernel='gaussian')
sample = sample.reshape((len(sample), 1))
model.fit(sample)
Liệt kê 10.11: Ví dụ xác định mô hình KernelDensity trên mẫu dữ liệu.
Sau đó, chúng tôi có thể đánh giá mức độ phù hợp của ước tính mật độ với dữ liệu
của chúng tôi bằng cách tính toán xác suất cho một loạt các quan sát và so sánh
hình dạng với biểu đồ, giống như chúng tôi đã làm đối với trường hợp tham số
trong phần trước. Hàm số điểm sample () trên KernelDensity sẽ tính toán xác suất
nhật ký cho một mảng mẫu. Chúng tôi có thể tạo một loạt các mẫu từ 1 đến 60, về
phạm vi miền của chúng tôi, tính toán xác suất nhật ký, sau đó đảo ngược hoạt
động nhật ký bằng cách tính số mũ hoặc exp () để trả lại các giá trị về phạm vi 0-1
cho xác suất bình thường.
# xác suất mẫu cho một loạt kết quả
values = asarray([value for value in range(1, 60)])
values = values.reshape((len(values), 1))
probabilities = model.score_samples(values)
probabilities = exp(probabilities)
Mục lục 10.12: Ví dụ ước tính xác suất cho các quan sát bằng cách sử dụng mô
hình phù hợp.
Cuối cùng, chúng ta có thể tạo một biểu đồ với các tần số chuẩn hóa và một biểu
đồ dòng lớp phủ các giá trị cho xác suất ước tính.
# vẽ biểu đồ histogram và pdf
pyplot.hist(sample, bins=50, density=True)
pyplot.plot(values[:], probabilities)
pyplot.show()
Liệt kê 10.13: Ví dụ về vẽ biểu đồ và mật độ xác suất ước tính của mẫu dữ liệu.
Liên kết điều này với nhau, ví dụ đầy đủ về ước tính mật độ hạt nhân cho
một mẫu dữ liệu hai phương thức được liệt kê dưới đây.
# ví dụ về ước tính mật độ kernel cho một mẫu dữ liệu hai phương thức
from matplotlib import pyplot
from numpy.random import normal
from numpy import hstack
from numpy import asarray
from numpy import exp
from sklearn.neighbors import KernelDensity
#tạo một mẫu
sample1 = normal(loc=20, scale=5, size=300)
sample2 = normal(loc=40, scale=5, size=700)
sample = hstack((sample1, sample2))
#mật độ phù hợp
model = KernelDensity(bandwidth=2, kernel='gaussian')
sample = sample.reshape((len(sample), 1))
model.fit(sample)
# xác suất mẫu cho một loạt kết quả
values = asarray([value for value in range(1, 60)])
values = values.reshape((len(values), 1))
probabilities = model.score_samples(values)
probabilities = exp(probabilities)
#vẽ biểu đồ histogram và pdf
pyplot.hist(sample, bins=50, density=True)
pyplot.plot(values[:], probabilities)
pyplot.show()
Mục lục 10.14: Ví dụ về ước tính mật độ hạt nhân cho một mẫu dữ liệu hai phương
thức.
Việc chạy ví dụ này sẽ tạo ra phân phối dữ liệu, phù hợp với mô hình ước tính mật
độ hạt nhân, sau đó vẽ biểu đồ của mẫu dữ liệu và PDF từ mô hình KDE. Lưu ý
rằng kết quả của bạn sẽ khác nhau do tính chất ngẫu nhiên của mẫu dữ liệu. Hãy
thử chạy ví dụ một vài lần. Trong trường hợp này, chúng ta có thể thấy rằng tệp
PDF phù hợp với biểu đồ. Nó không được trơn tru lắm và có thể được tạo ra nhiều
hơn bằng cách đặt đối số băng thông thành 3 mẫu hoặc cao hơn. Thử nghiệm với
các giá trị khác nhau của băng thông và chức năng hạt nhân.

Hình 10.5: Biểu đồ và Biểu đồ mật độ xác suất được ước tính thông qua ước
tính mật độ hạt nhân cho một mẫu dữ liệu song phương.
Lớp KernelDensity mạnh mẽ và hỗ trợ ước tính tệp PDF cho dữ liệu đa chiều.
10.7 Tóm tắt
Trong hướng dẫn này, bạn đã khám phá ra phần giới thiệu sơ qua về ước tính mật
độ xác suất. Cụ thể, bạn đã học được:
· Biểu đồ biểu đồ cung cấp một cách nhanh chóng và đáng tin cậy để hình
dung mật độ xác suất của mẫu dữ liệu.
· Ước tính mật độ xác suất tham số liên quan đến việc chọn một phân phối
chung và ước lượng các tham số cho hàm mật độ từ một mẫu dữ liệu.
· Ước tính mật độ xác suất phi tham số liên quan đến việc sử dụng một kỹ
thuật để điều chỉnh một mô hình với sự phân bố tùy ý của dữ liệu, như ước
tính mật độ hạt nhân.

You might also like