You are on page 1of 7

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TP.

HCM
KHOA CÔNG NGHỆ THỰC PHẨM

BÀI DỊCH TIẾNG ANH

MÔN: THIẾT Phần 2.3:


KẾ THÍ
NGHIỆM VÀ
XỬ LÍ SỐ LIỆU Determining
BẰNG
PHƯƠNG PHÁP
THỐNG KÊ
Power
GVHD: Lê Minh Tâm
SVTH:
Trần Thị Thu Hà (2022181014)
Ngô Thị Mỹ Duyên (2022180100)
Phan Thị Diễm Ngọc (2022180002)
Nguyễn Trần Minh Thư (2022181067)
PHẦN TIẾNG ANH

2.3 - Determining Power

We begin this part by defining the power of a hypothesis test. This also provides another
way of determining the sample size. The power is the probability of achieving the desired
outcome. What is the desired outcome of a hypothesis test? Usually rejecting the null
hypothesis. Therefore, power is the probability of rejecting the null hypothesis when in
fact the alternative hypothesis is true.

Decision H0 HA
Reject Null Hypothesis Type I Error - α OK
Accept Null Hypothesis OK Type II Error - β

Note! HÀ
P(Reject H0 | H0 is true) = α: P(Type I Error)

P(Accept H0 | HA is true) = β: P(Type II Error)

Therefore the power of the test is P(Reject H0 | HA is true) = 1-β.

Before any experiment is conducted you typically want to know how many observations
you will need to run. If you are performing a study to test a hypothesis, for instance in the
blood pressure example where we are measuring the efficacy of the blood pressure
medication, if the drug is effective there should be a difference in the blood pressure
before and after the medication. Therefore we want to reject our null hypothesis, and thus
we want the power (i.e. the probability of rejecting the H0 when it is false) to be as high
as possible.

We will describe an approach to determine the power, based on a set of operating


characteristic curves traditionally used in determining power for the t-test. Power depends
on the level of the test, α, the actual true difference in means, and n (the sample size).
Figure 2.13 (2.12 in 7th ed) in the text gives the operating characteristic curves where β is
calculated for n∗=2n−1 for an α=0.05 level test. When you design a study you usually
plan for equal sample size, since this gives the highest power in your results. We will
look at special cases where you might deviate from this but generally, this is the case. DUYÊN

To use the Figure in the text, we need to first calculate the difference in means measured
in numbers of standard deviation, i.e. |μ1−μ2|/σ. You can think of this as a signal to noise
ratio, i.e. how large or strong is the signal, |μ1−μ2|, in relation to the variation in the
measurements, σσ We are not using the symbols in the text, because the 2 editions
define d and δ differently. Different software packages or operating characteristic curves DUYÊN
may require either |μ1−μ2|/σ or |μ1−μ2|/2σ to compute sample sizes or estimate power, so
you need to be careful in reading the documentation. Minitab avoids this by asking for |
μ1−μ2| and σ separately, which seems like a very sensible solution.

Again,

Example calculations

Let's consider an example in the two sample situation. We will let α=.05, |μ1−μ2|=8 the
difference between the two means), and the sigma (assumed true standard deviation)
would equal 12, and finally, let the number of observations in each group n = 5.

In this case, |μ1−μ2|/σ=8/12=.66, and n∗=2n−1=9.

If you look at the Figure you get approximately a β of about 0.9. Therefore, power - or
the chance of rejecting the null hypothesis prior to doing the experiment is 1−β
or 1−0.9=0.1 or about ten percent of the time. With such low power we should not even
do the experiment! NGỌC
If we were willing to do a study that would only detect a true difference of, let's say, |
μ1−μ2|=18 then and n* would still equal 9, then figure 2-12 the Figure shows that β looks
to be about .5 and the power or chance of detecting a difference of 18 is also 5. This is
still not very satisfactory since we only have a 50/50 chance of detecting a true difference
of 18 even if it exists.

Finally, we calculate the power to detect this difference of 18 if we were to use n = 10


observations per group, which gives us n∗=19. For this case β=0.1 and thus power
=1−β=0.9 or 90%, which is quite satisfactory.

These calculations can also be done in Minitab as shown below. Under


the Menu > Stat > Power and Sample Size > 2-sample t, simply input sample sizes, n=10,
differences δ=18, and standard deviation σ=12.

Another way to improve power is to use a more efficient procedure - for example, if we
have paired observations we could use a paired t-test. For instance, if we used the
paired t-test, then we would expect to have a much smaller sigma – perhaps somewhere THƯ
around 2 rather than 12. So, our signal to noise ratio would be larger because the noise
component is smaller. We do pay a small price in doing this because our t-test would now
have degrees of freedom n−1, instead of 2n−2.

The take-home message here is:


If you can reduce variance or noise, then you can achieve an incredible savings in the
number of observations you have to collect. Therefore the benefit of a good design is to
get a lot more power for the same cost or much-decreased cost for the same power.

We now show another approach to calculating power, namely using software tools rather
than a graph. Let's take a look at how Minitab handles this below.

https://www.youtube.com/watch/ONq4t2aCpCY  [1] THƯ


You can use these dialog boxes to plug in the values that you have assumed and have
Minitab calculate the sample size for a specified power or the power that would result, for
a given sample size.

Try it!
Use the assumptions above, and confirm the calculations of power for these values.
PHẦN DỊCH
2.3. Xác định năng lực:
Chúng ta sẽ bắt đầu phần này bằng việc định nghĩa tầm quan trọng của bài kiểm tra giả
thuyết thống kê. Điều này cũng cung cấp một cách khác để xác định kích thước
mẫu. Năng lực là xác suất để đạt được kết quả mong muốn. Kết quả mong muốn của một
bài kiểm tra giả thuyết là gì? Thường bác bỏ giả thuyết vô hiệu. Do đó, năng lực là xác
suất bác bỏ giả thuyết vô hiệu trong khi thực tế giả thuyết thay thế là đúng.

Sự quyết định Ho HA

Bác bỏ giả thuyết vô hiệu Loại I lỗi - α Chấp nhận


Chấp nhận giả thuyết vô hiệu Chấp nhận Loại II lỗi - β

Ghi chú!

P( bác bỏ Ho | Ho là đúng) = α : P (lỗi loại I)

P( chấp nhận Ho | HA là đúng) = β : P (lỗi loại II)

Do đó năng lực của bài kiểm tra là P (bác bỏ Ho | HA là đúng) = 1- β


Trước khi tiến hành bất kì thí nghiệm nào, bạn thường sẽ muốn biết bạn cần phải thực
hiện bao nhiêu sự quan sát. Nếu bạn đang thực hiện một nghiên cứu để kiểm tra một giả
thuyết thống kê, ví dụ trong thí nghiệm đo huyết áp, chúng ta sẽ đo lường hiệu quả của
thuốc huyết áp, nếu thuốc có hiệu quả thì nên có sự thay đổi huyết áp trước và sau khi sử
dụng. Do đó, chúng tôi muốn bác bỏ giả thuyết vô hiệu của mình, và vì vậy chúng tôi
muốn có năng lực (tức là xác suất bác bỏ H0 khi nó sai) càng cao càng tốt.

Chúng ta sẽ mô tả cụ thể để xác định năng lực, dựa trên một tập hợp các đặc tính vận
hành đường cong thường được sử dụng để xác định năng lực cho t- test. Năng lực này
phụ thuộc vào mức độ của thử nghiệm α, sự khác biệt thực sự về ý nghĩa và n (cỡ
mẫu). Hình 2.13 (2.12 trong lần xuất bản thứ 7) trong văn bản đưa ra các đường cong đặc
tính vận hành trong đó β được tính cho n*= 2n -1 với α = 0,05 kiểm tra mức độ. Khi bạn
thiết kế một nghiên cứu bạn thường tiến hành cho cỡ mẫu bằng nhau, vì điều này mang
lại năng lực cao nhất trong kết quả của bạn. Chúng ta sẽ xem xét các trường hợp đặc biệt
mà bạn có thể đi lệch khỏi điều này nhưng nhìn chung đây là trường hợp.

Để sử dụng những con số trong văn bản, trước tiên chúng ta cần tính toán sự khác biệt
trong các biện pháp được đo bằng số độ lệch chuẩn, nghĩa là |μ1 - μ2|/σ. Bạn có thể xem
đây là tỷ lệ tín hiệu / nhiễu, tức là tín hiệu lớn hay mạnh |μ1 - μ2|, liên quan đến sự thay
đổi trong các phép đo, σ. Chúng tôi không sử dụng các ký hiệu trong văn bản, vì 2 phiên
bản xác định d và δ khác nhau. Các phần mềm khác nhau hoặc các đường cong đặc tính
vận hành có thể yêu cầu hoặc |μ1 - μ2|/σ hoặc là |μ1 - μ2|/2σ để tính kích thước mẫu hoặc
ước tính công suất, vì vậy bạn cần cẩn thận trong việc đọc tài liệu. Minitab tránh điều này
bằng cách yêu cầu |μ1 - μ2| và σ riêng biệt, có vẻ như đây là một giải pháp rất hợp lý.

Mặc khác,

Ví dụ tính toán

Hãy xem xét một ví dụ trong hai tình huống mẫu. Chúng tôi sẽ để α=0,05, |μ1-μ2|= 8 (sự
khác nhau giữa hai phương thức) và sigma (độ lệch chuẩn thực giả định) sẽ bằng 12, và
cuối cùng, cho số lượng quan sát trong mỗi nhóm n = 5.

Trong trường hợp này, |μ1-μ2|/σ =8/12= 0,66 và n*=2n-1= 9.

Nếu bạn nhìn vào hình bạn sẽ nhận được β khoảng 0,9. Do đó, năng lực - hoặc cơ hội bác
bỏ giả thuyết vô hiệu trước khi thực hiện thí nghiệm là 1-β hoặc 1-0,9=0,1 hoặc khoảng
mười phần trăm thời gian. Với khả năng thấp như vậy, chúng ta cũng không nên làm thí
nghiệm!

Nếu chúng ta sẵn sàng thực hiện một nghiên cứu chỉ phát hiện ra sự khác biệt thực sự, giả
sử, |μ1-μ2|=18 và n* vẫn sẽ bằng 9, sau đó hình 2-12 Hình cho thấy β khoảng là 0,5 và
năng lực hoặc cơ hội phát hiện sự khác biệt của 18 cũng là 5. Điều này không khả quan
lắm vì chúng ta chỉ có 50/50 cơ hội để phát hiện sự khác biệt thực của 18 ngay cả khi nó
tồn tại.

Cuối cùng, chúng tôi tính toán năng lực phát hiện sự khác biệt này là 18 nếu chúng tôi sử
dụng n = 10 sự quan sát cho mỗi nhóm, điều này mang lại cho chúng tôi n*=19. Đối với
trường hợp này β=0,1 và như vậy khả năng =1-β=0,9 hoặc 90%, là hoàn toàn thỏa đáng.

Những tính toán này cũng có thể được thực hiện trong Minitab như các bước sau đây.
Chọn Menu > Stat > Power and Sample Size > 2-sample t, đơn giản chỉ cần nhập kích
thước mẫu, n=10, sự khác biệt δ=18 và độ lệch chuẩn σ=12.

Một cách khác để cải thiện khả năng là sử dụng một quy trình hiệu quả hơn - ví dụ: nếu
chúng ta có các quan sát được các ghép nối, chúng ta có thể sử dụng một paired t- test. Ví
dụ, nếu chúng ta sử dụng paired t- test, thì chúng ta sẽ có một sigma nhỏ hơn nhiều - có lẽ
khoảng 2 chứ không phải 12. Vì vậy, tỷ lệ hiệu lệnh của chúng tôi sẽ lớn hơn vì thành
phần nhiễu nhỏ hơn. Chúng tôi phải trả một cái giá nhỏ khi làm điều này bởi vì t- test của
chúng tôi giờ sẽ có mức độ tự do n-1, thay vì 2n-2.
Thông điệp mang lại ở đây là:

Nếu bạn có thể giảm phương sai hay sự ồn ào, bạn có thể đạt được khoản tiết kiệm tuyệt
vời từ những quan sát mà bạn phải thu thập. Từ đó, lợi ích của 1 thiết kế tốt là đạt được
nhiều thế mạnh hơn khi bằng giá hoặc giảm giá nhiều hơn khi có cùng năng lực.

Bây giờ chúng tôi chỉ ra một cách tiếp cận khác để tính toán năng lực, cụ thể là sử dụng
các công cụ phần mềm thay vì biểu đồ. Hãy xem cách Minitab xử lý việc này dưới đây.

https://www.youtube.com/watch/ONq4t2aCpCY  [1] 

Bạn có thể sử dụng các hộp thoại này để cày các giá trị mà bạn đã giả định và để Minitab
tính toán kích thước mẫu cho một công suất cụ thể hoặc công suất sẽ tạo ra, cho một kích
thước mẫu nhất định.

Thử nó!
Sử dụng các giả định ở trên và xác nhận các tính toán công suất cho các giá trị này.

You might also like